MoneyDJ新聞 2025-03-27 09:38:35 記者 新聞中心 報導
據陸媒報導,阿里巴巴(9988.HK)旗下阿里雲於今(27)日凌晨發布通義千問Qwen模型家族中新一代端到端多模態旗艦模型「Qwen2.5-Omni」,並於HuggingFace、ModelScope、DashScope和GitHub上開源;該模型專為全方位多模態感知設計,能夠無縫處理文本、圖像、音訊和頻片等多種輸入形式,並實時生成文本與自然語音合成輸出,可謂看、聽、說、寫樣樣精通。
具體來看,「Qwen2.5-Omni」主要特點包括全能創新架構、即時音視頻互動、自然流暢的語音生成、全模態性能優勢,以及卓越的端到端語音指令跟隨能力。
據官方指出,Qwen2.5-Omni採用Thinker-Talker雙核架構,Thinker模組如同大腦,負責處理文本、音訊、影片等多模態輸入,生成高層語義表徵及對應文本內容;Talker模組則類似發聲器官,以流式方式接收Thinker即時輸出的語義表徵與文本,流暢合成離散語音單元。Thinker基於Transformer解碼器架構,融合音訊/圖像編碼器進行特徵提取;Talker則採用雙軌自回歸Transformer解碼器設計,在訓練和推理過程中直接接收來自Thinker的高維表徵,並共用全部歷史上下文資訊,形成端到端的統一模型架構。
模型性能方面,Qwen2.5-Omni在包括圖像,音訊,音視頻等各種模態下表現都優於類似大小的單模態模型及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模態任務OmniBench,Qwen2.5-Omni達到了SOTA的表現。此外,在單模態任務中,Qwen2.5-Omni在多個領域中表現優異,包括語音辨識(CommonVoice)、翻譯(CoVoST2)、音訊理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)及語音生成(Seed-tts-eval和主觀自然聽感)。