MoneyDJ新聞 2025-03-17 13:41:08 記者 新聞中心 報導
綜合陸媒報導,小米技術官方微博今(17)日發文表示,小米大模型團隊在音訊推理領域取得突破性進展。受DeepSeek-R1啟發,團隊率先將強化學習演算法應用於多模態音訊理解任務,僅用一週時間即以64.5%的SOTA準確率登頂國際權威的MMAU音訊理解評測榜首;現同步開源。
在大模型時代,人們已經不滿足於機器僅僅識別說話的內容、聲音的種類,更期望機器具備複雜推理的能力,例如面對一段汽車行駛中的座艙錄音,AI能否判斷出汽車是否存在潛在的故障等。MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集是一個測試音訊推理能力的重要標準,涵蓋了一萬條語音、環境音和音樂樣本,意在考察模型在多種技能上的表現。作為基準上限,人類專家在MMAU上的準確率為82.23%。在該評測集上,OpenAI GPT-4o準確率為57.3%,Google Deep Mind的Gemini 2.0 Flash準確率為55.6%。
在小米團隊的研究中,他們最初使用了北京清華大學發布的AVQA數據集進行微調,取得了51.8%的準確率。但真正的突破是在將DeepSeek-R1的Group Relative Policy Optimization(GRPO)演算法應用到Qwen2-Audio-7B模型後,僅用AVQA的3.8萬條訓練樣本就實現了64.5%的準確率,超越了現有的商業模型。
研究團隊發現,當在訓練過程中強制模型輸出推理過程時,準確率反而下降至61.1%,這表明顯式的思維鏈輸出可能不利於模型訓練,強化學習的即時回饋機制更有助於模型鎖定高品質答案的分布區域;儘管他們已經取得了顯著的準確率,但仍然距離人類專家的水準存在差距。