新聞 9 / 12

研究突破

Qwen3.5-Omni 技術報告發佈:百億參數多模態模型達到業界最強水準

Qwen3.5-Omni Technical Report

Qwen3.5-Omni 技術報告發佈:百億參數多模態模型達到業界最強水準

arXiv cs.CL · 2026-04-20

摘要

阿里開源團隊發佈 Qwen3.5-Omni 模型,規模達數百億參數,支援 256k 上下文長度,整合文字、視覺和音頻多模態能力。在 215 項音頻和音視頻理解、推理、互動任務上達到業界最強(SOTA),超越 Gemini-3.1 Pro 在多項音頻任務的表現,並支援超過 10 小時音頻處理和 400 秒視頻理解。

開發者:可基於 Omni 架構開發多模態應用,Hybrid Attention MoE 框架提供高效推理方案

投資人:多模態大模型領域競爭加劇,開源模型追上閉源領先者

一般用戶:未來應用可支援更長音頻對話和複雜多模態互動

重要性評分

78/100

🟠 值得關注

多模態模型Qwen3.5-Omni音視頻理解
原文出處
上一則Meta 的 AI 支出激增正推高 Quest 頭戴裝置價格下一則ASMR-Bench:ML 研究中的破壞行為審計基準

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。

相關指南

🤖 本文摘要由 AI 自動生成,內容源自原始報導。如有疑慮,請參閱關於我們

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。