Qwen3.5-Omni 技術報告發佈：百億參數多模態模型達到業界最強水準

Qwen3.5-Omni Technical Report

arXiv cs.CL · 2026-04-20

摘要

阿里開源團隊發佈 Qwen3.5-Omni 模型，規模達數百億參數，支援 256k 上下文長度，整合文字、視覺和音頻多模態能力。在 215 項音頻和音視頻理解、推理、互動任務上達到業界最強（SOTA），超越 Gemini-3.1 Pro 在多項音頻任務的表現，並支援超過 10 小時音頻處理和 400 秒視頻理解。

●開發者：可基於 Omni 架構開發多模態應用，Hybrid Attention MoE 框架提供高效推理方案

●投資人：多模態大模型領域競爭加劇，開源模型追上閉源領先者

●一般用戶：未來應用可支援更長音頻對話和複雜多模態互動

重要性評分

78/100

🟠 值得關注

多模態模型Qwen3.5-Omni音視頻理解

原文出處

上一則← Meta 的 AI 支出激增正推高 Quest 頭戴裝置價格下一則ASMR-Bench：ML 研究中的破壞行為審計基準 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。