DeepSeek-V4：朝向高效率百萬token上下文智能邁進

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

arXiv cs.CL · 2026-06-19

摘要

DeepSeek 發佈 V4 系列預覽版，包括 DeepSeek-V4-Pro（1.6T參數，49B激活）和 DeepSeek-V4-Flash（284B參數，13B激活）兩款混合專家模型，均支持百萬token上下文長度。新系列採用混合注意力架構、流形約束超連接和 Muon 優化器等創新，在 32T+ 高品質token上進行預訓練，代表長上下文效率和模型優化的重大進展。

●開發者：可基於百萬token上下文能力開發複雜應用，新架構設計值得研究

●投資人：DeepSeek 在開源模型競爭中持續領先，MoE 效率優勢凸顯

●一般用戶：超長上下文處理將支援更複雜的文件分析和多輪對話場景

重要性評分

78/100

🟠 值得關注

大語言模型長上下文混合專家模型

原文出處

上一則← Noam Shazeer 加入 OpenAI 下一則利用 OpenAI 推理模型協助醫師診斷兒童罕見遺傳疾病 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。