新聞 11 / 12

研究突破

DeepSeek-V4:朝向高效率百萬token上下文智能邁進

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

DeepSeek-V4:朝向高效率百萬token上下文智能邁進

arXiv cs.CL · 2026-06-19

摘要

DeepSeek 發佈 V4 系列預覽版,包括 DeepSeek-V4-Pro(1.6T參數,49B激活)和 DeepSeek-V4-Flash(284B參數,13B激活)兩款混合專家模型,均支持百萬token上下文長度。新系列採用混合注意力架構、流形約束超連接和 Muon 優化器等創新,在 32T+ 高品質token上進行預訓練,代表長上下文效率和模型優化的重大進展。

開發者:可基於百萬token上下文能力開發複雜應用,新架構設計值得研究

投資人:DeepSeek 在開源模型競爭中持續領先,MoE 效率優勢凸顯

一般用戶:超長上下文處理將支援更複雜的文件分析和多輪對話場景

重要性評分

78/100

🟠 值得關注

大語言模型長上下文混合專家模型
原文出處
上一則Noam Shazeer 加入 OpenAI下一則利用 OpenAI 推理模型協助醫師診斷兒童罕見遺傳疾病

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。

相關指南

🤖 本文摘要由 AI 自動生成,內容源自原始報導。如有疑慮,請參閱關於我們

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。