新聞 5 / 8

研究突破

OpenAI 停止評估 SWE-bench Verified 基準測試

Why we no longer evaluate SWE-bench Verified

OpenAI Blog · 2026-02-23

摘要

OpenAI 發表分析指出 SWE-bench Verified 基準測試存在數據洩漏和測試缺陷問題,導致對前沿編程模型進度的評估不準確。OpenAI 建議轉向使用 SWE-bench Pro 作為更可靠的評測標準,以確保編程 AI 模型的真實性能評估。

開發者:需要採用 SWE-bench Pro 等更嚴格的基準來驗證編程模型品質

投資人:編程 AI 的真實進度評估存在偏差,需重新審視相關投資判斷

一般用戶:編程助手實際能力可能被高估,後續版本需更嚴格把關

重要性評分

78/100

🟠 值得關注

SWE-bench基準測試編程模型評估
原文出處
上一則AI agents 可能摧毀經濟下一則獨家電子書:2025年AI炒作的大修正

喜歡這篇內容?

訂閱 5min AI,每天早上 6 點收到最新 AI 新聞精選

相關指南

🤖 本文摘要由 AI 自動生成,內容源自原始報導。如有疑慮,請參閱關於我們

喜歡這篇內容?

訂閱 5min AI,每天早上 6 點收到最新 AI 新聞精選