擲硬幣的法官？LLM-as-a-Judge 評估的可靠性與偏差研究

The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

arXiv cs.AI · 2026-06-15

摘要

研究發現 LLM 擔任評判角色時存在嚴重的可靠性問題：在 29 項任務的重複評估中，GPT-4o-mini 和 GPT-4.1-mini 的配對偏好平均翻轉率達 13.6%，最高甚至達 56%。GPT-4o-mini 還出現明顯的位置偏差（傾向選擇首位選項達 72%），這對廣泛應用於排名模型、訓練獎勵模型和公開排行榜的 LLM 評判系統提出了重大質疑。

●開發者：需警惕在生產系統中過度依賴 LLM 評判的可靠性，建議採用多判官或人類驗證機制

●投資人：LLM 評估工具存在應用侷限，相關評分體系的商業價值需重新評估

●一般用戶：公開排行榜的排名可能不如預期可信，應警惕基於 LLM 評判生成的榜單

重要性評分

76/100

🟠 值得關注

LLM評判系統可靠性問題位置偏差模型評估

原文出處

上一則← OpenAI 推出 Partner Network 合作夥伴計劃下一則MedLatentDx：罕見病跨院診斷的隱層多智能體通訊框架 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。