首個 Token 前的幻覺信號：自回歸語言模型中的規模相關涌現現象

Before the First Token: Scale-Dependent Emergence of Hallucination Signals in Autoregressive Language Models

arXiv cs.CL · 2026-04-16

摘要

研究團隊發現大型語言模型中存在與幻覺相關的內部表示，而這些信號的出現與模型規模高度相關。在 400M 參數以下的模型中無法可靠檢測到真實性信號，但超過 1B 參數後，模型在生成第一個 token 之前就能展現出最強的可檢測性，揭示了模型決策幻覺的時間動態。這項發現對理解和改進大型語言模型的可靠性具有重要意義。

●開發者：可針對不同模型規模設計對抗幻覺的策略和檢測方法

●投資人：幻覺可控性的進展對 LLM 在金融、醫療等高風險領域的商業應用前景有積極影響

●一般用戶：有助推動更可信賴的 AI 助手在關鍵決策場景中的部署

重要性評分

76/100

🟠 值得關注

幻覺檢測語言模型規模內部表示

原文出處

上一則← 美國患者轉向 AI 求醫療建議，醫院計畫擴大部署聊天機器人下一則OpenAI 更新 Agents SDK，協助企業建構更安全且具備更高能力的 AI Agents →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。