完美偵測卻無法控制：語言模型中「知」與「控」的幾何鴻溝

Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models

arXiv cs.CL · 2026-06-25

摘要

最新研究挑戰了機械可解釋性領域的核心假設，即「能偵測行為就能控制行為」。透過對 Gemma 2-2B-it 模型進行幾何分析，發現雖然模型能完美識別幻覺（AUC=1.0），但負責偵測幻覺的向量方向與負責產生拒絕回應的向量方向夾角高達 83 度。這顯示在語言模型內部，理解（Knowing）與干預（Steering）並非同一回事，為開發者提供了更精確的模型控制視角。

●開發者：需重新評估基於激活向量進行模型干預的策略，注意偵測與控制向量的差異

●投資人：關注具備深度模型可解釋性技術的團隊，這可能影響 AI 安全與控制領域的估值

●一般用戶：此研究有助於提升 AI 回應的穩定性與可控性，減少不可預測的輸出

重要性評分

69/100

🟠 值得關注

機械可解釋性語言模型幻覺偵測向量控制Gemma

原文出處

上一則← 一鍵在 Hugging Face Jobs 上運行 vLLM Server 下一則PP-OCRv6 登陸 Hugging Face：參數擴增 23 倍，支援 50 種語言的 OCR 模型 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。