📰 2026-06-26 AI 日報

AI 模型知道自己在說謊,但就是沒辦法閉嘴
阿凱📝 主編觀點 · 反直覺觀點 — 大家都這樣想,但其實可能不是這樣

AI 模型知道自己在說謊,但就是沒辦法閉嘴

arXiv 上週出現了一篇讓我反覆重讀的論文,研究對象是 Google 的 Gemma 2-2B-it,結論直接打臉了 AI 安全領域過去幾年的核心信仰。 研究者發現一件很詭異的事:模型對自己何時在產生幻覺,其實有「感覺」。他們在模型內部找到了一個偵測幻覺的向量,準確率 AUC 高達 1.0——也就是完美偵測,沒有任何例外。模型在某種意義上「知道」自己要說錯話了。 但知道歸知道,它照樣說了。 原因出在幾何結構上。負責偵測幻覺的向量,跟負責讓模型「拒絕回答」的向量,夾角是 83 度——幾乎垂直。在向量空間裡,垂直代表毫無關聯。這就像一個人的大腦同時有「警報系統」和「剎車系統」,但兩套系統根本沒有接線。 這個發現對整個 Mechanistic Interpretability(機械可解釋性)研究圈是個大麻煩。這個領域過去幾年最流行的假設是:只要我們能在模型內部找到對應某個概念的向量,就能用它來控制模型的行為——找到「種族偏見向量」就能消除偏見,找到「說謊向量」就能讓模型更誠實。Anthropic、DeepMind 砸了大量資源在這個方向上。 但這篇論文說:偵測和干預是兩件事,住在模型內部不同的地方,彼此幾乎不說話。 對開發者來說,這個結果值得停下來想一想。很多人在做 AI 應用時,天真地以為只要模型「有能力識別」某個問題,就代表它有能力「避免」那個問題。不管是幻覺、有害內容、還是邏輯錯誤,都適用同樣的邏輯陷阱。 現實是:知道問題在哪裡,跟能不能修正問題,是完全不同的工程挑戰。 更讓人不安的是,如果連最基礎的幻覺控制都面臨這個結構性斷層,那些更複雜的對齊問題——讓 AI 真正「說到做到」——可能比我們預期的還要難解得多。AI 安全不缺偵測器,缺的是能真正接上去的剎車。
Claude 正在搶走 ChatGPT 的付費使用者
塵子💬 塵子觀點

Claude 正在搶走 ChatGPT 的付費使用者

我打開訂閱清單,發現自己多付了一筆錢給 Anthropic。不是因為我特別喜歡讀他們的安全報告,而是因為我發現自己已經習慣跟 Claude 說話了。 這聽起來很荒謬。ChatGPT 是那種在會議室裡搶先舉手、答案永遠又快又多的人。Claude 是那種說話不急、但你說完話之後會讓你覺得「他好像真的聽進去了」的人。現在,那些願意掏錢的使用者,正悄悄把目光轉向後者。 雖然 ChatGPT 的總使用人數仍遙遙領先,但付費市場的流向正在改變。這很像餐飲業發生的事:連鎖快餐店的來客數還是最高,但願意每個月固定付錢的那批人,開始轉向那家不打廣告、但服務生記得你點什麼的店。Anthropic 贏的不是流量,是這批人的習慣。 ChatGPT 的問題不是能力,是個性。你問它一件事,它給你五個選項、三個延伸建議,外加一段它覺得你該知道的補充。Claude 不這樣。你給它資訊,它整理好放在你面前,不搶話,不急著證明自己有多厲害。 我們花了幾千億美元訓練 AI,最後發現,付費使用者最在意的不是哪個模型更聰明,而是哪個模型不會讓人覺得煩。ChatGPT 還在努力讓你記得它,Claude 已經在努力讓你忘記它的存在。 這大概是 AI 產品化最荒謬的地方。技術成熟之後,競爭的關鍵不是誰的功能更多,而是誰能讓你覺得它不在那裡。 我懷疑這不只是產品偏好的問題。我們對資訊轟炸已經厭倦到,開始把「不被打擾」當成一種值得付錢的體驗。Anthropic 搶走的不是市場份額,是我們對「被教育」這件事的耐心。
🚀 產品速報2026-06-26

Alibaba Qwen-AgentWorld:不訓練代理行為,改預測環境回饋以提升效能

阿里巴巴 Qwen 團隊近期發布了一項名為 Qwen-AgentWorld 的技術突破,這不僅是模型能力的升級,更是自主代理(Autonomous Agent)開發範式的重大轉變。這項技術針對 MCP、網路搜尋、終端機操作等七大核心領域進行了深度優化,試圖解決當前大型語言模型在執行複雜多步驟任務時常見的效能瓶頸與不穩定問題。與傳統依賴強化學習或直接訓練模型輸出特定動作指令的方法不同,Qwen-AgentWorld 提出了一種全新的架構思路,即不再直接訓練模型去預測「該做什麼動作」,而是專注於預測「環境對動作的回饋結果」。 先說最重要的功能:預測環境回饋而非直接執行動作。在傳統的代理訓練中,模型需要學習在特定狀態下採取何種動作以獲得最大獎勵,這往往導致訓練過程極其不穩定且計算成本高昂。Qwen-AgentWorld 則通過讓模型學習預測環境在執行動作後的反饋,間接引導模型做出更優決策。這種方法將代理行為的學習過程轉化為對環境狀態變化的預測問題,不僅降低了訓練的複雜度,還顯著提升了模型在動態環境中的適應能力。...

Anthropic 的 Claude 正強勢攻佔由 ChatGPT 主導的付費消費者市場,同時 Alibaba 推出 Qwen-AgentWorld 透過預測環境回饋來提升代理效能。技術層面方面,PP-OCRv6 登陸 Hugging Face 支援五十種語言,而 Figma 則更新加入 Code Layers 與 AI 功能強化設計體驗。

Alibaba Qwen-AgentWorld:不訓練代理行為,改預測環境回饋以提升效能

Alibaba Qwen-AgentWorld:不訓練代理行為,改預測環境回饋以提升效能

Alibaba Qwen 團隊發布 Qwen-AgentWorld,這是一組針對 MCP、搜尋、終端機等七大領域優化的模型。其核心創新在於不直接訓練模型執行代理動作,而是專注於預測環境的回饋結果,這種方法在七個基準測試中均提升了代理效能,顯示出在自主代理領域的新技術突破。

AlibabaQwenAgent
VentureBeat AI
Anthropic 的 Claude 正在贏得付費消費者市場,該市場原由 ChatGPT 主導

Anthropic 的 Claude 正在贏得付費消費者市場,該市場原由 ChatGPT 主導

儘管 ChatGPT 在整體市場佔有率上仍具領先優勢,但數據顯示,願意為 AI 服務付費的消費者正逐漸轉向 Anthropic 的 Claude。這標誌著 AI 應用市場從單一巨頭壟斷走向雙強競爭的關鍵轉折,顯示 Claude 在產品體驗或定價策略上已獲得高價值用戶的認可。

AnthropicClaudeChatGPT
TechCrunch AI
Figma 更新加入 Code Layers、動畫支援與更多 AI 功能

Figma 更新加入 Code Layers、動畫支援與更多 AI 功能

Figma 發布重大更新,正式引入 Code Layers 功能,讓設計師能更直觀地將視覺設計轉換為前端程式碼結構。此次更新同時強化了動畫與 Shader 支援,並開放利用 AI 建立自訂插件,大幅縮短設計到開發的轉換流程,提升協作效率。

FigmaCode LayersAI 插件
TechCrunch AI
一鍵在 Hugging Face Jobs 上運行 vLLM Server

一鍵在 Hugging Face Jobs 上運行 vLLM Server

Hugging Face 推出新功能,讓開發者能透過單一指令直接在 HF Jobs 平台上部署 vLLM 推理伺服器。這項整合大幅簡化了大語言模型部署的複雜度,無需自行管理底層基礎設施即可快速啟動高效能推理服務。

vLLMHugging FaceLLM 部署
Hugging Face Blog
完美偵測卻無法控制:語言模型中「知」與「控」的幾何鴻溝

完美偵測卻無法控制:語言模型中「知」與「控」的幾何鴻溝

最新研究挑戰了機械可解釋性領域的核心假設,即「能偵測行為就能控制行為」。透過對 Gemma 2-2B-it 模型進行幾何分析,發現雖然模型能完美識別幻覺(AUC=1.0),但負責偵測幻覺的向量方向與負責產生拒絕回應的向量方向夾角高達 83 度。這顯示在語言模型內部,理解(Knowing)與干預(Steering)並非同一回事,為開發者提供了更精確的模型控制視角。

機械可解釋性語言模型幻覺偵測
arXiv cs.CL
PP-OCRv6 登陸 Hugging Face:參數擴增 23 倍,支援 50 種語言的 OCR 模型

PP-OCRv6 登陸 Hugging Face:參數擴增 23 倍,支援 50 種語言的 OCR 模型

百度 PaddleOCR 團隊發布了 PP-OCRv6 模型,將參數量從 1.5M 大幅擴展至 34.5M,並強化對 50 種語言的支援能力。此更新透過增加模型容量來提升多語言環境下的辨識準確率與魯棒性,為需要處理複雜多語場景的開發者提供了更強大的開源解決方案。

PP-OCRv6OCRHugging Face
Hugging Face Blog
Xiaomi HarnessX 動態重寫 AI 框架,小模型效能大幅提升

Xiaomi HarnessX 動態重寫 AI 框架,小模型效能大幅提升

小米研究團隊提出 HarnessX,解決傳統 AI Agent 執行器(Harness)靜態且需手動調整的瓶頸。該技術能根據執行環境的數據自動重寫軟體架構,讓較小的語言模型也能在複雜任務中獲得顯著的性能提升,為企業級 AI Agent 的開發提供了新的工程解決方案。

小米AI Agent動態框架
VentureBeat AI
OpenAI 與 Broadcom 推出專為 LLM 推理優化的 Jalapeño 晶片

OpenAI 與 Broadcom 推出專為 LLM 推理優化的 Jalapeño 晶片

OpenAI 與 Broadcom 合作推出客製化 AI 晶片 Jalapeño,專為大型語言模型(LLM)的推理階段設計。這款晶片旨在提升 AI 系統的效能、能源效率與擴展能力,顯示出頂尖模型供應商正積極透過硬體協同設計來突破運算瓶頸。

OpenAIBroadcomLLM
OpenAI Blog

今日洞察

AI 產業正經歷從基礎能力競賽轉向應用落地與控制精細化的關鍵階段。技術層面,阿里 Qwen-AgentWorld 透過預測環境回饋優化代理效能,結合 Hugging Face 簡化 vLLM 部署及百度 PP-OCRv6 的多語言強化,顯示開源生態正加速降低開發門檻並提升實用性。然而,研究揭示模型「知」與「控」的幾何鴻溝,提醒開發者需更謹慎處理模型可解釋性與控制機制。市場端,Anthropic Claude 在付費消費者市場挑戰 ChatGPT 壟斷,反映高價值用戶對產品體驗的重視。同時,Figma 整合 Code Layers 與 AI 插件,進一步縮短設計到開發的流程,標誌著 AI 工具鏈正深度融入專業工作流,推動產業向更高效、更可控的方向演進。

🔮 趨勢雷達

未來三至六個月,AI 產業將從單純的模型競賽轉向「可控性」與「落地效率」的深層博弈。Qwen-AgentWorld 與 Figma 的更新顯示,預測環境回饋與設計開發無縫接軌將成為企業級應用的主流標準,而非單純依賴代理行為訓練。同時,Anthropic 在付費市場的崛起證實高品質體驗已超越價格戰,迫使競爭者必須在產品力上做出實質突破。然而,機械可解釋性研究揭示的「知與控」鴻溝,將迫使開發者放棄黑盒依賴,轉向更精確的向量干預技術。此外,Hugging Face 簡化部署與百度多語言 OCR 的擴增,標誌著基礎設施門檻進一步降低,投資熱點將從底層基建轉向解決具體業務痛點的高階應用層,無法提供確定性控制力的模型將面臨市場淘汰。