📰 2026-06-15 AI 日報

Google 想讓 AI 學會說「我猜是這樣,但不太確定」
阿凱📝 主編觀點 · 技術趨勢解讀 — 技術上發生什麼,為什麼重要,背後的原理是什麼

Google 想讓 AI 學會說「我猜是這樣,但不太確定」

Google 研究團隊上週發表了一篇論文,提出一個叫做「忠實不確定性」(faithful uncertainty)的概念,乍看像是在講哲學,但其實在解決一個讓所有人頭痛的工程問題:LLM 為什麼老是一臉自信地給你錯誤答案? 現在的模型有個根本問題。它不知道自己不知道什麼。你問它一個生僻的醫療問題,它不會說「這題我沒把握」,它會直接給你一個聽起來非常合理、但可能完全錯誤的答案。這就是所謂的幻覺(hallucination),也是目前阻礙 AI 進入高風險應用場景——醫療、法律、金融——最大的障礙。 Google 這篇論文的核心思路是:不要讓模型假裝自己什麼都懂,而是訓練它做「元認知」,也就是讓模型能感知自己的信心程度。當確定性高,就給答案;當確定性低,就說「我最好的猜測是 X,但你最好再查一下」。 聽起來很簡單,但這在技術上很麻煩。目前的訓練方式獎勵模型給出「正確答案」,沒有機制獎勵它說「我不知道」。更麻煩的是,怎麼定義「說出不確定性」算成功?是讓使用者不踩坑,還是讓 calibration curve 變漂亮?這些指標之間有時候是衝突的。 這個方向如果真的 work,影響最直接的是 RAG 架構的應用。現在很多企業 chatbot 的設計是:把公司文件丟進去,讓模型回答問題。問題是,文件沒寫到的地方,模型會自己腦補。如果模型能準確標示「這個問題超出我的資料範圍」,整個 RAG 應用的可靠性會大幅提升,企業採購 AI 的顧慮也會少一大塊。 Anthropic 其實在 Claude 上已經做了一些類似的事,你有時候會看到它說「我不是百分之百確定,建議你查閱原始資料」。但這更多是 RLHF 調出來的行為模式,不是系統性的解法。Google 這篇論文想做的是更底層的訓練機制。 AI 會說「我猜是這樣」,聽起來是退步,其實是成熟。
Anthropic 把頂級模型放出來了,但我們可能還沒學會怎麼跟它說話。
塵子💬 塵子觀點

Anthropic 把頂級模型放出來了,但我們可能還沒學會怎麼跟它說話。

這就像你終於買了一台頂級跑車,結果發現自己只會開去便利商店買便當。Anthropic 開放的高階模型技術實力確實強悍,但對大多數人來說,它不過是另一個更聰明的聊天機器人。我們總以為工具升級,產出就會自動翻倍,但現實是:你只是更快地生產更多沒用的東西。 OpenAI 最近也在推課程,教大家用 AI 建立工作流。聽起來很美好,但當每個人都會用 AI 寫信、做簡報,這些技能的市場價值就同步蒸發。以前花三天寫的企劃書叫做專業,現在 AI 三秒鐘生成同等格式的內容,那個「三天」還值什麼?以前會打字是技能,現在打字是本能,沒有人會因為「會打字」被錄取。AI 寫作的軌跡正在複製同一條曲線。 更諷刺的是,我們花錢買這些先進模型,卻只拿來做最基礎的事。Anthropic 的模型能處理複雜邏輯推演,我們卻用它幫我們寫「好的收到」。這不是技術的失敗,是使用者的懶惰。我們傾向於用最新科技解決最舊的問題,而不是用新思維去創造新的工作方式。 所以當頂級模型送到你手上,別急著興奮。先問自己:我真的需要這台跑車,還是我只是想看起來很酷?真正的差距不在於你用了什麼模型,而在於你提出了什麼問題。問題平庸,再強的 AI 也只能交出平庸的答案。 SOURCE: Anthropic 向公眾開放 Mythos 級 AI 模型
🚀 產品速報2026-06-15

Anthropic 開放 Mythos 級 AI 模型,技術民主化邁出關鍵一步

Anthropic 正式宣布將高階的 Mythos 系列 AI 模型向公眾開放,這在人工智慧發展史上是一個重要的里程碑。過去,Anthropic 的頂級模型主要受限於大型企業客戶與特定的研究夥伴,一般開發者與大眾很難直接接觸到這些核心能力。這次開放公眾訪問,意味著開發者、研究人員乃至一般使用者,都能夠直接調用具備強大推理與生成能力的 Mythos 模型,大幅降低了使用先進人工智慧技術的門檻。 先說最重要的功能亮點。第一,Mythos 系列代表了 Anthropic 在大型語言模型架構上的最新突破。該模型不僅在自然語言處理的準確性與語境理解上表現卓越,更在複雜邏輯推理、程式碼生成以及多模態任務處理上展現出顯著優勢。這意味著使用者可以處理更複雜的任務,例如撰寫長篇程式碼或分析多張圖片的關聯性。...

Anthropic 在短暫開放 Mythos 級模型後,隨即接獲美國政府命令全面封鎖存取,引發業界對 AI 安全與監管邊界的關注。同時 Google 針對利用 AI 詐騙的中國犯罪集團提起訴訟,並提出「忠實不確定性」概念以減少大型語言模型的幻覺問題。OpenAI 亦推出新課程培養下一代工作技能,展現科技巨頭在技術治理與人才培育上的雙軌佈局。

Anthropic 向公眾開放 Mythos 級 AI 模型

Anthropic 向公眾開放 Mythos 級 AI 模型

Anthropic 正式將高階的 Mythos 系列 AI 模型開放給公眾使用,這標誌著其技術民主化的重要一步。此舉不僅讓開發者能更輕易地整合強大模型,也顯示 Anthropic 在競爭激烈的 AI 市場中積極擴大用戶基礎的策略意圖。

AnthropicMythosAI 模型
The Rundown AI
Anthropic 接美國政府命令,全面封鎖 Claude Fable 5 與 Mythos 5 公開存取

Anthropic 接美國政府命令,全面封鎖 Claude Fable 5 與 Mythos 5 公開存取

美國政府基於國家安全考量,發布出口管制指令要求 Anthropic 立即停止向外國人提供頂級模型 Claude Fable 5 與 Mythos 5 的服務。Anthropic 迅速響應,將全球所有公開存取管道關閉,導致目前全球用戶皆無法使用這兩款模型。此舉顯示地緣政治因素已直接介入 AI 模型的存取權限,企業需重新評估依賴美國 AI 服務的合規風險。

AnthropicClaude出口管制
VentureBeat AI
OpenAI Academy 推出新課程,打造下一世代工作技能

OpenAI Academy 推出新課程,打造下一世代工作技能

OpenAI 正式推出三門新的 Academy 課程,專注於培養實用的 AI 技能、建立可重複的工作流程,以及將 AI Agent 應用於日常工作中。這標誌著 OpenAI 從單純提供模型轉向系統化教育,旨在降低使用者掌握先進 AI 工具的門檻,並推動企業與個人更高效地整合 AI 於工作流程中。

OpenAIAI 教育Agent
OpenAI Blog
olmo-eval:模型開發循環的評估工作平台

olmo-eval:模型開發循環的評估工作平台

Hugging Face 推出了 olmo-eval,這是一個專為模型開發循環設計的評估工作平台。該工具旨在簡化 AI 模型的測試與驗證流程,讓開發者能更高效地監控模型性能並進行迭代優化。

Hugging Face模型評估開發工具
Hugging Face Blog
Google 起訴利用 AI 詐騙數十萬受害者的中國犯罪集團「Outsider Enterprise」

Google 起訴利用 AI 詐騙數十萬受害者的中國犯罪集團「Outsider Enterprise」

Google 正式對一個名為「Outsider Enterprise」的中國網絡犯罪集團提起訴訟,指控其利用生成式 AI 技術自動化發送超過 250 萬條詐騙簡訊,受害者高達數十萬人。此案件凸顯了 AI 技術被濫用於大規模網絡釣魚與詐騙的嚴重性,也顯示科技巨頭正積極透過法律手段打擊 AI 犯罪。

GoogleAI 詐騙網絡安全
TechCrunch AI
Google 研究員提出「忠實不確定性」,讓 LLM 能給出最佳猜測而非幻覺

Google 研究員提出「忠實不確定性」,讓 LLM 能給出最佳猜測而非幻覺

Google 研究團隊發表新論文,提出「忠實不確定性」(faithful uncertainty)概念,旨在解決大型語言模型常見的幻覺問題。這項元認知技術讓模型在無法確定答案時,能更誠實地表達不確定性並提供最佳猜測,而非強行給出錯誤資訊,這對於提升企業級應用的可靠性至關重要。

GoogleLLM幻覺
VentureBeat AI
將 GitHub CI 遷移至 Hugging Face Jobs

將 GitHub CI 遷移至 Hugging Face Jobs

Hugging Face 推出新功能,協助開發者將原本在 GitHub Actions 中的 CI/CD 流程遷移至 Hugging Face Jobs。這項更新讓模型訓練與評估工作能直接在 Hugging Face 生態系內執行,簡化了從程式碼提交到模型部署的整體工作流。

Hugging FaceCI/CDGitHub Actions
Hugging Face Blog
Ponytail – 讓你的 AI Agent 像最懶的資深開發者一樣思考

Ponytail – 讓你的 AI Agent 像最懶的資深開發者一樣思考

Ponytail 是一個旨在優化 AI Agent 行為的工具,透過模擬資深開發者的思維模式,讓 AI 在處理程式碼或任務時更加高效且具備直覺。這項技術對於希望降低 AI 開發成本並提升自動化品質的團隊來說,提供了一種新的調校思路。

AI Agent開發者工具自動化
Hacker News

今日洞察

AI產業正處於技術普及與監管收緊的雙重夾擊下。Anthropic 開放 Mythos 模型展現技術民主化趨勢,卻因美國政府出口管制而全面封鎖,顯示地緣政治已直接干預模型存取,企業需高度警惕合規風險。同時,OpenAI 透過 Academy 推動系統化教育,降低應用門檻;Hugging Face 推出 olmo-eval 優化開發循環,加速模型迭代。然而,Google 起訴中國詐騙集團及提出「忠實不確定性」技術,凸顯 AI 濫用與幻覺問題的嚴峻性。整體而言,產業在追求效率與普及的同時,必須兼顧安全治理與倫理規範,以建立可信賴的 AI 生態系。

🔮 趨勢雷達

未來三至六個月,AI 產業將從技術競賽轉向地緣政治與合規的嚴峻考驗。Anthropic 被迫封鎖頂級模型顯示,出口管制已成為常態,企業必須加速建構本土化或合規的替代方案,依賴單一美國巨頭的風險將迫使供應鏈重組。同時,Google 與 Anthropic 的動作表明,解決幻覺與提升模型可靠性將是企業級應用的核心門檻,無法提供「忠實不確定性」的模型將被市場淘汰。OpenAI 推動教育與 Hugging Face 優化評估流程,預示著 AI 應用將進入標準化、工業化階段,投資熱錢將從基礎模型轉向具備明確合規路徑與高可靠性的垂直應用層,單純炒作概念的项目將面臨資金斷鏈。

延伸閱讀