📰 2026-06-15 AI 日報

阿凱📝 主編觀點 · 技術趨勢解讀 — 技術上發生什麼，為什麼重要，背後的原理是什麼

Google 想讓 AI 學會說「我猜是這樣，但不太確定」

Google 研究團隊上週發表了一篇論文，提出一個叫做「忠實不確定性」（faithful uncertainty）的概念，乍看像是在講哲學，但其實在解決一個讓所有人頭痛的工程問題：LLM 為什麼老是一臉自信地給你錯誤答案？現在的模型有個根本問題。它不知道自己不知道什麼。你問它一個生僻的醫療問題，它不會說「這題我沒把握」，它會直接給你一個聽起來非常合理、但可能完全錯誤的答案。這就是所謂的幻覺（hallucination），也是目前阻礙 AI 進入高風險應用場景——醫療、法律、金融——最大的障礙。 Google 這篇論文的核心思路是：不要讓模型假裝自己什麼都懂，而是訓練它做「元認知」，也就是讓模型能感知自己的信心程度。當確定性高，就給答案；當確定性低，就說「我最好的猜測是 X，但你最好再查一下」。聽起來很簡單，但這在技術上很麻煩。目前的訓練方式獎勵模型給出「正確答案」，沒有機制獎勵它說「我不知道」。更麻煩的是，怎麼定義「說出不確定性」算成功？是讓使用者不踩坑，還是讓 calibration curve 變漂亮？這些指標之間有時候是衝突的。這個方向如果真的 work，影響最直接的是 RAG 架構的應用。現在很多企業 chatbot 的設計是：把公司文件丟進去，讓模型回答問題。問題是，文件沒寫到的地方，模型會自己腦補。如果模型能準確標示「這個問題超出我的資料範圍」，整個 RAG 應用的可靠性會大幅提升，企業採購 AI 的顧慮也會少一大塊。 Anthropic 其實在 Claude 上已經做了一些類似的事，你有時候會看到它說「我不是百分之百確定，建議你查閱原始資料」。但這更多是 RLHF 調出來的行為模式，不是系統性的解法。Google 這篇論文想做的是更底層的訓練機制。 AI 會說「我猜是這樣」，聽起來是退步，其實是成熟。

塵子💬 塵子觀點

Anthropic 把頂級模型放出來了，但我們可能還沒學會怎麼跟它說話。

這就像你終於買了一台頂級跑車，結果發現自己只會開去便利商店買便當。Anthropic 開放的高階模型技術實力確實強悍，但對大多數人來說，它不過是另一個更聰明的聊天機器人。我們總以為工具升級，產出就會自動翻倍，但現實是：你只是更快地生產更多沒用的東西。 OpenAI 最近也在推課程，教大家用 AI 建立工作流。聽起來很美好，但當每個人都會用 AI 寫信、做簡報，這些技能的市場價值就同步蒸發。以前花三天寫的企劃書叫做專業，現在 AI 三秒鐘生成同等格式的內容，那個「三天」還值什麼？以前會打字是技能，現在打字是本能，沒有人會因為「會打字」被錄取。AI 寫作的軌跡正在複製同一條曲線。更諷刺的是，我們花錢買這些先進模型，卻只拿來做最基礎的事。Anthropic 的模型能處理複雜邏輯推演，我們卻用它幫我們寫「好的收到」。這不是技術的失敗，是使用者的懶惰。我們傾向於用最新科技解決最舊的問題，而不是用新思維去創造新的工作方式。所以當頂級模型送到你手上，別急著興奮。先問自己：我真的需要這台跑車，還是我只是想看起來很酷？真正的差距不在於你用了什麼模型，而在於你提出了什麼問題。問題平庸，再強的 AI 也只能交出平庸的答案。 SOURCE: Anthropic 向公眾開放 Mythos 級 AI 模型

🚀 產品速報2026-06-15

Anthropic 開放 Mythos 級 AI 模型，技術民主化邁出關鍵一步

Anthropic 正式宣布將高階的 Mythos 系列 AI 模型向公眾開放，這在人工智慧發展史上是一個重要的里程碑。過去，Anthropic 的頂級模型主要受限於大型企業客戶與特定的研究夥伴，一般開發者與大眾很難直接接觸到這些核心能力。這次開放公眾訪問，意味著開發者、研究人員乃至一般使用者，都能夠直接調用具備強大推理與生成能力的 Mythos 模型，大幅降低了使用先進人工智慧技術的門檻。先說最重要的功能亮點。第一，Mythos 系列代表了 Anthropic 在大型語言模型架構上的最新突破。該模型不僅在自然語言處理的準確性與語境理解上表現卓越，更在複雜邏輯推理、程式碼生成以及多模態任務處理上展現出顯著優勢。這意味著使用者可以處理更複雜的任務，例如撰寫長篇程式碼或分析多張圖片的關聯性。...

AI 技術發展進入新階段，Jeff Bezos 的 Prometheus 融資 120 億美元推動物理世界自主 AI 工程應用，同時 Anthropic 對外開放高階模型標誌著 AI 能力的民主化加速。然而 AI 裁員潮引發貧富差距擴大隱憂，OpenAI 面臨多州調查，產業在創新與監管的兩極間面臨前所未有的挑戰。

AI 裁員潮成為火藥桶：貧富差距急速擴大

數以萬計的科技工作者面臨裁員，同時少數 AI 內部人士的財富卻在急速膨脹。這種極端的不對等現象正在成為社會矛盾的導火索，引發關於 AI 時代財富分配和職場未來的深刻反思。

AI 裁員貧富差距職場衝擊

TechCrunch AI

Jeff Bezos 的 Prometheus 融資 120 億美元，打造物理世界的「人工通用工程師」

Bezos 支持的物理 AI 新創 Prometheus 完成 120 億美元融資，估值達 410 億美元。該公司致力於開發能自動化重工程和藥物設計的通用 AI 系統，標誌著 AI 從數位世界向物理世界應用的重要擴展。這輪融資規模龐大，反映出投資人對物理 AI 領域的信心。

物理AI通用人工智能自動化工程

TechCrunch AI

OpenAI 面臨多州檢察長調查

美國多個州的檢察長辦公室正式對 OpenAI 發起調查，涉及廣告政策、健康數據處理等多個方面。這反映出監管機構對 AI 公司數據隱私和商業行為的日益關注，標誌著 OpenAI 從快速擴張進入更嚴格的監管審查階段。

OpenAI監管調查隱私政策

TechCrunch AI

從聊天機器人到數位同事：持久自主 AI 的典範轉移

研究論文揭示 LLM 正從單純的對話生成工具進化成具備推理、行動、記憶和自我改進能力的綜合 AI 系統。這個轉變涵蓋兩個核心維度：認知層面從快速思考進階到 Thinking LLM，運用推論時計算和強化學習實現更可靠的思考；任務執行層面從臨時工具調用進化到 OpenClaw 式工作站系統，具備持久工作空間。這代表 AI 助手正式邁入能夠承擔長期工作職責的新時代。

LLM 進化持久自主 AI推理計算

arXiv cs.AI

OpenAI 推出 Partner Network 合作夥伴計劃

OpenAI 正式推出 Partner Network，投入 $150 億美元支持全球合作夥伴加速企業 AI 應用的採納、部署和轉型。這項計劃的核心目標是建立生態系統，幫助企業和開發者更容易將 OpenAI 的技術整合至自身業務中。

OpenAI企業合作AI 部署

OpenAI Blog

擲硬幣的法官？LLM-as-a-Judge 評估的可靠性與偏差研究

研究發現 LLM 擔任評判角色時存在嚴重的可靠性問題：在 29 項任務的重複評估中，GPT-4o-mini 和 GPT-4.1-mini 的配對偏好平均翻轉率達 13.6%，最高甚至達 56%。GPT-4o-mini 還出現明顯的位置偏差（傾向選擇首位選項達 72%），這對廣泛應用於排名模型、訓練獎勵模型和公開排行榜的 LLM 評判系統提出了重大質疑。

LLM評判系統可靠性問題位置偏差

arXiv cs.AI

MedLatentDx：罕見病跨院診斷的隱層多智能體通訊框架

研究團隊推出 MedLatentDx，一個針對罕見病診斷的多智能體協作系統。該框架讓多家醫院在保護患者隱私的前提下共享診斷證據，通過傳輸緊湊的潛在狀態（KV blocks）而非原始臨床文本，解決跨機構協作中的隱私規範限制問題。這對於罕見病診斷極為重要，因為單一醫院往往接觸的病例不足以形成可靠診斷。

罕見病診斷多智能體通訊隱私保護

arXiv cs.CL

LLM 道德判斷現「方向盲」：模型對有益和有害建議反應不對稱

研究發現大型語言模型在道德判斷上存在方向盲現象：在事實問題上，模型能區分有益和有害的引導（比例 1.58:1），但在道德問題上幾乎無差別接受兩種方向的建議（比例 1.04:1）。這項跨 9 個模型、972,000 次實驗的研究揭示了 LLM 對齊存在的關鍵漏洞，對話提示甚至會加劇這個問題，值得開發者在部署涉及倫理決策的系統時重視。

LLM 對齊道德判斷提示工程

arXiv cs.CL

ClinicalBERT 人口統計偏見計算審計：醫療 AI 模型的公平性分析

研究團隊對臨床語言模型 ClinicalBERT 進行系統性審計，揭示醫療文件中編碼的人口統計特徵（如種族、性別）如何滲透進模型的預測分佈。透過對數機率偏見分析和遮蔽語言模型兩種方法，在 98 個真實臨床句子模板上發現模型存在顯著的表示偏見，這對高風險臨床決策支援系統的公平性和可信度帶來重要警示。

ClinicalBERT演算法偏見臨床決策支援

arXiv cs.CL

Anthropic 向公眾開放 Mythos 級 AI 模型

Anthropic 正式將高階的 Mythos 系列 AI 模型開放給公眾使用，這標誌著其技術民主化的重要一步。此舉不僅讓開發者能更輕易地整合強大模型，也顯示 Anthropic 在競爭激烈的 AI 市場中積極擴大用戶基礎的策略意圖。

AnthropicMythosAI 模型

The Rundown AI

olmo-eval：模型開發循環的評估工作平台

Hugging Face 推出了 olmo-eval，這是一個專為模型開發循環設計的評估工作平台。該工具旨在簡化 AI 模型的測試與驗證流程，讓開發者能更高效地監控模型性能並進行迭代優化。

Hugging Face模型評估開發工具

Hugging Face Blog

機器學習在生物醫學拉曼光譜中的應用：從光譜採集到臨床轉譯

這篇綜述深入探討機器學習在生物醫學拉曼光譜分析全流程中的角色，涵蓋信號預處理、降噪、無監督結構探索到有監督診斷分類等多個環節。拉曼光譜可用於癌症診斷、分子分類和病原體識別，但其高維度、高噪聲特性使得強健的計算分析成為必需，機器學習成為橋接光譜數據與臨床應用的關鍵技術。

機器學習拉曼光譜生物醫學診斷

arXiv cs.LG

今日洞察

AI產業正處於技術普及與監管收緊的雙重夾擊下。Anthropic 開放 Mythos 模型展現技術民主化趨勢，卻因美國政府出口管制而全面封鎖，顯示地緣政治已直接干預模型存取，企業需高度警惕合規風險。同時，OpenAI 透過 Academy 推動系統化教育，降低應用門檻；Hugging Face 推出 olmo-eval 優化開發循環，加速模型迭代。然而，Google 起訴中國詐騙集團及提出「忠實不確定性」技術，凸顯 AI 濫用與幻覺問題的嚴峻性。整體而言，產業在追求效率與普及的同時，必須兼顧安全治理與倫理規範，以建立可信賴的 AI 生態系。

🔮 趨勢雷達

未來三至六個月，AI 產業將從技術競賽轉向地緣政治與合規的嚴峻考驗。Anthropic 被迫封鎖頂級模型顯示，出口管制已成為常態，企業必須加速建構本土化或合規的替代方案，依賴單一美國巨頭的風險將迫使供應鏈重組。同時，Google 與 Anthropic 的動作表明，解決幻覺與提升模型可靠性將是企業級應用的核心門檻，無法提供「忠實不確定性」的模型將被市場淘汰。OpenAI 推動教育與 Hugging Face 優化評估流程，預示著 AI 應用將進入標準化、工業化階段，投資熱錢將從基礎模型轉向具備明確合規路徑與高可靠性的垂直應用層，單純炒作概念的项目將面臨資金斷鏈。

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。