
📰 2026-05-11 AI 日報


Google 讓 AI 能看懂圖片和影片,但我們連螢幕都懶得看了。
OpenAI 推出 API 新語音智慧功能,開啟即時對話新紀元
Google DeepMind 推出強大 AI 數學助手,強化人工智慧在科學領域的應用能力。OpenAI 則在安全防護和商業應用上加速布局,新推出的 Trusted Contact 自殺預防功能和 API 語音智慧功能展現對用戶保護的重視,同時與 PwC 合作擴大企業應用場景。AI 在軟體開發、好萊塢創意產業等領域的滲透持續加深,程式編寫代理正在改變維護成本結構。

Google DeepMind 推出強大 AI 數學助手
Google DeepMind 開發出一款功能強大的 AI 數學協作工具,能夠輔助數學家和開發者解決複雜的數學問題。同時,這類 AI 系統也開始被應用於自動化各類手動工作流程,展現出生成式 AI 在專業領域的實用價值。

ChatGPT 推出 Trusted Contact 功能:自殺預防新保障
OpenAI 在 ChatGPT 中推出名為 Trusted Contact 的可選安全功能,當系統檢測到用戶存在嚴重自傷風險時,會主動通知用戶指定的信任聯繫人。這是 AI 應用在心理健康領域的重要進展,體現了企業在技術發展中對用戶安全的責任承諾。

好萊塢電視工作者現在都在訓練 AI
曾在好萊塢製作電視節目的專業人士大量轉向 AI 訓練工作。這反映出傳統媒體製作業因 AI 衝擊而發生的職場劇變,許多創意工作者被迫轉行從事 AI 數據標註和模型訓練等工作,標誌著創意產業面臨的結構性變革。

Anthropic 的 Mythos 工具重塑 Firefox 網絡安全防禦方式
Anthropic 開發的 Mythos 安全工具在 Mozilla 研究人員的測試中發現了 Firefox 瀏覽器中大量高風險漏洞。這套工具利用 AI 能力自動化安全漏洞檢測,標誌著瀏覽器安全防護從被動修補向主動發掘的轉變,有助於在漏洞被惡意利用前就予以修復。

MedExAgent:訓練 LLM 代理在雜訊臨床環境中提問、檢查和診斷
研究團隊提出 MedExAgent,將臨床診斷建模為部分可觀測馬可夫決策過程(POMDP),讓 LLM 代理能夠通過提問、調用醫學檢查工具和出具診斷三類行動進行真實臨床診斷。該方法突破了現有醫療 LLM 的局限,不再簡化為單輪問答或無噪聲對話,而是納入不完整資訊、患者多樣化特徵等臨床實境的複雜性。

自固鞏語言模型:持續將上下文知識整合入模型權重
研究團隊提出 SCoL 框架,讓 LLM 能夠學習將當前對話和長文本內容的知識持久寫入模型權重,同時避免對已有知識造成破壞。這項技術採用後訓練方式和元強化學習,使模型能夠自主決定哪些 Transformer 層需要更新,解決長上下文模式下資訊保留和複用的核心挑戰。

MedAction:朝向主動多轮臨床診斷 LLM 邁進
研究團隊指出現有醫療 LLM 在真實臨床診斷中存在三大缺陷:無根據的檢查訂購、不可靠的診斷更新,以及多轮一致性下降。他們提出 MedAction 框架,透過樹狀結構蒸餾管道合成高品質的多轮診斷軌跡,讓模型學會在證據不完整且不斷演變的情況下進行推理與決策,更接近實際醫學實踐。

OpenAI 推出 API 新語音智慧功能
OpenAI 正式在 API 中引入新的語音智慧功能,旨在提升即時語音互動的體驗。這項更新不僅適用於客服系統,還涵蓋教育與創作者平台等多種場景,顯示 OpenAI 正積極將語音技術整合至更廣泛的應用生態系中。

OpenAI 與 PwC 合作重塑 CFO 辦公室
OpenAI 和普華永道(PwC)宣布戰略合作,利用 AI 智能體幫助企業自動化財務工作流程、改進預測能力、強化內控機制並現代化首席財務官職能。這一合作標誌著生成式 AI 在企業金融領域的重要應用,將深刻影響財務部門的運營方式和人力配置。

AI 程式編寫代理可降低維護成本
AI 編碼助手工具正在被用來自動化程式碼編寫工作,這類代理能夠顯著降低軟體開發和維護的成本。通過自動化重複性編碼任務,開發團隊可以將資源投入到更高價值的工作中,這標誌著開發工作流程的一次重要轉變。

傳真機成為美國醫療系統瓶頸,VC 開始關注自動化機會
美國醫療行業仍大量依賴傳真機處理行政工作,導致效率低下。AI 新創公司 Basata 等看準這個機會,開發自動化工具來簡化醫療行政流程,同時也面臨自動化是增強工作效率還是取代員工的倫理問題。

介紹 ChatGPT Futures:2026 級學生創新者
OpenAI 推出 ChatGPT Futures 計畫,集結 26 位學生創新者透過 AI 進行建構、研究與推動實際應用。這個世代正運用 ChatGPT 重新定義學習、創意與機會的方式,展示年輕人如何將 AI 工具轉化為現實影響力。
今日洞察
AI 產業正加速從單一模型競賽轉向多模態與即時互動的應用深化。OpenAI 透過 GPT-Realtime 系列模型降低語音代理成本,並結合 Gemini API 的多模態檔案搜尋能力,顯著提升企業處理複雜非結構化數據的效率。同時,Anthropic 營收達三百億美元年化,展現企業級 AI 代理市場的爆發性成長,證實商業護城河已穩固建立。然而,訓練數據中的文化敘事如虛構作品仍可能引發模型安全風險,顯示業界在追求效能與規模擴張的同時,必須同步強化對模型行為邊界與倫理安全的管控,以確保技術落地時的穩定性與可信賴度。
🔮 趨勢雷達
未來三至六個月,AI 產業將從單純的模型競賽轉向語音代理與多模態檢索的落地實戰。OpenAI 透過 GPT-Realtime 系列降低延遲與成本,預示即時語音客服與教育應用將在 Q3 成為企業標配,純文字對話將迅速邊緣化。同時,Google 的多模態 File Search 升級將迫使競爭對手跟進,企業級知識庫管理將全面納入影像與影片理解,純文本檢索需求將顯著降溫。Anthropic 的營收爆發證實 Agent 市場正迎來爆發期,但數據安全與倫理風險將成為新焦點,業界需重新審視訓練數據的文化偏見,否則模型行為失控將引發嚴重的合規危機,這將是下半年企業部署 AI 時的首要考量。