📰 2026-05-11 AI 日報

OpenAI 把語音 AI 的成本打下來了,語音代理這條路終於通了
阿凱📝 主編觀點 · 技術趨勢解讀 — 技術上發生什麼,為什麼重要,背後的原理是什麼

OpenAI 把語音 AI 的成本打下來了,語音代理這條路終於通了

OpenAI 這次悄悄丟出三顆炸彈:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。光看名字可能覺得沒什麼,但背後解決的問題,才是真正的重點。 語音代理(Voice Agent)這個概念喊了快兩年,但一直卡在兩個死穴:太貴,還有上下文限制。想像你開車時用語音助理導航、問問題、訂餐廳,對話一長,AI 就開始「失憶」——因為舊的語音串流吃掉了太多 context window,系統得不斷做狀態壓縮,既耗計算資源,又容易出錯。開發者為了繞過這個問題,要自己寫一堆狀態重構的 boilerplate code,根本就是在用工程時間填技術債。 GPT-Realtime-2 這次帶進了 GPT-5 等級的推理能力,同時大幅拉低延遲。更重要的是,它讓語音模型可以直接接進更複雜的 Agent 堆疊,不用再靠外掛的壓縮機制撐場面。GPT-Realtime-Translate 則是直接做即時翻譯,客服、醫療、跨國會議這些場景一口氣全打開。 這背後有個大方向在跑:OpenAI 正在把語音從「好玩的功能」變成「基礎建設」。過去語音 API 是旁枝,現在它要成為 Agent 架構的標準入口之一。就像當年 REST API 把 HTTP 從網頁協議變成萬用溝通格式,這次 OpenAI 想對語音做同一件事。 同一天,Anthropic 也公布年化營收衝到 300 億美元,較一年前成長了整整 80 倍。這個數字說明了企業買單的速度比任何人預期的都快,而且主要是企業級 Agent 應用在拉動。兩家公司同一天都在證明同一件事:AI 正在從「展示品」變成「工作系統」的核心零件。 對開發者來說,現在值得認真評估:你的產品有沒有語音的入口?這道門以前太貴、太難維護,現在技術成本正在快速下降。第一批把語音代理跑起來的產品,往往就是接下來兩年的護城河。
Google 讓 AI 能看懂圖片和影片,但我們連螢幕都懶得看了。
塵子💬 塵子觀點

Google 讓 AI 能看懂圖片和影片,但我們連螢幕都懶得看了。

Google 宣布 Gemini API 的檔案搜尋功能支援多模態,開發者現在可以上傳圖片、影片,讓 AI 直接理解視覺內容。對於每天要處理幾百張產品照片或影片截圖的企業來說,這確實省去了人工標記的麻煩。 但問題是,我們對視覺內容的注意力早就稀釋殆盡。你上一次認真看完一支三分鐘說明影片是什麼時候?大多數時候我們只是滑過去,或把它開著當白噪音。現在 AI 能精讀這些內容,代表它比你更認真對待那些你早已視而不見的數位垃圾。 荒謬的地方在這:我們花幾千億美元訓練 AI 理解複雜的視覺資訊,自己卻連朋友傳來的限時動態都懶得看完。AI 愈來愈會看,人類愈來愈不看。 這不只是技術升級,是注意力的重新分配。當 AI 能瞬間從大量影片和圖片中提取關鍵資訊,人類的工作就不再是「尋找」,而是「判斷」。問題是,判斷力需要時間和專注,而這正是現在最稀缺的東西。 所以,當 Google 讓 AI 看懂你的整個影片庫時,真正該擔心的不是它會不會比你更了解你自己,而是你根本沒時間去確認它到底看懂了什麼。 SOURCE: Gemini API File Search 現已支援多模態
🚀 產品速報2026-05-11

OpenAI 推出 API 新語音智慧功能,開啟即時對話新紀元

OpenAI 正式在其 API 服務中引入全新的語音智慧功能,這標誌著人工智慧從純文本交互向多模態即時語音互動的重大跨越。這項更新不僅僅是技術層面的迭代,更是 OpenAI 試圖重塑人機交互體驗、擴大其在生成式 AI 生態系中主導權的關鍵戰略佈局。該功能旨在解決傳統語音助手在延遲、自然度及上下文理解上的痛點,為開發者提供更具沉浸感的即時對話能力。 先說最重要的功能:極低延遲的即時互動。從技術原理來看,新語音智慧功能整合了先進的端到端語音模型,能夠實現極低延遲的語音輸入與輸出。這意味著系統可以在用戶說話的同時進行實時處理與回應,大幅縮短了等待時間,使對話流暢度接近真人交流。以往使用語音助手時,常常需要等對方說完一句話,AI 思考完再回答,這種斷層感會讓人覺得不自然。現在,這種「搶話」或即時插話的能力被優化,讓對話更像是在跟真人聊天,而不是跟機器問答。...

Google DeepMind 推出強大 AI 數學助手,強化人工智慧在科學領域的應用能力。OpenAI 則在安全防護和商業應用上加速布局,新推出的 Trusted Contact 自殺預防功能和 API 語音智慧功能展現對用戶保護的重視,同時與 PwC 合作擴大企業應用場景。AI 在軟體開發、好萊塢創意產業等領域的滲透持續加深,程式編寫代理正在改變維護成本結構。

Google DeepMind 推出強大 AI 數學助手

Google DeepMind 推出強大 AI 數學助手

Google DeepMind 開發出一款功能強大的 AI 數學協作工具,能夠輔助數學家和開發者解決複雜的數學問題。同時,這類 AI 系統也開始被應用於自動化各類手動工作流程,展現出生成式 AI 在專業領域的實用價值。

Google DeepMindAI 數學自動化
The Rundown AI
ChatGPT 推出 Trusted Contact 功能:自殺預防新保障

ChatGPT 推出 Trusted Contact 功能:自殺預防新保障

OpenAI 在 ChatGPT 中推出名為 Trusted Contact 的可選安全功能,當系統檢測到用戶存在嚴重自傷風險時,會主動通知用戶指定的信任聯繫人。這是 AI 應用在心理健康領域的重要進展,體現了企業在技術發展中對用戶安全的責任承諾。

心理健康AI 安全ChatGPT
OpenAI Blog
好萊塢電視工作者現在都在訓練 AI

好萊塢電視工作者現在都在訓練 AI

曾在好萊塢製作電視節目的專業人士大量轉向 AI 訓練工作。這反映出傳統媒體製作業因 AI 衝擊而發生的職場劇變,許多創意工作者被迫轉行從事 AI 數據標註和模型訓練等工作,標誌著創意產業面臨的結構性變革。

好萊塢AI 訓練職場轉型
Hacker News
Anthropic 的 Mythos 工具重塑 Firefox 網絡安全防禦方式

Anthropic 的 Mythos 工具重塑 Firefox 網絡安全防禦方式

Anthropic 開發的 Mythos 安全工具在 Mozilla 研究人員的測試中發現了 Firefox 瀏覽器中大量高風險漏洞。這套工具利用 AI 能力自動化安全漏洞檢測,標誌著瀏覽器安全防護從被動修補向主動發掘的轉變,有助於在漏洞被惡意利用前就予以修復。

網絡安全AI 漏洞檢測Firefox
TechCrunch AI
MedExAgent:訓練 LLM 代理在雜訊臨床環境中提問、檢查和診斷

MedExAgent:訓練 LLM 代理在雜訊臨床環境中提問、檢查和診斷

研究團隊提出 MedExAgent,將臨床診斷建模為部分可觀測馬可夫決策過程(POMDP),讓 LLM 代理能夠通過提問、調用醫學檢查工具和出具診斷三類行動進行真實臨床診斷。該方法突破了現有醫療 LLM 的局限,不再簡化為單輪問答或無噪聲對話,而是納入不完整資訊、患者多樣化特徵等臨床實境的複雜性。

臨床診斷LLM 代理POMDP
arXiv cs.CL
自固鞏語言模型:持續將上下文知識整合入模型權重

自固鞏語言模型:持續將上下文知識整合入模型權重

研究團隊提出 SCoL 框架,讓 LLM 能夠學習將當前對話和長文本內容的知識持久寫入模型權重,同時避免對已有知識造成破壞。這項技術採用後訓練方式和元強化學習,使模型能夠自主決定哪些 Transformer 層需要更新,解決長上下文模式下資訊保留和複用的核心挑戰。

LLM持續學習知識整合上下文鞏固
arXiv cs.CL
MedAction:朝向主動多轮臨床診斷 LLM 邁進

MedAction:朝向主動多轮臨床診斷 LLM 邁進

研究團隊指出現有醫療 LLM 在真實臨床診斷中存在三大缺陷:無根據的檢查訂購、不可靠的診斷更新,以及多轮一致性下降。他們提出 MedAction 框架,透過樹狀結構蒸餾管道合成高品質的多轮診斷軌跡,讓模型學會在證據不完整且不斷演變的情況下進行推理與決策,更接近實際醫學實踐。

醫療診斷多轮推理LLM
arXiv cs.CL
OpenAI 推出 API 新語音智慧功能

OpenAI 推出 API 新語音智慧功能

OpenAI 正式在 API 中引入新的語音智慧功能,旨在提升即時語音互動的體驗。這項更新不僅適用於客服系統,還涵蓋教育與創作者平台等多種場景,顯示 OpenAI 正積極將語音技術整合至更廣泛的應用生態系中。

OpenAI語音智慧API
TechCrunch AI
OpenAI 與 PwC 合作重塑 CFO 辦公室

OpenAI 與 PwC 合作重塑 CFO 辦公室

OpenAI 和普華永道(PwC)宣布戰略合作,利用 AI 智能體幫助企業自動化財務工作流程、改進預測能力、強化內控機制並現代化首席財務官職能。這一合作標誌著生成式 AI 在企業金融領域的重要應用,將深刻影響財務部門的運營方式和人力配置。

AI 智能體企業自動化金融科技
OpenAI Blog
AI 程式編寫代理可降低維護成本

AI 程式編寫代理可降低維護成本

AI 編碼助手工具正在被用來自動化程式碼編寫工作,這類代理能夠顯著降低軟體開發和維護的成本。通過自動化重複性編碼任務,開發團隊可以將資源投入到更高價值的工作中,這標誌著開發工作流程的一次重要轉變。

AI 編碼開發效率成本優化
Hacker News
傳真機成為美國醫療系統瓶頸,VC 開始關注自動化機會

傳真機成為美國醫療系統瓶頸,VC 開始關注自動化機會

美國醫療行業仍大量依賴傳真機處理行政工作,導致效率低下。AI 新創公司 Basata 等看準這個機會,開發自動化工具來簡化醫療行政流程,同時也面臨自動化是增強工作效率還是取代員工的倫理問題。

醫療自動化行政效率傳真機現代化
TechCrunch AI
介紹 ChatGPT Futures:2026 級學生創新者

介紹 ChatGPT Futures:2026 級學生創新者

OpenAI 推出 ChatGPT Futures 計畫,集結 26 位學生創新者透過 AI 進行建構、研究與推動實際應用。這個世代正運用 ChatGPT 重新定義學習、創意與機會的方式,展示年輕人如何將 AI 工具轉化為現實影響力。

ChatGPT學生創新教育應用
OpenAI Blog

今日洞察

AI 產業正加速從單一模型競賽轉向多模態與即時互動的應用深化。OpenAI 透過 GPT-Realtime 系列模型降低語音代理成本,並結合 Gemini API 的多模態檔案搜尋能力,顯著提升企業處理複雜非結構化數據的效率。同時,Anthropic 營收達三百億美元年化,展現企業級 AI 代理市場的爆發性成長,證實商業護城河已穩固建立。然而,訓練數據中的文化敘事如虛構作品仍可能引發模型安全風險,顯示業界在追求效能與規模擴張的同時,必須同步強化對模型行為邊界與倫理安全的管控,以確保技術落地時的穩定性與可信賴度。

🔮 趨勢雷達

未來三至六個月,AI 產業將從單純的模型競賽轉向語音代理與多模態檢索的落地實戰。OpenAI 透過 GPT-Realtime 系列降低延遲與成本,預示即時語音客服與教育應用將在 Q3 成為企業標配,純文字對話將迅速邊緣化。同時,Google 的多模態 File Search 升級將迫使競爭對手跟進,企業級知識庫管理將全面納入影像與影片理解,純文本檢索需求將顯著降溫。Anthropic 的營收爆發證實 Agent 市場正迎來爆發期,但數據安全與倫理風險將成為新焦點,業界需重新審視訓練數據的文化偏見,否則模型行為失控將引發嚴重的合規危機,這將是下半年企業部署 AI 時的首要考量。

延伸閱讀