📰 2026-05-15 AI 日報

AI 的 IQ 測出來了,但這個數字可能什麼都代表不了
阿凱📝 主編觀點 · 反直覺觀點 — 大家都這樣想,但其實可能不是這樣

AI 的 IQ 測出來了,但這個數字可能什麼都代表不了

最近有個叫 AI IQ 的網站在科技圈引起不小的討論。它把 50 幾個主流語言模型全部拿去跑 IQ 測試,然後畫出常態分佈圖,讓你可以一眼看出「哪個 AI 最聰明」。直觀、好懂、馬上能拿來跟朋友說嘴。 問題是:這件事本身就是個陷阱。 大家直覺上會覺得,IQ 分數高的 AI 就是比較強。但 IQ 測試本來就是設計給人類的——測試語言理解、空間推理、數字模式識別。這些能力對人類來說,跟「能不能在現實世界解決問題」有一定相關性,因為人腦的資源是稀缺的,IQ 高代表你能用有限的認知資源做更多事。 AI 完全不是這個邏輯。GPT-4 跟 Claude 的「資源限制」跟人腦根本不同,它們的弱點也不一樣——有的在長上下文推理掉分,有的在多步驟計算出錯,有的在指令遵循上很穩但創意生成很普通。把這些差異壓縮成一個數字,等於把所有資訊都丟掉了。 更值得注意的是:如果模型廠商知道有人在用這套評測,他們可以針對性地優化 IQ 題型的表現。這不是陰謀論,Goodhart's Law 說得很清楚——當一個指標變成目標,它就不再是好指標了。這在 benchmark 領域已經發生過好幾次,MMLU、HumanEval 都被玩壞過。 IQ 這個包裝更危險,因為它讓非技術背景的人產生一種「我懂了」的錯覺。老闆看到 AI IQ 排行榜,可能就直接決定公司要用哪個模型,跳過實際測試任務場景這個步驟。 真正有用的評測方式,從來都是「把模型丟進你實際的任務裡跑看看」。沒有捷徑。 用單一數字來衡量智慧,對人類已經是個爭議了幾十年的問題,現在把同樣的框架搬來套 AI,只是讓這個問題更複雜,然後假裝它變得更簡單了。
Elon Musk 和 Sam Altman 在法庭上吵架,但他們吵的不是錢,是誰有資格替人類做主
塵子💬 塵子觀點

Elon Musk 和 Sam Altman 在法庭上吵架,但他們吵的不是錢,是誰有資格替人類做主

Elon Musk 告了 OpenAI,說 Sam Altman 為了賺錢把公司變質,背離了造福人類的初衷。這場官司聽起來像科幻電影的劇情,兩個科技巨頭為了「人類未來」的定義打得不可開交。但仔細看,這是一場很荒謬的鬧劇。 Musk 說 OpenAI 偏離創始使命,Altman 說公司要生存就得賺錢。這兩邊說得都有道理,也都有點可笑。他們花幾十億美元建伺服器、買晶片,然後在法庭上爭論誰比較愛人類。這就像兩個執行長為了公司的「核心價值觀」打到對簿公堂,卻沒人注意到這些價值觀的海報從來沒有人看過。 更諷刺的是,這場訴訟的結果可能根本改變不了什麼。Musk 就算贏了,OpenAI 還是會繼續開發產品,只是換個說法叫「為人類好」。Altman 就算贏了,公司還是追求利潤,只是改口說「這是為了生存」。法庭只會決定誰的說詞比較好聽,不會決定 AI 的走向。 真正的問題是,我們把太多希望壓在幾個科技巨頭身上,以為他們能替人類導航。但他們也是人,也會犯錯,也會為利益妥協。這場官司不是為了對錯,而是讓我們看清楚:當科技巨頭開始爭論「誰有資格當老師」,他們已經忘了自己原本只是工具。 下次看到這種法庭大戲,不用太認真。他們爭的不是人類未來,是誰能拿到那支麥克風。至於我們,才是真正需要想清楚自己要去哪裡的人。
🚀 產品速報2026-05-15

OpenAI 讓 Codex 編碼助手登陸手機,開發工作不再受限於電腦桌前

今天 OpenAI 宣布了一項對軟體開發界影響深遠的更新,將原本主要運行在電腦上的 Codex 代碼生成引擎,正式整合進手機端的 ChatGPT 應用程式。這意味著開發者不再需要隨時帶著筆電,就能在通勤路上、會議間隙或任何非辦公場景下,隨時進行程式碼的生成、審查與優化。這項更新打破了硬體限制,將 AI 編碼能力從傳統桌面環境全面延伸至行動裝置,標誌著軟體開發工作流的一次根本性變革。 這次整合的核心技術在於對模型架構的輕量化處理與雲端運算的協同。OpenAI 透過分層處理機制,將繁重的語義分析與邏輯推導保留在雲端伺服器,而手機端則專注於輸入解析與結果展示。這種設計既保留了大型語言模型的強大能力,又兼顧了行動裝置的電池續航與響應速度,確保了開發體驗的流暢。具體來說,Codex 在手機上具備以下幾個關鍵功能:...

Cerebras 完成 5.5 億美元融資,IPO 首日股價飆漲 108%,成為 2026 年首場大型科技新股上市,標誌著 AI 芯片賽道持續升溫。Anthropic 最新 Claude Code 功能推出 /goals 指令區分執行者與決策者,同時其產品主管指出未來 AI 將在用戶察覺前預知需求,但 AI 聊天機器人誤洩用戶電話號碼引發騷擾問題也敲響隱私警鐘。Cisco 裁員 4,000 人同步加碼 AI 投資並創下單季營收新高,反映科技大廠全力轉向 AI 的決心。

AI chatbots 誤洩用戶真實電話號碼,導致大量騷擾電話

AI chatbots 誤洩用戶真實電話號碼,導致大量騷擾電話

Google 的生成式 AI 近日出現重大隱私漏洞,錯誤地向搜尋用戶提供他人的真實電話號碼。受害者報告稱一個月內收到數十通陌生來電,來電者被誤導尋求律師、產品設計師、開鎖服務等,暴露了 AI 系統在資料準確性和隱私保護上的嚴重缺陷。這類事件突顯生成式 AI 在公共服務層面仍存在重大風險。

隱私洩露生成式AIGoogle搜尋
MIT Tech Review
Cerebras 募資 5.5 億美元,IPO 首日股價飆漲 108%,2026 年首場大型科技新股上市

Cerebras 募資 5.5 億美元,IPO 首日股價飆漲 108%,2026 年首場大型科技新股上市

AI 晶片新創 Cerebras 完成 5.5 億美元 IPO,股價在首日交易中大幅上漲 108%,成為 2026 年首場重量級科技公司上市。這標誌著 AI 硬體領域的關鍵里程碑,投資人對專用 AI 計算晶片的需求強勁,也顯示資本市場對 AI 基礎設施的樂觀態度。

AI 晶片IPO基礎設施
TechCrunch AI
Anthropic 發佈關於 AI 對齊(Alignment...

Anthropic 發佈關於 AI 對齊(Alignment...

Anthropic 發佈關於 AI 對齊(Alignment)的重要研究或產品更新。AI 對齊是指讓 AI 系統的行為與人類價值觀和意圖相符的關鍵技術方向,對於確保 AI 安全可靠運行至關重要。

AI對齊安全可靠Anthropic
Anthropic Blog
安大略省審計發現:醫生的 AI 記錄工具在編造資訊

安大略省審計發現:醫生的 AI 記錄工具在編造資訊

安大略省審計機構發現醫療 AI 記錄系統存在嚴重問題,包括捏造治療轉介、記錄不正確的處方等常見錯誤。這揭示了 AI 在醫療場景中的可靠性危機,當前依賴這類工具的醫療體系可能面臨患者安全風險。

AI 醫療應用幻覺問題患者安全
Ars Technica AI
PwC 部署 Claude 為客戶構建技術、執行交易並重塑企業功能

PwC 部署 Claude 為客戶構建技術、執行交易並重塑企業功能

PwC 宣布在企業中大規模部署 Claude,用於技術開發、交易執行和企業流程優化。這反映出大型企業咨詢公司正在將 AI 深度整合到客戶解決方案中,代表 AI 驅動的企業轉型已從試點進入規模化應用階段。

Claude企業應用數位轉型
Anthropic Blog
Ontario 審計員發現醫生的 AI 記錄助手經常出現基本事實錯誤

Ontario 審計員發現醫生的 AI 記錄助手經常出現基本事實錯誤

Ontario 省的審計機構發現,醫生使用的 AI 語音記錄系統在生成醫療筆記時存在嚴重問題,經常出現基本事實錯誤。這些錯誤可能影響醫療記錄的準確性,引發對醫療 AI 應用可靠性的擔憂。

醫療AI事實錯誤AI可靠性
Hacker News
Cisco 裁員近 4,000 人加碼投資 AI,創下單季營收新高

Cisco 裁員近 4,000 人加碼投資 AI,創下單季營收新高

Cisco 宣布進行大規模裁員,預計裁減近 4,000 名員工,同時計畫增加在 AI 領域的投資支出。這是該公司近年來的又一次裁員行動,但公司執行長強調公司創下了單季營收紀錄,顯示 Cisco 正在進行策略性的人力結構調整,以便騰出資源專注於 AI 發展。

企業裁員AI 轉型人力結構調整
TechCrunch AI
Anthropic 產品主管 Cat Wu:未來 AI 將在你察覺前就預知你的需求

Anthropic 產品主管 Cat Wu:未來 AI 將在你察覺前就預知你的需求

Anthropic 的 Claude Code 和 Cowork 產品主管 Cat Wu 表示,AI 的下一個關鍵進展方向是主動性(proactivity)。她認為 AI 應該從被動等待用戶指令,進化到能夠預測用戶需求並主動提供幫助,這將大幅改變人類與 AI 互動的方式。

主動型AIClaude Code用戶體驗設計
TechCrunch AI
Claude Code 的 /goals 指令:區分執行者與決策者

Claude Code 的 /goals 指令:區分執行者與決策者

許多企業在部署 AI 代理時,發現任務失敗並非模型能力不足,而是代理過早判定任務完成。Anthropic 透過 Claude Code 的 /goals 指令,讓代理能更精準地判斷何時真正達成目標,避免遺漏關鍵步驟。

Claude CodeAI Agent任務完成度
VentureBeat AI
金融服務中的代理 AI:資料整備是關鍵

金融服務中的代理 AI:資料整備是關鍵

金融服務公司在部署代理 AI 時面臨獨特挑戰——需在高度監管環境下,以秒級速度應對市場變化。與其他產業不同,金融領域的代理 AI 成功與否主要取決於資料整備程度,而非系統本身的複雜度。

代理AI金融服務資料整備
MIT Tech Review
中國 AI 短劇工廠與 WHO 的健康目標缺口

中國 AI 短劇工廠與 WHO 的健康目標缺口

中國短劇產業正逐漸轉向 AI 生成內容,利用生成式 AI 技術大規模製作適合手機觀看的短篇劇集。這反映了 AI 在內容創作領域的實際應用,同時也引發關於內容品質、創意工作與 AI 取代的討論。

AI 內容生成短劇產業生成式 AI
MIT Tech Review
英國主權 LLM 推理

英國主權 LLM 推理

英國正在開發自主的大語言模型推理能力,旨在減少對美國 AI 服務的依賴,建立國家級別的 AI 基礎設施。這反映了歐洲各國推動 AI 自主權的戰略趨勢,確保關鍵 AI 能力掌握在本國手中。

主權 AILLM 推理英國 AI 基礎設施
Hacker News

今日洞察

AI 產業正從被動工具加速邁向具備自主進化能力的智能體階段,OpenAI 將 Codex 整合至行動端與 ChatGPT 安全情境感知的升級,顯示開發者對跨裝置即時編碼與高風險議題處理的需求日益迫切。同時,Richard Socher 斥資打造能自我研究改進的新創,以及 Anthropic 透過指令區分執行與決策角色,皆凸顯市場正從單純生成內容轉向解決複雜任務的自主代理。儘管 AI IQ 評測引發標準爭議,但整體趨勢明確指向模型將具備更強的自我優化與情境判斷力,推動產業從輔助工具轉型為能獨立完成研究與開發流程的協作夥伴,重塑未來軟體開發與企業運作的核心邏輯。

🔮 趨勢雷達

未來三至六個月,AI 產業將從單純的模型競賽轉向行動端實戰與自主代理的落地應用。OpenAI 將 Codex 整合至手機平台,預示著編碼工作流將在 Q3 全面移動化,開發者不再受限於桌面環境。同時,Richard Socher 的巨額融資與 Anthropic 的代理決策機制,顯示市場將迅速淘汰被動工具,轉向具備自我研究與精準目標判斷的自主代理系統。然而,隨著 AI IQ 等主觀評測引發爭議,企業在採購時將更重視實際任務完成度而非虛幻分數,導致單純追求參數量或基準分數的投資在 Q4 明顯降溫,轉向聚焦於安全情境感知與跨裝置協作效率的務實解決方案。

延伸閱讀