📰 2026-05-15 AI 日報

AI 的 IQ 測出來了,但這個數字可能什麼都代表不了
阿凱📝 主編觀點 · 反直覺觀點 — 大家都這樣想,但其實可能不是這樣

AI 的 IQ 測出來了,但這個數字可能什麼都代表不了

最近有個叫 AI IQ 的網站在科技圈引起不小的討論。它把 50 幾個主流語言模型全部拿去跑 IQ 測試,然後畫出常態分佈圖,讓你可以一眼看出「哪個 AI 最聰明」。直觀、好懂、馬上能拿來跟朋友說嘴。 問題是:這件事本身就是個陷阱。 大家直覺上會覺得,IQ 分數高的 AI 就是比較強。但 IQ 測試本來就是設計給人類的——測試語言理解、空間推理、數字模式識別。這些能力對人類來說,跟「能不能在現實世界解決問題」有一定相關性,因為人腦的資源是稀缺的,IQ 高代表你能用有限的認知資源做更多事。 AI 完全不是這個邏輯。GPT-4 跟 Claude 的「資源限制」跟人腦根本不同,它們的弱點也不一樣——有的在長上下文推理掉分,有的在多步驟計算出錯,有的在指令遵循上很穩但創意生成很普通。把這些差異壓縮成一個數字,等於把所有資訊都丟掉了。 更值得注意的是:如果模型廠商知道有人在用這套評測,他們可以針對性地優化 IQ 題型的表現。這不是陰謀論,Goodhart's Law 說得很清楚——當一個指標變成目標,它就不再是好指標了。這在 benchmark 領域已經發生過好幾次,MMLU、HumanEval 都被玩壞過。 IQ 這個包裝更危險,因為它讓非技術背景的人產生一種「我懂了」的錯覺。老闆看到 AI IQ 排行榜,可能就直接決定公司要用哪個模型,跳過實際測試任務場景這個步驟。 真正有用的評測方式,從來都是「把模型丟進你實際的任務裡跑看看」。沒有捷徑。 用單一數字來衡量智慧,對人類已經是個爭議了幾十年的問題,現在把同樣的框架搬來套 AI,只是讓這個問題更複雜,然後假裝它變得更簡單了。
Elon Musk 和 Sam Altman 在法庭上吵架,但他們吵的不是錢,是誰有資格替人類做主
塵子💬 塵子觀點

Elon Musk 和 Sam Altman 在法庭上吵架,但他們吵的不是錢,是誰有資格替人類做主

Elon Musk 告了 OpenAI,說 Sam Altman 為了賺錢把公司變質,背離了造福人類的初衷。這場官司聽起來像科幻電影的劇情,兩個科技巨頭為了「人類未來」的定義打得不可開交。但仔細看,這是一場很荒謬的鬧劇。 Musk 說 OpenAI 偏離創始使命,Altman 說公司要生存就得賺錢。這兩邊說得都有道理,也都有點可笑。他們花幾十億美元建伺服器、買晶片,然後在法庭上爭論誰比較愛人類。這就像兩個執行長為了公司的「核心價值觀」打到對簿公堂,卻沒人注意到這些價值觀的海報從來沒有人看過。 更諷刺的是,這場訴訟的結果可能根本改變不了什麼。Musk 就算贏了,OpenAI 還是會繼續開發產品,只是換個說法叫「為人類好」。Altman 就算贏了,公司還是追求利潤,只是改口說「這是為了生存」。法庭只會決定誰的說詞比較好聽,不會決定 AI 的走向。 真正的問題是,我們把太多希望壓在幾個科技巨頭身上,以為他們能替人類導航。但他們也是人,也會犯錯,也會為利益妥協。這場官司不是為了對錯,而是讓我們看清楚:當科技巨頭開始爭論「誰有資格當老師」,他們已經忘了自己原本只是工具。 下次看到這種法庭大戲,不用太認真。他們爭的不是人類未來,是誰能拿到那支麥克風。至於我們,才是真正需要想清楚自己要去哪裡的人。
🚀 產品速報2026-05-15

OpenAI 讓 Codex 編碼助手登陸手機,開發工作不再受限於電腦桌前

今天 OpenAI 宣布了一項對軟體開發界影響深遠的更新,將原本主要運行在電腦上的 Codex 代碼生成引擎,正式整合進手機端的 ChatGPT 應用程式。這意味著開發者不再需要隨時帶著筆電,就能在通勤路上、會議間隙或任何非辦公場景下,隨時進行程式碼的生成、審查與優化。這項更新打破了硬體限制,將 AI 編碼能力從傳統桌面環境全面延伸至行動裝置,標誌著軟體開發工作流的一次根本性變革。 這次整合的核心技術在於對模型架構的輕量化處理與雲端運算的協同。OpenAI 透過分層處理機制,將繁重的語義分析與邏輯推導保留在雲端伺服器,而手機端則專注於輸入解析與結果展示。這種設計既保留了大型語言模型的強大能力,又兼顧了行動裝置的電池續航與響應速度,確保了開發體驗的流暢。具體來說,Codex 在手機上具備以下幾個關鍵功能:...

OpenAI 宣布 Codex 功能正式登陸手機平台,讓使用者能隨時隨地進行跨裝置的即時編碼管理。與此同時,Richard Socher 推出耗資 6.5 億美元的新創,致力於打造具備自我研究與改進能力的 AI 系統。此外,新推出的 AI IQ 評測網站以人類分數標準檢驗頂尖模型,其結果在科技圈引發了廣泛爭議。

OpenAI 宣布 Codex 即將登陸手機平台

OpenAI 宣布 Codex 即將登陸手機平台

OpenAI 推出更新,將 Codex 功能整合至手機端,賦予使用者更靈活的流程管理彈性。這標誌著 AI 編碼助手從桌面延伸至行動裝置,讓開發者能隨時隨地進行程式碼生成與優化。

OpenAICodex手機應用
TechCrunch AI
AI 自我建構:Richard Socher 推出 6.5 億美元新創,打造能自我研究與改進的 AI

AI 自我建構:Richard Socher 推出 6.5 億美元新創,打造能自我研究與改進的 AI

前 Salesforce 執行長 Richard Socher 創立了價值 6.5 億美元的新創公司,目標是開發能自主研究並持續自我優化的 AI 系統。與以往僅停留在理論的構想不同,該團隊強調將實際交付產品,這標誌著 AI 從被動工具向具備自主進化能力的演進。

Richard Socher自我改進 AI新創融資
TechCrunch AI
Claude Code 的 /goals 指令:區分執行者與決策者

Claude Code 的 /goals 指令:區分執行者與決策者

許多企業在部署 AI 代理時,發現任務失敗並非模型能力不足,而是代理過早判定任務完成。Anthropic 透過 Claude Code 的 /goals 指令,讓代理能更精準地判斷何時真正達成目標,避免遺漏關鍵步驟。

Claude CodeAI Agent任務完成度
VentureBeat AI
AI IQ 登場:新網站以人類 IQ 分數評測頂尖 AI 模型,結果引發科技圈爭議

AI IQ 登場:新網站以人類 IQ 分數評測頂尖 AI 模型,結果引發科技圈爭議

新創項目 AI IQ 將人類常用的 IQ 測試概念應用於人工智慧,為超過 50 個主流語言模型分配分數並繪製常態分佈圖。這種直觀的評測方式讓技術人員與大眾能更直觀地比較模型能力,但也因主觀性與評測標準的爭議而引發廣泛討論。

AI IQ語言模型模型評測
VentureBeat AI
Codex 整合至 ChatGPT 行動版,實現跨裝置即時編碼管理

Codex 整合至 ChatGPT 行動版,實現跨裝置即時編碼管理

OpenAI 將 Codex 功能整合進 ChatGPT 行動應用程式,讓使用者能隨時隨地監控、引導並核准編碼任務。此更新打破了裝置限制,使開發者能在遠端環境中即時掌控程式開發流程,大幅提升跨平台協作的效率。

CodexChatGPT行動版
OpenAI Blog
OpenAI 更新 ChatGPT 敏感對話情境感知能力

OpenAI 更新 ChatGPT 敏感對話情境感知能力

OpenAI 針對 ChatGPT 推出新的安全更新,強化其在敏感對話中的情境理解能力,使系統能更精準地隨時間推移偵測潛在風險。這項改進讓 AI 在處理複雜或高風險議題時,能做出更安全且符合語境的回應,提升整體使用體驗的可靠性。

ChatGPT情境感知AI 安全
OpenAI Blog
Elon Musk 與 Sam Altman 關於 OpenAI 未來的法庭對決

Elon Musk 與 Sam Altman 關於 OpenAI 未來的法庭對決

Elon Musk 與 Sam Altman 正處於一場高風險的訴訟中,Musk 指控 OpenAI 偏離了造福人類的創始使命,轉而追求利潤。這場訴訟的結果可能直接改變 OpenAI 的營運方向及其核心產品 ChatGPT 的未來發展。

Elon MuskSam AltmanOpenAI
The Verge AI
AI 入侵普林斯頓:30% 學生作弊,但同儕不願舉發

AI 入侵普林斯頓:30% 學生作弊,但同儕不願舉發

普林斯頓大學的榮譽守則體系正面臨 AI 生成內容帶來的巨大挑戰,約有三成學生使用 AI 協助完成作業。儘管作弊比例高漲,學生間卻形成默契不願舉發,顯示傳統學術規範在生成式 AI 時代已難以維持。

普林斯頓大學AI 作弊學術誠信
Ars Technica AI

今日洞察

AI 產業正從被動工具加速邁向具備自主進化能力的智能體階段,OpenAI 將 Codex 整合至行動端與 ChatGPT 安全情境感知的升級,顯示開發者對跨裝置即時編碼與高風險議題處理的需求日益迫切。同時,Richard Socher 斥資打造能自我研究改進的新創,以及 Anthropic 透過指令區分執行與決策角色,皆凸顯市場正從單純生成內容轉向解決複雜任務的自主代理。儘管 AI IQ 評測引發標準爭議,但整體趨勢明確指向模型將具備更強的自我優化與情境判斷力,推動產業從輔助工具轉型為能獨立完成研究與開發流程的協作夥伴,重塑未來軟體開發與企業運作的核心邏輯。

🔮 趨勢雷達

未來三至六個月,AI 產業將從單純的模型競賽轉向行動端實戰與自主代理的落地應用。OpenAI 將 Codex 整合至手機平台,預示著編碼工作流將在 Q3 全面移動化,開發者不再受限於桌面環境。同時,Richard Socher 的巨額融資與 Anthropic 的代理決策機制,顯示市場將迅速淘汰被動工具,轉向具備自我研究與精準目標判斷的自主代理系統。然而,隨著 AI IQ 等主觀評測引發爭議,企業在採購時將更重視實際任務完成度而非虛幻分數,導致單純追求參數量或基準分數的投資在 Q4 明顯降溫,轉向聚焦於安全情境感知與跨裝置協作效率的務實解決方案。

延伸閱讀