📰 2026-02-24 AI 日報

阿凱📝 主編觀點 · 職涯衝擊分析 — 這對工程師、PM、設計師意味著什麼，該怎麼準備

AI 正在摧毀 SaaS，但先被摧毀的可能是你的職位

Fireship 最近有一集標題很直接：「AI 正在破壞 SaaS 商業模式」。但我看完之後，覺得更值得討論的不是那些 SaaS 公司怎麼辦，而是在那些公司裡工作的你，怎麼辦。傳統 SaaS 的邏輯是：把某個流程自動化，打包成訂閱制，讓企業按月付錢。HR 軟體、合約管理、數據報表、客服系統，每個垂直領域都有人在賣這種「流程打包」。但現在的問題是，AI agent 可以直接執行這些流程，不需要中間那個「打包好的工具」。你不需要買一個合約管理 SaaS，你直接叫 Claude 幫你讀合約、標風險點、對照法規。工具層正在被壓縮。這對工程師和 PM 的意義是什麼？說實話，如果你過去三年做的事情是「幫 SaaS 產品加功能」，你要開始認真想一件事：你在幫一個正在被侵蝕的商業模式續命，還是在建造真正有護城河的東西？這不是要你明天辭職，但這個問題值得認真問自己。更殘忍的現實是，Y Combinator 最近也有一集講「AI 代理經濟已經到來」，語氣不是預測，是現在進行式。那些以前需要一個五人工程團隊維護的內部工具，現在可能一個人加幾個 agent 就搞定了。頭銜還在，但工作的質地已經變了。那設計師呢？Jony Ive 跟 OpenAI 合作這件事，我覺得有個隱藏訊號：AI 時代最稀缺的不是模型能力，而是「怎麼讓這個能力變得讓人想用」。這才是設計師現在應該卡位的地方，不是做介面，是定義互動的語言和邏輯。給個具體建議：下週找一個你現在工作裡最「流程化」的任務，試著用 Claude 或 ChatGPT 全程完成它。如果你做得到，代表這個任務未來會消失或被壓縮。如果你發現 AI 搞不定，去研究為什麼——那個「為什麼」，就是你接下來最有價值的地方。

塵子💬 塵子觀點

AI 的「基準測試」正在退休：模型表現，跟學測一樣灌水

最近滑到一支 AI Explained 的影片，標題是「Gemini 3.1 Pro 與基準測試的衰落：歡迎進入 AI 的氛圍時代」。乍聽之下，本來以為這又是哪家新創搞出什麼會放電的鼠墊，但仔細看才發現，原來講的是 AI 評比這件事正慢慢變得「有講跟沒講一樣」。以前 AI 新聞常常很愛炫耀：「我們的模型在什麼 benchmark 上超車了！」感覺很厲害對吧？不過說穿了，這個 benchmark（基準測試）大部分時候其實就是給一堆 AI 機器出考題，看誰寫得比較像人。但現在的問題是，這種考試模式快被玩壞了。你給 AI 出考古題，它根本就背下來了。你還以為它超聰明，其實根本是作業抄答案。OpenAI 最新還直接說，這個 SWE-bench 已經不準，建議大家換到新版，要不然大家都在比誰作弊技術好。這就像現在大學學測分數膨脹，補習班出招，學生刷題刷到比演算法還精。爸媽還天真以為：「你看我兒子滿級分！」但校方知道：「對啊，那我們多準備一間重考班吧。」AI 世界現在差不多就是這種氛圍——分數越來越好看，但意義卻越來越虛。這現象其實很有趣。人類最厲害的，不是發明測驗，而是發明出能破解測驗的流程。考試存在一天，鑽漏洞的產業就能撐一千年。不論是 AI 還是補教界，公式永遠是「有人立規矩，你來想辦法破規矩」。差別只是，一個是 chatbot，一個是國文老師。所以以後再看到 AI 公司宣稱「我們基準測試全破！比對手強 XX%」，你大概可以想像成——全班都作弊作文比賽，你要去哪裡分辨誰真的會寫？有時候，厲害的不是分數，而是誰能一直換答案題型。 AI 現在開始和人類同步成長：終於也在面對「考試無效」這個痛苦的成人禮。未來，我們可能都要學會一件事——怎麼在沒分數的時代，相信一個機器真的會幹活，這比問它考了幾分，要難多了。

素材來源：Dwarkesh Patel — 馬斯克：36個月內，太空將是放置AI最便宜的地方 ↗ 、 AI Explained — Gemini 3.1 Pro 與基準測試的衰落：歡迎進入 AI 的氛圍時代 ↗ 、 AI Explained — 兩個最佳AI模型/對手同時發佈 ↗ 、 AI Explained — 2025年AI的古怪現象告訴我們關於2026年的什麼 ↗ 、 Two Minute Papers — NVIDIA 的驚人 AI 發現現實的數學 ↗ 、 Two Minute Papers — Anthropic 發現 AI 為什麼會「失控」 ↗ 、 Fireship — AI 正在破壞 SaaS 商業模式 ↗ 、 TheAIGRID — 山姆·奧特曼因有爭議的AI言論引發公憤 ↗ 、 TheAIGRID — AGI 於 2028 年實現？Sam Altman 改變了時間表 ↗ 、 TheAIGRID — Meta的新AI讓所有人都感到害怕 ↗ 、 Y Combinator — AI 代理經濟已經到來 ↗ 、 NVIDIA — 實時推理時代的極致協同設計：AI 規模化的高效代幣經濟學 ↗ 、 Dwarkesh Patel — 我們在擴展什麼？ ↗ 、 AI Explained — Claude AI 聯合創辦人發表近未來的 4 大預測：深度分析 ↗ 、 Matthew Berman — Anthropic 剛剛禁用了 OpenClaw ↗ 、 Matthew Berman — Anthropic 剛推出 Sonnet 4.6 ↗ 、 Matthew Berman — OpenClaw 的 21 個瘋狂使用案例 ↗ 、 TheAIGRID — Gemini 3.1 Pro 初學者指南 - 所有新功能詳解 ↗ 、 Y Combinator — 與 Claude Code 創造者 Boris Cherny 深入探討 ↗ 、 a16z — AI 市場深度分析：a16z 的 David George 解讀 ↗ 、 NVIDIA — NVIDIA GTC 2026 現場直播：遊戲時間開始 ↗ 、 NVIDIA — AI定義車輛的未來 ↗ 、 OpenAI — Codex 為您檢查工作成果 ↗ 、 TheAIGRID — OpenClaw 設置教學與 2026 年新用例展示 ↗ 、 Anthropic — 你覺得我的商業創意怎麼樣？ ↗

OpenAI 與蘋果設計師 Jony Ive 合作開發新產品，同時 Anthropic 指控中國 AI 實驗室盜取 Claude 能力，引發美國政府對晶片出口管制的激烈辯論。Anthropic 和 OpenAI 先後調整旗下基準測試評估，反映業界對 AI 能力評估標準的重新思考，而 AI agents 可能對經濟造成衝擊的預警也不斷升溫。

OpenAI 與 Jony Ive 合作開發新產品

OpenAI 與蘋果設計大師 Jony Ive 合作推進新的硬體或軟體產品開發。這個合作結合了 OpenAI 的 AI 技術實力與 Ive 在產品設計方面的卓越能力，可能會為市場帶來創新的消費級 AI 應用。The Rundown 同時報導了業界在 AI 應用實踐上的最新案例分享。

OpenAI產品設計硬體創新

The Rundown AI

AI 世界的拒絕握手事件

AI 領域發生了一起引發廣泛關注的「握手拒絕」事件，牽涉到主要 AI 廠商之間的立場分歧。同時 Google 發佈了 Gemini 3.1 Pro，在推理能力上實現了重大提升，展現了推理型 AI 模型的新進展。

AI 倫理Gemini 3.1 Pro推理能力

The Rundown AI

Anthropic 指控中國 AI 實驗室盜取 Claude 能力，美國辯論晶片出口管制

Anthropic 控告 DeepSeek、Moonshot 和 MiniMax 等中國 AI 實驗室利用 24,000 個虛假帳號蒸餾 Claude 的 AI 能力，同時美國政府正在討論實施出口管制措施以減緩中國 AI 進展。此事凸顯了 AI 模型安全與地緣政治的緊張關係，也反映出大型語言模型被複製的風險正在升溫。

模型蒸餾地緣政治AI 安全

TechCrunch AI

AI agents 可能摧毀經濟

Citrine Research 發布一份來自未來兩年的報告，描繪了一個悲觀景象：失業率翻倍，股市總值下跌超過三分之一。這份報告預警 AI 代理人的大規模部署可能對勞動力市場和金融系統造成嚴重衝擊，引發對 AI 快速發展帶來的經濟風險的深思。

AI agents經濟風險就業市場

TechCrunch AI

OpenAI 停止評估 SWE-bench Verified 基準測試

OpenAI 發表分析指出 SWE-bench Verified 基準測試存在數據洩漏和測試缺陷問題，導致對前沿編程模型進度的評估不準確。OpenAI 建議轉向使用 SWE-bench Pro 作為更可靠的評測標準，以確保編程 AI 模型的真實性能評估。

SWE-bench基準測試編程模型評估

OpenAI Blog

獨家電子書：2025年AI炒作的大修正

MIT Tech Review 發布獨家電子書，檢視 2025 年 AI 產業的「理想破滅時刻」。頂級 AI 公司領導人做出無法兌現的承諾，市場需要重新調整對 AI 的預期。這份報告深入分析為何業界必須面對現實與炒作之間的鴻溝。

AI炒作期望調整產業反思

MIT Tech Review

DeepSeek、Moonshot AI 和 MiniMax 遭指控進行蒸餾攻擊

多家中國 AI 公司被指控使用蒸餾攻擊技術，試圖從 OpenAI、Anthropic 等大型模型中提取知識來訓練自家模型。這類行為涉及知識產權爭議，反映出 AI 領域競爭加劇下的灰色地帶問題。

蒸餾攻擊模型安全知識產權

Hacker News

OpenAI 提交首個 Proof 數學挑戰賽方案

OpenAI 分享了其 AI 模型在 First Proof 數學挑戰賽中的證明嘗試，展示研究級別的推理能力在專家級問題上的表現。這代表 OpenAI 正在推進 AI 系統的高階數學推理能力，朝著更複雜的科學問題求解邁進。

OpenAI數學推理AI 能力評測

OpenAI Blog

今日洞察

當前 AI 產業正處於關鍵轉折期，呈現出創新與挑戰並存的複雜局面。一方面，OpenAI 與設計大師 Jony Ive 的合作預示著 AI 應用將從技術驅動轉向設計驅動，Google 的 Gemini 3.1 Pro 推理能力突破與編程模型的進步展現了技術持續演進。然而另一方面，地緣政治層面的模型盜用指控與晶片出口管制反映出大國競爭加劇，經濟衝擊預警與評測基準問題暴露了產業發展的風險隱患。最關鍵的是，MIT 的「AI 炒作修正」報告揭示業界承諾與現實的巨大落差，市場正從盲目樂觀轉向理性重估。未來 AI 產業的核心競爭將取決於企業如何在技術創新、倫理安全與經濟現實之間找到平衡點。

🔮 趨勢雷達

未來三至六個月，AI 產業將進入「高端硬體化」與「地緣政治分裂」的雙軌發展期。OpenAI 與 Jony Ive 的合作預示消費級 AI 硬體將在Q2-Q3 成為新戰場，蘋果生態內的 AI 應用將加速整合，刺激高端硬體市場需求。同時美國晶片出口管制升級將確實拖緩中國 AI 進展，但蒸餾技術的成熟也將驅動開源模型快速迭代，形成「西方高端、東方輕量」的市場分化。編程 AI 的評測標準轉換預示該領域進入瓶頸期，相關投資熱度將在Q2 後明顯降溫。最關鍵的是，Citrine Research 的衰退預警與 MIT 的「理想破滅」報告將觸發估值修正，導致今年下半年 AI 新創融資環境急劇惡化，部分誇大功能的初創公司將面臨融資困難。推理型 AI 將成為唯一逆勢的細分領域，獲得資本集中投入。

訂閱取得每日更新