新聞 4 / 12

研究突破

PolyKV:多智能體 LLM 推理的共享非對稱壓縮 KV 快取池

PolyKV: A Shared Asymmetrically-Compressed KV Cache Pool for Multi-Agent LLM Inference

PolyKV:多智能體 LLM 推理的共享非對稱壓縮 KV 快取池

arXiv cs.LG · 2026-04-29

摘要

研究團隊推出 PolyKV 系統,讓多個並行推理智能體共享單一的非對稱壓縮 KV 快取池,而非傳統的逐智能體分配方式。系統採用非對稱壓縮策略——Keys 量化至 int8 以保持 softmax 穩定性,Values 則用 TurboQuant MSE 壓縮至 3 位元。在 Llama-3-8B 上運行 15 個智能體時,能將 KV 快取記憶體從 19.8 GB 降至 0.45 GB,達成穩定的 2.91 倍壓縮比,有助於降低多智能體推理的成本和延遲。

開發者:可應用於多智能體系統優化,減少推理資源消耗

投資人:LLM 推理效率技術突破,降低營運成本

一般用戶:對話服務更快更便宜,多智能體應用體驗改善

重要性評分

76/100

🟠 值得關注

KV快取壓縮多智能體推理量化技術
原文出處
上一則General Motors 將 Gemini 整合至四百萬輛車,透過軟體更新推送下一則如何利用 OpenAI 的 Privacy Filter 構建可擴展的 Web 應用程式

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。

相關指南

🤖 本文摘要由 AI 自動生成,內容源自原始報導。如有疑慮,請參閱關於我們

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。