PolyKV：多智能體 LLM 推理的共享非對稱壓縮 KV 快取池

PolyKV: A Shared Asymmetrically-Compressed KV Cache Pool for Multi-Agent LLM Inference

arXiv cs.LG · 2026-04-29

摘要

研究團隊推出 PolyKV 系統，讓多個並行推理智能體共享單一的非對稱壓縮 KV 快取池，而非傳統的逐智能體分配方式。系統採用非對稱壓縮策略——Keys 量化至 int8 以保持 softmax 穩定性，Values 則用 TurboQuant MSE 壓縮至 3 位元。在 Llama-3-8B 上運行 15 個智能體時，能將 KV 快取記憶體從 19.8 GB 降至 0.45 GB，達成穩定的 2.91 倍壓縮比，有助於降低多智能體推理的成本和延遲。

●開發者：可應用於多智能體系統優化，減少推理資源消耗

●投資人：LLM 推理效率技術突破，降低營運成本

●一般用戶：對話服務更快更便宜，多智能體應用體驗改善

重要性評分

76/100

🟠 值得關注

KV快取壓縮多智能體推理量化技術

原文出處

上一則← General Motors 將 Gemini 整合至四百萬輛車，透過軟體更新推送下一則如何利用 OpenAI 的 Privacy Filter 構建可擴展的 Web 應用程式 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。