2026-05-21 · OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond

📌 OScaR：Occam’s Razor for Extreme KV Cache Quantization

你以為更長的上下文只會讓模型吃更多記憶體？OScaR 卻用「旋轉」與「縮放」讓 KV Cache 變小又變快。

🤔 長文模型的記憶體瓶頸
隨著 LLM 支援數萬 token 的上下文長度，KV Cache 成為推論時主要的記憶體消耗點。傳統的量化方法常受到 token 之間 norm 不平衡的影響，導致壓縮效果不穩、解碼速度難以提升。

🧪 提出 canalized rotation 與 omni-token scaling
論文針對 token norm 不平衡問題，設計了兩個關鍵技術：

Canalized rotation：透過特定的旋轉操作，使不同 token 的 norm 分布更均勻，減少極端值對量化的干擾。
Omni-token scaling：對所有 token 進行統一的縮放，進一步壓縮動態範圍，使量化後的誤差更小。
這兩種機制結合後，形成了一個「極簡」的量化框架——正如標題所暗示的 Occam’s Razor（奧卡姆剃刀），在不增加額外複雜度的前提下達到更好的壓縮效果。

📈 顯著的記憶體與速度提升
實驗顯示，OScaR 在保持語言建模品質的同時，顯著降低了 KV Cache 的記憶體佔用，並加速了 token 的解碼過程。具體改善幅度隨模型與上下文長度而異，但整體趨勢明確：記憶體效率與解碼速度皆有顯著提升。

💡 為何 canalized rotation 與 omni-token scaling 能有效工作？
token norm 不平衡會導致少數 token 在量化時佔據主要誤差來源，進而影響整個 cache 的表示品質。透過先旋轉讓 norm 分布更「運河化」（即更均勻流動），再進行全域縮放，使得每個 token 在量化後的誤差更平均，整體壓縮誤差下降。這種思路不依賴於複雜的自適應規則，而是利用幾何變換達到穩定的量化效果，因而適用於各種長文 LLMs。

⚠️ 研究限制

未公開原始程式碼，限制了即時的實作與驗證。
實驗主要聚焦於特定架構與規模的模型，不同模型家族的普遍適用性仍需進一步探討。
尚未針對極端長度（例如百萬 token）或混合精度部署做詳細基準測試。

🎯 對工程師的實務啟示
如果你正在部署長文 LLM 且受記憶體或延遲瓶頸困擾，OScaR 提供了一種無需重新訓練、僅需在推論階段加入旋轉與縮放步驟的方案。在等待開源實作之前，可先參考論文中的算法描述，自行在框架中試點實驗，評估其在你的具體工作負載上的記憶體節省與速度提升。

🔗 論文連結
📝 OScaR: The Occam’s Razor for Extreme KV Cache Quantization in LLMs and Beyond
👤 作者／機構：未在摘要中顯示
🔗 https://huggingface.co/papers/2605.19660

你有在長文 LLM 上遇過 KV Cache 記憶體爆炸的問題嗎？歡迎在留言區分享你的經驗或對此類量化技術的看法 👇

#AI #LLM #KVCache #Quantization #EfficientInference #HuggingFace #OScaR #機器學習 #深度學習 #自然語言處理

同來源相關文章