HuggingFace Daily Papers ★ 100 3 min

OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond

🔗 https://huggingface.co/papers/2605.19660

📌 OScaR:Occam’s Razor for Extreme KV Cache Quantization

你以為更長的上下文只會讓模型吃更多記憶體?OScaR 卻用「旋轉」與「縮放」讓 KV Cache 變小又變快。

🤔 長文模型的記憶體瓶頸
隨著 LLM 支援數萬 token 的上下文長度,KV Cache 成為推論時主要的記憶體消耗點。傳統的量化方法常受到 token 之間 norm 不平衡的影響,導致壓縮效果不穩、解碼速度難以提升。

🧪 提出 canalized rotation 與 omni-token scaling
論文針對 token norm 不平衡問題,設計了兩個關鍵技術:

  • Canalized rotation:透過特定的旋轉操作,使不同 token 的 norm 分布更均勻,減少極端值對量化的干擾。
  • Omni-token scaling:對所有 token 進行統一的縮放,進一步壓縮動態範圍,使量化後的誤差更小。
    這兩種機制結合後,形成了一個「極簡」的量化框架——正如標題所暗示的 Occam’s Razor(奧卡姆剃刀),在不增加額外複雜度的前提下達到更好的壓縮效果。

📈 顯著的記憶體與速度提升
實驗顯示,OScaR 在保持語言建模品質的同時,顯著降低了 KV Cache 的記憶體佔用,並加速了 token 的解碼過程。具體改善幅度隨模型與上下文長度而異,但整體趨勢明確:記憶體效率與解碼速度皆有顯著提升。

💡 為何 canalized rotation 與 omni-token scaling 能有效工作?
token norm 不平衡會導致少數 token 在量化時佔據主要誤差來源,進而影響整個 cache 的表示品質。透過先旋轉讓 norm 分布更「運河化」(即更均勻流動),再進行全域縮放,使得每個 token 在量化後的誤差更平均,整體壓縮誤差下降。這種思路不依賴於複雜的自適應規則,而是利用幾何變換達到穩定的量化效果,因而適用於各種長文 LLMs。

⚠️ 研究限制

  • 未公開原始程式碼,限制了即時的實作與驗證。
  • 實驗主要聚焦於特定架構與規模的模型,不同模型家族的普遍適用性仍需進一步探討。
  • 尚未針對極端長度(例如百萬 token)或混合精度部署做詳細基準測試。

🎯 對工程師的實務啟示
如果你正在部署長文 LLM 且受記憶體或延遲瓶頸困擾,OScaR 提供了一種無需重新訓練、僅需在推論階段加入旋轉與縮放步驟的方案。在等待開源實作之前,可先參考論文中的算法描述,自行在框架中試點實驗,評估其在你的具體工作負載上的記憶體節省與速度提升。

🔗 論文連結
📝 OScaR: The Occam’s Razor for Extreme KV Cache Quantization in LLMs and Beyond
👤 作者/機構:未在摘要中顯示
🔗 https://huggingface.co/papers/2605.19660

你有在長文 LLM 上遇過 KV Cache 記憶體爆炸的問題嗎?歡迎在留言區分享你的經驗或對此類量化技術的看法 👇

#AI #LLM #KVCache #Quantization #EfficientInference #HuggingFace #OScaR #機器學習 #深度學習 #自然語言處理

tencent/hy3-preview:free 自動生成