2026-06-23 · Kamera: Unified Position-Invariant Multimodal KV Cache for Training-Free Reuse

📌 【arXiv 研究】Kamera：打破位置限制，讓多模態 KV Cache 實現「零成本」重複利用

TL;DR：透過 RoPE 重新旋轉與低秩修正補丁，讓 KV Cache 脫離固定位置限制，大幅降低多模態 Agent 的重複計算成本。

在多模態 Agent 的運作過程中，模型經常需要反覆檢視相同的影片幀或 UI 截圖。然而，目前的 prefix cache 僅能在固定的起始位置重複利用，一旦 context window 滑動或推理迭代，即使是相同的內容也必須從頭重新編碼。

🤔 重複編碼的根源：被忽略的「跨區塊條件」

研究發現，單純地重複利用 KV Cache 會導致一種特定的效能損失：區塊（chunk）從其鄰近區塊中吸收的「跨區塊條件（cross-chunk conditioning）」會消失。

這種損失具有不對稱性：

這解釋了為何先前設計的「位置獨立快取」雖能處理單一影像，但在複雜的多模態推理任務中會失效。

🧩 Kamera 的解決方案：RoPE 旋轉 + 低秩修正補丁

Kamera 提出了一套無需訓練（training-free）的機制，讓 KV Cache 可以在不同位置之間自由移動且不損失精度。其核心操作分為兩部分：

精確的 RoPE 重新旋轉：將快取的內容透過 RoPE 重新旋轉至任何目標位置，使其適用於 MLA、GQA 與 MHA 等多種 Attention 機制。
低秩條件補丁（Low-rank conditioning patch）：在每個位置獨立的區塊旁儲存一個小型補丁，用以恢復因位置變動而損失的跨區塊繫結訊號。

這使得以下三種視窗操作變得極其廉價：

📊 實驗結果：恢復精度並降低記憶體佔用

🎯 實務啟示

對於開發多模態 Agent 的工程師來說，Kamera 提供了一種在不重新訓練模型的情況下，最佳化長文本/長影片處理效能的可能性。透過儲存極小比例的低秩補丁，可以避免在視窗滑動時進行昂貴的 re-prefill，特別是在處理高冗餘的視覺輸入時，能顯著降低計算開銷。

🔗 來源

標題：Kamera: Unified Position-Invariant Multimodal KV Cache for Training-Free Reuse
作者／機構：Bole Ma, Jan Eitzinger, Harald Koestler, Gerhard Wellein
連結：http://arxiv.org/abs/2606.23581v1

#AI #Multimodal #KVCache #LLM #RoPE #InferenceOptimization #ComputerVision #MachineLearning #SGLang #AttentionMechanism

同來源相關文章