2026-06-02 · VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

📌 VideoMLA：低階 KV 快取縮減記憶體，提升分鐘級視訊生成

你是否曾因記憶體限制而無法在消費級顯卡上生成長達分鐘的視訊？一種新的 KV 快取設計或許能讓這樣的需求變得更可行。

🤔 記憶體瓶頸是分鐘級視訊擴散的主要阻礙
現有的自回歸視訊擴散模型需要為每個注意力頭儲存完整的 key 與 value，隨著視訊長度增加，顯存需求呈線性爆炸。這不僅限制了研究實驗的規模，也提高了生產環境的硬體門檻。

🧪 提出共享低階 KV 快取與解耦 3D‑RoPE 位置編碼
論文的核心貢獻是將原本「每頭獨立」的 K/V 矩陣替換為一個共享的低階表示，同時將位置資訊透過解耦的 3D‑RoPE 進行編碼。如此設計在理論上能大幅壓縮 KV 快取的記憶體佔用，而不犧牲生成品質。

🔑 在保持品質的同時實現顯著記憶體壓縮與吞吐提升
根據摘要，VideoMLA 能顯著降低記憶體使用量，並因此提升模型的吞吐量。這意味著在相同硬體條件下，可以處理更長的視訊序列或批次大小，為分鐘級視訊生成提供了可行的路徑。

💡 共享低階表示與位置編碼的分離是關鍵創新
傳統做法中，鍵值同時承擔語義與位置資訊，導致隨著序列長度增加而產生冗餘。VideoMLA 把「內容」與「位置」 decoupled：低階共享快取捕捉跨頭的共享語義，而 3D‑RoPE 則專門負責時空位置編碼。這種分離使得模型能在更低的 rank 下仍保持足夠的表達力，同時減少顯存需求。

⚠️ 論文剛發布，社區驗證與更廣泛適用性仍待觀察
作為新發表的工作，目前尚未看到大規模的複現或在不同視訊擴散架構上的廣泛測試。長期訓練穩定性、在極長視訊（超過數分鐘）上的表現，以及與其他記憶體優化技術（如分塊、量化）的組合效果，都是後續研究值得探索的方向。

🎯 對研究與產業的潛在影響
如果該方法在更多基線上得到驗證，將有望降低分鐘級視訊生成的硬體門檻，使得更多實驗室與中小型公司能在消費級 GPU 上進行長視訊的探索與產品化。這同時也為後續在資源受限環境（如邊緣設備）上的視訊擴散應用提供了新的思路。

🔗 論文連結
📝 VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion
🔗 https://huggingface.co/papers/2605.30351

你認為這種共享低階 KV 快取設計會在未來的視訊生成模型中成為標準嗎？歡迎在留言區分享你的看法 👇

#AI #VideoGeneration #DiffusionModels #VideoMLA #機器學習 #深度學習 #HuggingFace #技術趨勢

同來源相關文章