HuggingFace Daily Papers ★ 97 2 min

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

🔗 https://huggingface.co/papers/2605.30351

📌 VideoMLA:低階 KV 快取縮減記憶體,提升分鐘級視訊生成

你是否曾因記憶體限制而無法在消費級顯卡上生成長達分鐘的視訊?一種新的 KV 快取設計或許能讓這樣的需求變得更可行。

🤔 記憶體瓶頸是分鐘級視訊擴散的主要阻礙
現有的自回歸視訊擴散模型需要為每個注意力頭儲存完整的 key 與 value,隨著視訊長度增加,顯存需求呈線性爆炸。這不僅限制了研究實驗的規模,也提高了生產環境的硬體門檻。

🧪 提出共享低階 KV 快取與解耦 3D‑RoPE 位置編碼
論文的核心貢獻是將原本「每頭獨立」的 K/V 矩陣替換為一個共享的低階表示,同時將位置資訊透過解耦的 3D‑RoPE 進行編碼。如此設計在理論上能大幅壓縮 KV 快取的記憶體佔用,而不犧牲生成品質。

🔑 在保持品質的同時實現顯著記憶體壓縮與吞吐提升
根據摘要,VideoMLA 能顯著降低記憶體使用量,並因此提升模型的吞吐量。這意味著在相同硬體條件下,可以處理更長的視訊序列或批次大小,為分鐘級視訊生成提供了可行的路徑。

💡 共享低階表示與位置編碼的分離是關鍵創新
傳統做法中,鍵值同時承擔語義與位置資訊,導致隨著序列長度增加而產生冗餘。VideoMLA 把「內容」與「位置」 decoupled:低階共享快取捕捉跨頭的共享語義,而 3D‑RoPE 則專門負責時空位置編碼。這種分離使得模型能在更低的 rank 下仍保持足夠的表達力,同時減少顯存需求。

⚠️ 論文剛發布,社區驗證與更廣泛適用性仍待觀察
作為新發表的工作,目前尚未看到大規模的複現或在不同視訊擴散架構上的廣泛測試。長期訓練穩定性、在極長視訊(超過數分鐘)上的表現,以及與其他記憶體優化技術(如分塊、量化)的組合效果,都是後續研究值得探索的方向。

🎯 對研究與產業的潛在影響
如果該方法在更多基線上得到驗證,將有望降低分鐘級視訊生成的硬體門檻,使得更多實驗室與中小型公司能在消費級 GPU 上進行長視訊的探索與產品化。這同時也為後續在資源受限環境(如邊緣設備)上的視訊擴散應用提供了新的思路。

🔗 論文連結
📝 VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion
🔗 https://huggingface.co/papers/2605.30351

你認為這種共享低階 KV 快取設計會在未來的視訊生成模型中成為標準嗎?歡迎在留言區分享你的看法 👇

#AI #VideoGeneration #DiffusionModels #VideoMLA #機器學習 #深度學習 #HuggingFace #技術趨勢

tencent/hy3-preview:free 自動生成