HuggingFace Daily Papers ★ 110 3 min

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

🔗 https://huggingface.co/papers/2605.30263

📌 【minWM】將雙向視頻擴散模型轉為實時互動世界模型的開源框架

你是否曾想過,讓 AI 不僅能生成視頻,還能即時互動且可控?
minWM 框架讓這成為可能。
它透過微調與蒸餾,把原本高延遲的雙向視頻擴散模型變得可因果、低延遲且可控制。

🤔 互動視頻世界模型的需求與現有技術的瓶頸
隨著代理人、虛擬環境與多模態系統的發展,研究者需要能即時回應使用者輸入、具備因果關係且可控制的視頻世界模型。然而,現行的雙向視頻擴散模型在生成品質上雖優秀,但因其雙向依賴與高計算成本,難以達到低延遲的即時互動。

🧪 minWM:全棧開源管線的設計概念
minWM 提供一套完整的開源流程,先對預訓練的雙向視頻擴散模型進行任務導向的微調,使其學會在給定條件下生成符合互動需求的畫面;接著透過知識蒸餾,將微調後的大型模型壓縮為更輕量的版本,從而大幅降低推論延遲。該框架涵蓋模型準備、微調腳本、蒸餾工具與推論介面,讓工程師可以直接在自己的專案中使用。

🔬 核心貢獻:實現可控、因果且低延遲的互動視頻世界模型
透過上述兩階段處理,minWM 能將原本只適合離線生成的雙向視頻擴散模型轉換為具備以下特性的互動世界模型:

  • 可控制:能依據即時輸入(如文字、動作或環境狀態)生成對應的視幀。
  • 因果:生成過程僅依賴過去資訊,符合實時互動的時間單向性。
  • 低延遲:經過蒸餾後的模型推論時間足以支援即時回饋。

💡 為何微調與蒸餾在此情境下有效
微調讓模型學會在特定互動情境下的條件分布,而不會破壞其原有的視頻生成能力;蒸餾則透過學習小型模型模仿大型模型的輸出,保留品質的同時大幅減少計算量。這兩種技術的組合,正是實現「高品質」與「即時互動」間 trade‑off 的關鍵。

⚠️ 已知限制與後續工作方向
作為剛發布的開源框架,minWM 目前的實驗主要聚焦在特定的視頻生成基礎模型上;不同架構或更大規模模型的適用性尚需社群進一步驗證。此外,論文未詳細列出各種下游任務(例如強化學習代理人或虛擬人物)的基準測試結果,這也是未來評估的重點。

🎯 實務啟示:開源即用,加速互動多模態系統的建置

  • 對於正在構建代理人、虛擬環境或多模態對話系統的團隊,minWM 提供了一條直接將現有視頻生成模型轉為即時互動元件的途徑。
  • 框架的開源特性意味著社群可以快速擴充支援的模型類型、優化蒸餾策略或針對特定硬體進行延遲調校。
  • 實際應用時,建議先在目標硬體上微調與蒸餾的超參數進行小規模驗證,再根據延遲與品質需求調整模型大小。

🔗 論文連結
📝 minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models
🔗 https://huggingface.co/papers/2605.30263

你已經嘗試過將視頻生成模型用於即時互動嗎?歡迎在留言區分享你的經驗或對 minWM 的看法 👇

#AI #VideoGeneration #WorldModel #OpenSource #minWM #HuggingFace #實時互動 #多模態 #代理人 #虛擬環境

tencent/hy3-preview:free 自動生成