2026-05-29 · Native Audio-Visual Alignment for Generation

📌 Native Audio-Visual Alignment 提升多模態生成同步性

你以為 AI 產出的影片聲音已經完美同步？實際上，多數方法仍靠事後對齊，導致畫面與聲音常有微微延遲。

🤔 事後對齊難以達到真正的同步

先前的音訊‑視訊生成模型通常先獨立產出聲音與畫面，再透過後處理技術試圖讓兩者對齊。這種「先產後對」的流程難以捕捉到音訊與視訊在時間上的細節依賴，因而同步度有上限，且對生成過程的可控性也受限。

🧪 原生音訊‑視訊對齊與條件去噪的聯合設計

NAVA 提出一種原生的音訊‑視訊對齊機制：在擴散過程中，同時對音訊與視訊的噪聲進行去噪，且去噪步驟受到共享的上下文條件引導。這使得模型在生成的每一個時間步都能直接考慮到兩種模態的相互依賴，而不是事後彌補不匹配。

同步度與可控性皆有提升

論文指出，相比於以往的事後對齊方法，NAVA 在生成結果上展現出更緊密的音訊‑視訊同步，並且因為去噪過程受到條件引導，使用者可以更直接地控制生成內容的風格或結構（例如調整節奏、情緒等）。

💡 為何原生對齊能帶來更好的結果

因為音訊與視訊在真實世界中是緊耦合的（例如嘴型與語音、敲擊聲與畫面變化），讓模型在同一個去噪軌跡上學習這種耦合關係，能減少模態間的分佈落差。條件去噪則提供了額外的控制訊號，使得生成過程不僅同步更好，亦可依需求調整特定屬性。

⚠️ 未開放程式碼與演示，實務應用尚待觀察

目前論文僅提供方法描述與實驗結果，尚未釋放原始程式碼或線上示範。缺少可復現的實作資源，使得研究社群短期內難以直接驗證或將其應用於現有專案中。

🎯 期待開源與進一步探索

若後續發布程式碼或預訓練模型，NAVA 有望成為未來可控多模態生成的基礎技術，尤其適合對同步度要求較高的場景，如虛擬主播、互動敘事或即時多媒體合成。研究者亦可在此基礎上探索不同的條件引導方式，以擴展其應用範圍。

🔗 論文連結
📝 Native Audio-Visual Alignment for Generation
👤 作者未詳（來源：HuggingFace Daily Papers）
🔗 https://huggingface.co/papers/2605.30073

你認為原生對齊在未來的多模態生成中會扮演什麼角色？歡迎在留言區分享你的看法 👇

#AI #AudioVisual #MultimodalGeneration #DiffusionModels #HuggingFace #研究分享

同來源相關文章