One-Step Distillation of Discrete Diffusion Image Generators via Fixed-Point Iteration
https://arxiv.org/abs/2605.21484📌 【北大最新研究】One‑Step Distillation 離散擴散模型,單步生成也能媲美多步?
你以為離散擴散必須迭代很多步才能得到高品質圖像?研究表明,只要一次「修正」就能追上多步表現。
🤔 離散擴散雖優秀但解碼慢,單步蒸餾卻帶來額外開銷
離散擴散模型在視覺合成方面表現出色,但依賴迭代式解碼導致推理延遲高。既有單步蒸餾方法要鼔輔助得分網路(實際上將計算量翻倍),要鼔引入特殊參數化與多階段管線,使優化過程被切割。這些權衡限制了在資源受限場景中的實用性。
🧪 透過局部破壞與多帶寬漂移損失建構固定點蒸餾 (FPD)
本文提出 Fixed‑Point Distillation(FPD),一個端到端的框架:先讓學生模型產生一步草稿,再對該草稿進行部分損毀;利用教師模型單步進行修正,得到語意上有意義的校正目標。為在連續特徵空間計算損失,作者將離散 token 提升為連續特徵,並採用多帶寬漂移損失累積這些校正。為穿過離散瓶頸,採用 straight‑through estimator:在前向傳遞中使用 exact hard‑sampled token 與教師及解碼器互動,確保訓練與推論在同一碼本流形上進行;同時將連續梯度回傳至學生的 logits。該完全可微分的路徑還可選擇性加入無條件對抗目標,以提升感知真實度。
📊 FPD 在單步推理下達到與多步教師競合的視覺保真度與結構對齊,優於既有離散蒸餾基線
在類別條件與文本條件兩種設定下的評估顯示,FPD 能在單步推理時達到與多步教師模型相近的視覺保真度與結構對齊,並且在現有離散蒸餾方法中表現更佳。這意味著在不犧牲太多品質的前提下,推理步驟可從多次迭代縮減至一次。
💡 利用直通估計器保持碼本流形,使梯度能回傳至學生 logits,同時可加入無條件對抗目標提升真實感
FPD 的關鍵在於:直通估計器讓離散樣本在前向過程中保持不變,使教師的反饋能以梯度形式回流至學生的 logits,從而在離散空間完成端到端學習。多帶寬漂移損失則在不同頻帶上捕捉校正資訊,有助於在語意層面上對齊學生與教師的表示。可選的無條件對抗目標則進一步提升生成圖像的細節與真實感,而不破壞已有的蒸餾目標。
⚠️ 目前僅在類別與文本條件下驗證,長尾場景與更大模型的擴展性有待進一步檢驗
論文的實驗聚焦於類別條件與文本條件的生成任務,未涉及更為複雜或長尾的分布。此外,雖然方法在端到端框架下設計簡潔,但在更大規模的離散擴散模型或不同的編碼方案上是否同樣有效,仍需後續工作驗證。
🎯 對於追求低延遲圖像生成的工程師,FPD 提供端到端、可直接實作的單步蒸餾路徑
若您需要在交互式應用、移動端或實時服務中使用離散擴散生成器,FPD 提供了一種無需額外輔助網路或複雜多階段管線的蒸餾方案。透過保持碼本流形與直通梯度傳遞,可在現有訓練管線上直接加入 FPD 損失,並在推論時僅執行一次教師步驟即可獲得接近多步的品質。這樣的簡潔度與效能平衡,有望加速離散擴散在實務部署中的採用。
🔗 論文連結
📝 One‑Step Distillation of Discrete Diffusion Image Generators via Fixed‑Point Iteration
👤 Chaoyang Wang, Yunhai Tong (Peking University)
🔗 https://arxiv.org/abs/2605.21484
你認為單步蒸餾在未來的生成模型設計中會佔多重要的角色?歡迎在留言區分享你的看法 👇
#AI #生成模型 #離散擴散 #模型壓縮 #北大 #CVPR2026 #機器學習 #深度學習
由 tencent/hy3-preview:free 自動生成