2026-05-21 · One-Step Distillation of Discrete Diffusion Image Generators via Fixed-Point Iteration

📌 【北大最新研究】One‑Step Distillation 離散擴散模型，單步生成也能媲美多步？

你以為離散擴散必須迭代很多步才能得到高品質圖像？研究表明，只要一次「修正」就能追上多步表現。

🤔 離散擴散雖優秀但解碼慢，單步蒸餾卻帶來額外開銷
離散擴散模型在視覺合成方面表現出色，但依賴迭代式解碼導致推理延遲高。既有單步蒸餾方法要鼔輔助得分網路（實際上將計算量翻倍），要鼔引入特殊參數化與多階段管線，使優化過程被切割。這些權衡限制了在資源受限場景中的實用性。

🧪 透過局部破壞與多帶寬漂移損失建構固定點蒸餾 (FPD)
本文提出 Fixed‑Point Distillation（FPD），一個端到端的框架：先讓學生模型產生一步草稿，再對該草稿進行部分損毀；利用教師模型單步進行修正，得到語意上有意義的校正目標。為在連續特徵空間計算損失，作者將離散 token 提升為連續特徵，並採用多帶寬漂移損失累積這些校正。為穿過離散瓶頸，採用 straight‑through estimator：在前向傳遞中使用 exact hard‑sampled token 與教師及解碼器互動，確保訓練與推論在同一碼本流形上進行；同時將連續梯度回傳至學生的 logits。該完全可微分的路徑還可選擇性加入無條件對抗目標，以提升感知真實度。

📊 FPD 在單步推理下達到與多步教師競合的視覺保真度與結構對齊，優於既有離散蒸餾基線
在類別條件與文本條件兩種設定下的評估顯示，FPD 能在單步推理時達到與多步教師模型相近的視覺保真度與結構對齊，並且在現有離散蒸餾方法中表現更佳。這意味著在不犧牲太多品質的前提下，推理步驟可從多次迭代縮減至一次。

💡 利用直通估計器保持碼本流形，使梯度能回傳至學生 logits，同時可加入無條件對抗目標提升真實感
FPD 的關鍵在於：直通估計器讓離散樣本在前向過程中保持不變，使教師的反饋能以梯度形式回流至學生的 logits，從而在離散空間完成端到端學習。多帶寬漂移損失則在不同頻帶上捕捉校正資訊，有助於在語意層面上對齊學生與教師的表示。可選的無條件對抗目標則進一步提升生成圖像的細節與真實感，而不破壞已有的蒸餾目標。

⚠️ 目前僅在類別與文本條件下驗證，長尾場景與更大模型的擴展性有待進一步檢驗
論文的實驗聚焦於類別條件與文本條件的生成任務，未涉及更為複雜或長尾的分布。此外，雖然方法在端到端框架下設計簡潔，但在更大規模的離散擴散模型或不同的編碼方案上是否同樣有效，仍需後續工作驗證。

🎯 對於追求低延遲圖像生成的工程師，FPD 提供端到端、可直接實作的單步蒸餾路徑
若您需要在交互式應用、移動端或實時服務中使用離散擴散生成器，FPD 提供了一種無需額外輔助網路或複雜多階段管線的蒸餾方案。透過保持碼本流形與直通梯度傳遞，可在現有訓練管線上直接加入 FPD 損失，並在推論時僅執行一次教師步驟即可獲得接近多步的品質。這樣的簡潔度與效能平衡，有望加速離散擴散在實務部署中的採用。

🔗 論文連結
📝 One‑Step Distillation of Discrete Diffusion Image Generators via Fixed‑Point Iteration
👤 Chaoyang Wang, Yunhai Tong (Peking University)
🔗 https://arxiv.org/abs/2605.21484

你認為單步蒸餾在未來的生成模型設計中會佔多重要的角色？歡迎在留言區分享你的看法 👇

#AI #生成模型 #離散擴散 #模型壓縮 #北大 #CVPR2026 #機器學習 #深度學習

同來源相關文章