HuggingFace Daily Papers ★ 90 3 min

Reinforcing Few-step Generators via Reward-Tilted Distribution Matching

🔗 https://huggingface.co/papers/2605.26108

📌 Reinforcing Few-step Generators via Reward‑Tilted Distribution Matching

你以為只要縮減 diffusion 步數就能得到即時圖像生成,但速度提升往往伴隨著與人類偏好的脫節——這到底能怎麼改善?

🤔 當速度遇上偏好:少步生成的對齊挑戰
少步(few‑step)擴散模型之所以吸引人,是因為它能大幅縮短推論時間,適合即時應用。然而,減少樣本步驟通常會讓生成結果偏離訓練分布,進而降低與人類審美或使用需求的一致性。單純依賴傳統的分布匹配蒸餾(distribution matching distillation)雖能保持樣本多樣性,卻缺乏直接納入人類偏好的機制;純粹的強化學習(RL)則能針對偏好進行優化,但訓練不穩定且成本高。如何在保持訓練效率的同時,讓模型既貼近目標分布又符合人類期望,成為此研究的切入點。

🧪 兩階段框架:先匹配分布,再導向獎勵
論文提出 Reward‑Tilted Distribution Matching (RTDMD),將兩種互補技術串聯:

  1. 階段一 – Distribution Matching Distillation:利用教師模型的輸出分布作為目標,學生模型在少步設定下進行蒸餾,確保生成樣本在統計層面與教師保持一致。
  2. 階段二 – Reward‑Guided Reinforcement Learning:在階段一得到的基礎模型上,引入以人類偏好為依據的獎勵函式,透過強化學習微調政策,使生成結果朝著更符合偏好的方向傾斜。
    這樣的設計讓第一階段解決「分布對齊」的基礎問題,第二階段則負責「偏好導向」的精細調整。

核心貢獻:將分布匹配與偏好導向RL結合,提升少步生成的人類對齊度
雖然文件未公開具體實驗數據,但作者指出,此兩階段組合能讓少步圖像生成器在保持生成速度的同時,更好地與人類偏好對齊。也就是說,透過先確保分布不偏離,再用獎訊號微調,模型既不失去多樣性,又能在偏好尺度上獲得提升。

💡 為何這個組合有效?

  • 分布匹配 提供了一個穩定的起點,避免強化學習從零開始時常見的獎勵 hacking 或模式崩塌。
  • 獎勵導向 則補足了純分布匹配無法捕捉的主觀品質層面,使模型能學習哪些細節才是人類真正重視的。
    兩者互補,使得訓練過程既保有一定的效率(階段一可用較少的樣本完成),又能在階段二以較小的額外成本納入偏好訊號。

⚠️ 研究限制:訓練成本與程式碼尚未公開

  • 該方法需要進行兩階段的訓練,對計算資源的需求非同小可。
  • 目前尚未發布開源程式碼,限制了社群直接復現與快速工程化應用的便利度。
  • 評估主要聚焦於對齊度的概念性改進,缺乏公開的基準分數或消融實驗細節。

🎯 對工程師的啟示:若追求即時生成與偏好兼顧,可考慮兩階段策略

  • 在部署少步擴散模型時,先嘗試使用分布匹配蒸餾來獲得基礎的快速生成器。
  • 若後續發生與使用者偏好的顯著偏差,可再以少量的人類偏好數據進行獎勵導向的微調,而不必從頭重新訓練完整模型。
  • 雖然需要額外的訓練投入,但這種「先穩定再優化」的流程可能比單純依賴任一方法更具實用彈性。

🔗 論文連結
📝 Reinforcing Few-step Generators via Reward-Tilted Distribution Matching
🔗 https://huggingface.co/papers/2605.26108

你在快速生成與使用者體驗之間,是否也遇過類似的取捨?歡迎在留言區分享你的看法 👇

#AI #DiffusionModels #ReinforcementLearning #GenerativeAI #HuggingFace #MachineLearning #AIResearch

tencent/hy3-preview:free 自動生成