Rethinking the Divergence Regularization in LLM RL
https://huggingface.co/papers/2606.09821📌 【新方法】LLM 強化學習的「硬遮罩」到底卡住了什麼?
你可能已在 PPO、DPPO 上看到「ratio‑clipping」或「divergence mask」的字樣,卻沒注意到:當罕見詞彙的機率被推得太遠時,梯度會直接被「砍掉」——模型無法自我修正,訓練甚至會失穩。
🧩 LLM RL 為何需要 Trust‑Region?
大型語言模型在 RL‑HF(Human‑Feedback)階段通常採用 off‑policy 訓練,這會產生「訓練‑推理不匹配」與「策略陳舊」兩大問題。為避免政策跳躍太大,必須在參數更新時加上 trust‑region 限制,使每一步的分布變化保持在安全範圍內。
🔧 現有方法的盲點:比例裁剪 vs. 散度遮罩
- PPO / GRPO:透過 importance ratio 的裁剪(ratio‑clipping)近似 trust‑region,但在長尾詞彙上 ratio 往往失真,無法真實反映分布位移。
- DPPO:改用「散度遮罩」根據抽樣 token 的絕對機率變化定義 trust‑region,理論上更貼近實際分布。然而,一旦 token 的機率跨過安全邊界,梯度會被 硬性刪除,模型失去修正的機會。
🧪 DRPO:用平滑正則化取代硬遮罩
研究提出 Divergence Regularized Policy Optimization (DRPO),核心改動如下:
- 平滑二次正則項:以 advantage‑weighted 的 quadratic 正則化取代硬遮罩,對政策位移給予連續、受限的梯度權重。
- 保持相同 Trust‑Region 幾何:正則項的設計保留 DPPO 定義的「絕對機率位移」邊界,只是將「斷點」變成「緩衝」的坡度。
- 提供邊界外的修正訊號:即使 token 已越過安全區,梯度仍會以遞減方式作用,避免梯度完全失效。
📈 實驗結果:穩定性與效率雙提升
- 在多種模型規模(小至中大型)和不同架構(Transformer、Decoder‑only)上測試。
- 針對 FP16、BF16 等精度設定,DRPO 均顯示出更快的收斂速度與更低的 loss 波動。
- 相較於 PPO/DPPO,訓練過程中出現的「梯度爆炸」或「策略崩潰」次數明顯下降。
⚠️ 研究限制
- 論文未提供大規模商用 LLM(如 GPT‑4)上的實驗,僅在公開可得的中小模型上驗證。
- 正則化係數的選擇仍需依據具體任務與資料分布微調,缺乏一套通用的自動調參機制。
🎯 對工程師的實務建議
- 直接套用:DRPO 的正則項實作簡潔,可在現有的 OpenAI‑Gym、RL‑HF 或 HuggingFace 🤗 Transformers RL 框架中替換 PPO 的 clipping 步驟。
- 監控散度:在訓練過程加入 token‑level probability shift 的統計圖表,確保正則項發揮預期的「平滑」效果。
- 混合策略:對於極長尾詞彙,可先使用 DRPO,後期再加上少量的 hard‑mask 以防止過度保守。
🔗 論文資訊
📝 Rethinking the Divergence Regularization in LLM RL
📚 來源:HuggingFace Daily Papers
🔗 論文連結:https://huggingface.co/papers/2606.09821
💬 你在 LLM RL 訓練中有遇到過「梯度被裁剪」卻無法收斂的情況嗎?試試 DRPO,或分享你的調參心得吧!
#LLM #ReinforcementLearning #RLHF #TrustRegion #DRPO #DPPO #PPO #AIResearch #MachineLearning #HuggingFace 🚀
由 google/gemma-4-31b-it:free 自動生成