HuggingFace Daily Papers ★ 95 2 min

ReNIO: Reweighting Negative Trajectory Importance for LLM On-Policy Distillation

🔗 https://huggingface.co/papers/2606.23104

📌 ReNIO:透過負向軌跡重新加權,提升 LLM 在推理任務的蒸餾效能

TL;DR:利用 token 層級的機率比率對負向軌跡重新加權,最佳化 LLM 在數學與程式碼生成任務的 on-policy 蒸餾效果。

在大型語言模型(LLM)的蒸餾過程中,如何有效利用「錯誤的生成路徑」來指導模型避坑,一直是提升推理能力的核心挑戰。

🤔 On-policy 蒸餾中的負向路徑問題

在 on-policy 蒸餾流程中,模型會根據當前策略生成多條路徑(trajectories)。然而,並非所有失敗的路徑都具有相同的指導價值。若能精準識別並調整這些負向軌跡的權重,模型能更有效地學習哪些生成方向應被避免。

🧩 ReNIO 的核心機制:Token 層級的重新加權

ReNIO 提出了一套重新加權機制,旨在最佳化負向軌跡的重要性評估:

  • 監控 Token 機率比率:透過計算 token 層級的機率比率(probability ratios)來重新評估負向軌跡的權重。
  • 強化負向指導:不再將所有失敗路徑一視同仁,而是根據機率分佈對其重要性進行調整,使模型在蒸餾過程中能更精準地學習。

📊 在數學與程式碼生成任務中表現提升

根據研究結果,ReNIO 在以下兩類高邏輯要求的任務中展現出顯著的效能提升:

  • 數學推理任務 (Mathematical Tasks)
  • 程式碼生成任務 (Code Generation Tasks)

🎯 實務啟示

對於從事 LLM 蒸餾或對齊(Alignment)的工程師來說,ReNIO 提供了一個新的思考方向:在處理負面樣本時,不應僅將其視為「錯誤」而簡單排除或均等處理,透過 token 層級的機率分析來重新分配權重,可能是提升模型推理能力的一種有效手段。

🔗 來源

#LLM #Distillation #OnPolicy #Reasoning #Mathematics #CodeGeneration #ReNIO #MachineLearning #DeepLearning #NLP

google/gemma-4-31b-it:free 自動生成