HuggingFace Daily Papers ★ 90 3 min

DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

🔗 https://huggingface.co/papers/2605.28421

📌 DenoiseRL:從錯誤軌跡學習,抗噪推理

你以為模型只要看到正確開頭就能穩定推理?實際上,哪怕前面只有幾個錯誤 token,也可能讓整條推理鏈崩潰,而傳統做法又得靠大量標註數據才能彌補——這不只費時,也限制了模型的可擴展性。

🤔 當噪聲前綴成為推理的隱形阻礙

大型語言模型在面對不完整或帶噪的輸入時,推理容易偏離正確路徑。此問題在需要多步驟推理的任務中尤為明顯,卻難以僅靠額外的監督信號來解決,因為標註成本高且難以隨模型規模線性增長。

🧪 以失敗為導向的強化學習框架

DenoiseRL 透過強化學習讓模型從錯誤的推理軌跡中學習,而不是只依賴正確答案的監督。具體而言,框架設計了一個失敗導向的獎勵機制:當模型在噪聲前綴下產生錯誤推理時,該軌跡會被納入訓練樣本,並透過優化使模型在後續步驟中更有可能自我糾正。這種「從錯誤中 bootstrapping」的方式,讓模型在不增加外部標註的情況下,逐步建立對噪聲前綴的容忍度。

🔑 透過錯誤軌跡建立自我修正能力

實驗顯示,採用 DenoiseRL 後,模型在帶噪聲前綴的推理基準上表現更為穩定,且訓練過程對外部標註的依賴顯著降低。這意味著,模型不只學會了「如何正確推理」,更學會了「當推理偏離時如何自行回到正確軌道」,從而在輸入不完整或嘈雜的情況下保持較高的可靠性。

💡 失敗即教材:重新思考監督訓練的必要性

傳統監督學習把錯誤視為需要避免的噪聲;DenoiseRL 則將錯誤轉化為訓練信號。這種觀點的轉變暗示,未來的模型訓練可以更大程度地利用模型自身的探索過程,減少對人工標註的依賴,同時提升訓練的擴展性——特別適合於資源有限或需要快速迭代的研究與工程場景。

⚠️ 目前僅在特定推理任務上驗證,長效穩定性尚待觀察

該研究主要聚焦於特定類型的推理基準,尚未在更廣泛的語言生成或對話任務上進行系統評估。此外,雖然框架減少了對外部標註的需求,但其強化學習過程仍需精心設計獎勵函式與探索策略,這在實際應用中可能帶來額外的調校成本。

🎯 以錯誤為養分,打造更具韌性的推理模型

  • 在訓練管線中加入失敗導向的強化學習模組,可在不額外標註的情況下提升模型對噪聲前綴的容忍度。
  • 設計獎勵時,除了正確答案的回饋,亦應該考慮模型從錯誤軌跡中自我修正的能力。
  • 對於需要在真實世界中處理不完整輸入的應用(如程式碼補全、開放域問答),此策略有望降低對大規模標註資料的依賴。

🔗 論文連結
📝 DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes
👤 作者:未於摘要中明示
🔗 https://huggingface.co/papers/2605.28421

你在使用 AI 輔助推理時,是否曾遇過「開頭就錯,後續全盤皆失」的情況?歡迎在留言區分享你的經驗與看法 👇

#AI #Reasoning #ReinforcementLearning #LLM #HuggingFace #DenoiseRL #模型訓練 #機器學習

tencent/hy3-preview:free 自動生成