2026-06-26 · Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It

📌 解決多步驟工具使用崩潰：監督訊號如何穩定 RL 訓練？

TL;DR：透過交替使用 SFT 與 RL 的訓練策略，解決 LLM 在多步驟工具使用中容易發生的崩潰與格式敏感問題。

當我們嘗試讓 LLM 透過強化學習 (RL) 學習呼叫工具時，常會遇到一個棘手問題：模型在訓練過程中突然效能崩潰，或者對輸出格式變得極其敏感，導致原本能執行的工具呼叫失效。

🤔 多步驟工具使用的訓練挑戰

在執行需要多個步驟的工具使用任務時，模型面臨兩個核心痛點：

🧩 交替訓練策略：SFT 與 RL 的協同作用

為了提升穩定性與效能，研究提出了一套結合監督微調 (SFT) 與強化學習 (RL) 的訓練方法：

💡 穩定性與效能的提升

這種方法旨在解決單純依賴 RL 導致的不穩定性，透過監督訊號的介入，讓模型在學習「如何選擇工具」的同時，能維持正確的輸出格式，從而提高在複雜多步驟任務中的成功率。

🎯 實務啟示

對於開發 Agent 或工具呼叫系統的工程師，這項研究提醒我們：單純的 RL 探索在處理多步驟邏輯時風險較高。在訓練流程中加入適當的監督訊號，或採取 SFT 與 RL 交替的訓練路徑，能有效降低模型崩潰的風險並提高格式穩定性。

🔗 來源

標題：Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It
連結：https://huggingface.co/papers/2606.26027

#LLM #ReinforcementLearning #ToolUse #SFT #Agent #MachineLearning #AIStability #MultiStepReasoning #SupervisorySignals #HuggingFace

同來源相關文章