Agent 不會自己探索怎麼辦?SynPlanResearch-R1 用合成計劃幫它開路

📄 SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

你有沒有遇過這種情況:讓 Research Agent 去查一個需要多步驟推理的問題,結果它搜了一次 Google 就直接給你答案了?明明應該要交叉比對多個來源、追問細節、驗證矛盾的資訊,但 Agent 就是懶得探索。UMass Amherst、Amazon、蒙特婁大學、UIUC 等團隊的這篇論文,直接戳破了一個很多人不想面對的事實 — 單靠 reinforcement learning 是教不會 Agent 好好探索的。

🔍 RLVR 為什麼教不會 Agent 探索

先講背景。Research Agent 的核心能力是「動態交錯推理與工具使用」— 想一步、查一步、再想、再查。理論上,用 RLVR(reinforcement learning with verifiable rewards)應該能讓 Agent 學會這種行為:答對了給獎勵,答錯了扣分,慢慢就學會怎麼查資料了吧?

現實沒這麼美好。論文觀察到兩個致命問題:

  • 過早終止 — Agent 傾向於用最少的步驟結束任務。搜了一次就覺得夠了,不想再查。這很合理,因為每多一步都有「做錯」的風險,而提早結束至少不會被扣太多分。
  • 工具使用偏差 — Agent 會過度依賴某一兩個工具,忽略其他可能更適合的選項。就像一個只會用 Google Search 的研究員,從來不去查學術資料庫或政府統計網站。

這兩個問題的根源是一樣的:RL 的探索空間太大,Agent 在冷啟動階段根本不知道「好的探索」長什麼樣子,所以它學到的策略就是「少做少錯」。

🛠️ 合成計劃:給 Agent 一張探索地圖

SynPlanResearch-R1 的核心想法其實很直覺 — 既然 Agent 不知道怎麼探索,那我們就先「示範」給它看。

具體做法分兩步:

第一步,合成工具使用軌跡。他們不是隨便生成的,而是刻意設計出「鼓勵深度探索」的軌跡。這些軌跡會展示:什麼時候該用搜尋、什麼時候該換工具、什麼時候該回頭追問。這些合成數據的品質取決於計劃的多樣性 — 你得讓 Agent 看到各種不同的探索路徑,而不是只有一種「標準答案」。

第二步,用這些軌跡做 supervised fine-tuning(SFT)作為冷啟動,然後再接 RL。這個順序很關鍵:SFT 先給 Agent 一個「還不錯」的初始策略,讓它知道探索大概長什麼樣子,然後 RL 再去微調和優化。

聽起來像是 SFT + RL 的老套路?差別在於 SFT 的數據不是人工標註的,而是自動合成的,而且合成的目標不是「答對問題」而是「探索得夠深」。這個設計選擇我覺得很聰明。

實驗結果:在 7 個 multi-hop 和 open-web benchmark 上,Qwen3-8B 提升最高 6.0%Qwen3-4B 提升最高 5.8%

6% 聽起來不多?在這類 benchmark 上,大部分方法的提升都在 1-3% 之間,6% 已經算是明顯的進步了。

💡 這篇論文讓我想到的幾件事

第一,「探索」可能是 Agent 能力裡最被低估的維度。我們花了大量精力在提升推理能力、工具呼叫準確率,但很少有人在研究「Agent 願不願意、會不會多查幾步」。SynPlanResearch-R1 把這個問題拉到檯面上,我覺得方向是對的。

第二,合成數據的品質是這個方法的生死關卡。如果合成的探索軌跡本身就很淺或很偏,那 SFT 出來的 Agent 也不會好到哪裡去。論文有做 ablation study 來分析不同合成策略的影響,但在更複雜的真實場景裡(比如需要查 10 個以上來源的問題),合成的軌跡是否還能保持品質?我不太確定。

第三,這個框架對小模型特別有意義。Qwen3-4B8B 都是可以在本地跑的規模,如果能靠合成計劃 + RL 讓小模型具備不錯的探索能力,那對資源有限的團隊來說是個好消息。

不過我也想潑一點冷水。multi-hop QA benchmark 的探索複雜度跟真實的 deep research 還是有差距的。真實場景裡,你可能需要探索的不只是「查哪些關鍵字」,還有「去哪個網站查」「怎麼處理付費牆」「怎麼判斷來源可信度」。從 benchmark 到生產環境,中間的路還很長。

最後一個有趣的觀察:這篇論文的 code 已經開源了。如果你正在做 Research Agent 相關的工作,建議去看看他們的合成軌跡長什麼樣子 — 那可能比論文本身更有啟發性。

你有沒有遇過這種情況:讓 Research Agent 去查一個需要多步驟推理的問題,結果它搜了一次 Google 就直接給你答案了?明明應該要交叉比對多個來源、追問細節、驗證矛盾的資訊,但 Agent 就是懶得探索。UMass Amherst、Amazon、蒙特婁大學、UIUC 等團隊的這篇論文,直接戳破了一個很多人不想面對的事實 — 單靠 reinforcement learning 是教不會 Agent 好好探索的。

🔍 RLVR 為什麼教不會 Agent 探索

先講背景。Research Agent 的核心能力是「動態交錯推理與工具使用」— 想一步、查一步、再想、再查。理論上,用 RLVR(reinforcement learning with verifiable rewards)應該能讓 Agent 學會這種行為:答對了給獎勵,答錯了扣分,慢慢就學會怎麼查資料了吧?

現實沒這麼美好。論文觀察到兩個致命問題:

過早終止 — Agent 傾向於用最少的步驟結束任務。搜了一次就覺得夠了,不想再查。這很合理,因為每多一步都有「做錯」的風險,而提早結束至少不會被扣太多分。

工具使用偏差 — Agent 會過度依賴某一兩個工具,忽略其他可能更適合的選項。就像一個只會用 Google Search 的研究員,從來不去查學術資料庫或政府統計網站。

這兩個問題的根源是一樣的:RL 的探索空間太大,Agent 在冷啟動階段根本不知道「好的探索」長什麼樣子,所以它學到的策略就是「少做少錯」。

🛠️ 合成計劃:給 Agent 一張探索地圖

SynPlanResearch-R1 的核心想法其實很直覺 — 既然 Agent 不知道怎麼探索,那我們就先「示範」給它看。

具體做法分兩步:

第一步,合成工具使用軌跡。他們不是隨便生成的,而是刻意設計出「鼓勵深度探索」的軌跡。這些軌跡會展示:什麼時候該用搜尋、什麼時候該換工具、什麼時候該回頭追問。這些合成數據的品質取決於計劃的多樣性 — 你得讓 Agent 看到各種不同的探索路徑,而不是只有一種「標準答案」。

第二步,用這些軌跡做 supervised fine-tuning(SFT)作為冷啟動,然後再接 RL。這個順序很關鍵:SFT 先給 Agent 一個「還不錯」的初始策略,讓它知道探索大概長什麼樣子,然後 RL 再去微調和優化。

聽起來像是 SFT + RL 的老套路?差別在於 SFT 的數據不是人工標註的,而是自動合成的,而且合成的目標不是「答對問題」而是「探索得夠深」。這個設計選擇我覺得很聰明。

實驗結果:在 7 個 multi-hop 和 open-web benchmark 上,Qwen3-8B 提升最高 6.0%,Qwen3-4B 提升最高 5.8%。

6% 聽起來不多?在這類 benchmark 上,大部分方法的提升都在 1-3% 之間,6% 已經算是明顯的進步了。

💡 這篇論文讓我想到的幾件事

第一,「探索」可能是 Agent 能力裡最被低估的維度。我們花了大量精力在提升推理能力、工具呼叫準確率,但很少有人在研究「Agent 願不願意、會不會多查幾步」。SynPlanResearch-R1 把這個問題拉到檯面上,我覺得方向是對的。

第二,合成數據的品質是這個方法的生死關卡。如果合成的探索軌跡本身就很淺或很偏,那 SFT 出來的 Agent 也不會好到哪裡去。論文有做 ablation study 來分析不同合成策略的影響,但在更複雜的真實場景裡(比如需要查 10 個以上來源的問題),合成的軌跡是否還能保持品質?我不太確定。

第三,這個框架對小模型特別有意義。Qwen3-4B 和 8B 都是可以在本地跑的規模,如果能靠合成計劃 + RL 讓小模型具備不錯的探索能力,那對資源有限的團隊來說是個好消息。

不過我也想潑一點冷水。multi-hop QA benchmark 的探索複雜度跟真實的 deep research 還是有差距的。真實場景裡,你可能需要探索的不只是「查哪些關鍵字」,還有「去哪個網站查」「怎麼處理付費牆」「怎麼判斷來源可信度」。從 benchmark 到生產環境,中間的路還很長。

最後一個有趣的觀察:這篇論文的 code 已經開源了(github.com/HansiZeng/syn-plan-research)。如果你正在做 Research Agent 相關的工作,建議去看看他們的合成軌跡長什麼樣子 — 那可能比論文本身更有啟發性。

📄 論文出處:https://arxiv.org/abs/2603.07853 🔗 程式碼:https://github.com/HansiZeng/syn-plan-research

#GenAI #DeepResearch #Agent #ReinforcementLearning #LLM #ToolUse #RLVR