2026-03-10 · Agent 不會自己探索怎麼辦？SynPlanResearch-R1 用合成計劃幫它開路

你有沒有遇過這種情況：讓 Research Agent 去查一個需要多步驟推理的問題，結果它搜了一次 Google 就直接給你答案了？明明應該要交叉比對多個來源、追問細節、驗證矛盾的資訊，但 Agent 就是懶得探索。UMass Amherst、Amazon、蒙特婁大學、UIUC 等團隊的這篇論文，直接戳破了一個很多人不想面對的事實 — 單靠 reinforcement learning 是教不會 Agent 好好探索的。

🔍 RLVR 為什麼教不會 Agent 探索

先講背景。Research Agent 的核心能力是「動態交錯推理與工具使用」— 想一步、查一步、再想、再查。理論上，用 RLVR（reinforcement learning with verifiable rewards）應該能讓 Agent 學會這種行為：答對了給獎勵，答錯了扣分，慢慢就學會怎麼查資料了吧？

現實沒這麼美好。論文觀察到兩個致命問題：

過早終止 — Agent 傾向於用最少的步驟結束任務。搜了一次就覺得夠了，不想再查。這很合理，因為每多一步都有「做錯」的風險，而提早結束至少不會被扣太多分。
工具使用偏差 — Agent 會過度依賴某一兩個工具，忽略其他可能更適合的選項。就像一個只會用 Google Search 的研究員，從來不去查學術資料庫或政府統計網站。

這兩個問題的根源是一樣的：RL 的探索空間太大，Agent 在冷啟動階段根本不知道「好的探索」長什麼樣子，所以它學到的策略就是「少做少錯」。

🛠️ 合成計劃：給 Agent 一張探索地圖

SynPlanResearch-R1 的核心想法其實很直覺 — 既然 Agent 不知道怎麼探索，那我們就先「示範」給它看。

具體做法分兩步：

第一步，合成工具使用軌跡。他們不是隨便生成的，而是刻意設計出「鼓勵深度探索」的軌跡。這些軌跡會展示：什麼時候該用搜尋、什麼時候該換工具、什麼時候該回頭追問。這些合成數據的品質取決於計劃的多樣性 — 你得讓 Agent 看到各種不同的探索路徑，而不是只有一種「標準答案」。

第二步，用這些軌跡做 supervised fine-tuning（SFT）作為冷啟動，然後再接 RL。這個順序很關鍵：SFT 先給 Agent 一個「還不錯」的初始策略，讓它知道探索大概長什麼樣子，然後 RL 再去微調和優化。

聽起來像是 SFT + RL 的老套路？差別在於 SFT 的數據不是人工標註的，而是自動合成的，而且合成的目標不是「答對問題」而是「探索得夠深」。這個設計選擇我覺得很聰明。

實驗結果：在 7 個 multi-hop 和 open-web benchmark 上，Qwen3-8B 提升最高 6.0%，Qwen3-4B 提升最高 5.8%。

6% 聽起來不多？在這類 benchmark 上，大部分方法的提升都在 1-3% 之間，6% 已經算是明顯的進步了。

💡 這篇論文讓我想到的幾件事

第一，「探索」可能是 Agent 能力裡最被低估的維度。我們花了大量精力在提升推理能力、工具呼叫準確率，但很少有人在研究「Agent 願不願意、會不會多查幾步」。SynPlanResearch-R1 把這個問題拉到檯面上，我覺得方向是對的。

第二，合成數據的品質是這個方法的生死關卡。如果合成的探索軌跡本身就很淺或很偏，那 SFT 出來的 Agent 也不會好到哪裡去。論文有做 ablation study 來分析不同合成策略的影響，但在更複雜的真實場景裡（比如需要查 10 個以上來源的問題），合成的軌跡是否還能保持品質？我不太確定。

第三，這個框架對小模型特別有意義。Qwen3-4B 和 8B 都是可以在本地跑的規模，如果能靠合成計劃 + RL 讓小模型具備不錯的探索能力，那對資源有限的團隊來說是個好消息。

不過我也想潑一點冷水。multi-hop QA benchmark 的探索複雜度跟真實的 deep research 還是有差距的。真實場景裡，你可能需要探索的不只是「查哪些關鍵字」，還有「去哪個網站查」「怎麼處理付費牆」「怎麼判斷來源可信度」。從 benchmark 到生產環境，中間的路還很長。

最後一個有趣的觀察：這篇論文的 code 已經開源了。如果你正在做 Research Agent 相關的工作，建議去看看他們的合成軌跡長什麼樣子 — 那可能比論文本身更有啟發性。

📄 論文出處
🔗 程式碼

🔍 RLVR 為什麼教不會 Agent 探索

先講背景。Research Agent 的核心能力是「動態交錯推理與工具使用」— 想一步、查一步、再想、再查。理論上，用 RLVR（reinforcement learning with verifiable rewards）應該能讓 Agent 學會這種行為：答對了給獎勵，答錯了扣分，慢慢就學會怎麼查資料了吧？

現實沒這麼美好。論文觀察到兩個致命問題：

過早終止 — Agent 傾向於用最少的步驟結束任務。搜了一次就覺得夠了，不想再查。這很合理，因為每多一步都有「做錯」的風險，而提早結束至少不會被扣太多分。

工具使用偏差 — Agent 會過度依賴某一兩個工具，忽略其他可能更適合的選項。就像一個只會用 Google Search 的研究員，從來不去查學術資料庫或政府統計網站。

這兩個問題的根源是一樣的：RL 的探索空間太大，Agent 在冷啟動階段根本不知道「好的探索」長什麼樣子，所以它學到的策略就是「少做少錯」。

🛠️ 合成計劃：給 Agent 一張探索地圖

SynPlanResearch-R1 的核心想法其實很直覺 — 既然 Agent 不知道怎麼探索，那我們就先「示範」給它看。

具體做法分兩步：

第二步，用這些軌跡做 supervised fine-tuning（SFT）作為冷啟動，然後再接 RL。這個順序很關鍵：SFT 先給 Agent 一個「還不錯」的初始策略，讓它知道探索大概長什麼樣子，然後 RL 再去微調和優化。

實驗結果：在 7 個 multi-hop 和 open-web benchmark 上，Qwen3-8B 提升最高 6.0%，Qwen3-4B 提升最高 5.8%。

6% 聽起來不多？在這類 benchmark 上，大部分方法的提升都在 1-3% 之間，6% 已經算是明顯的進步了。

💡 這篇論文讓我想到的幾件事

第一，「探索」可能是 Agent 能力裡最被低估的維度。我們花了大量精力在提升推理能力、工具呼叫準確率，但很少有人在研究「Agent 願不願意、會不會多查幾步」。SynPlanResearch-R1 把這個問題拉到檯面上，我覺得方向是對的。

第三，這個框架對小模型特別有意義。Qwen3-4B 和 8B 都是可以在本地跑的規模，如果能靠合成計劃 + RL 讓小模型具備不錯的探索能力，那對資源有限的團隊來說是個好消息。

最後一個有趣的觀察：這篇論文的 code 已經開源了（github.com/HansiZeng/syn-plan-research）。如果你正在做 Research Agent 相關的工作，建議去看看他們的合成軌跡長什麼樣子 — 那可能比論文本身更有啟發性。

📄 論文出處：https://arxiv.org/abs/2603.07853 🔗 程式碼：https://github.com/HansiZeng/syn-plan-research

#GenAI #DeepResearch #Agent #ReinforcementLearning #LLM #ToolUse #RLVR