2026-06-16 · DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents

📌 【DeepRubric】用「逆向構建」評價標準，將研究型 AI 的 RL 訓練效率提升 13 倍

開發 Deep Research Agent 最頭痛的不是讓它會搜尋，而是「如何定義一份高品質的報告」？目前的強化學習 (RL) 依賴 Rubric（評分量表）來提供獎勵訊號，但如果 Rubric 本身定義不完整，模型就永遠找不到正確的優化方向。

🤔 當 AI 定義的評分標準，反而成了學習的瓶頸

傳統做法通常是：給 AI 一個查詢 (Query) $\rightarrow$ 請 AI 生成評分標準 (Rubric) $\rightarrow$ 用此 Rubric 訓練模型。

但問題在於，如果 LLM 在第一步就沒能精準推論出該任務真正的「資訊需求」，生成的 Rubric 就會缺失關鍵維度。這導致 RL 過程中，模型即使寫出了正確的內容，卻可能因為 Rubric 沒定義而拿不到獎勵，極大地降低了訓練效率。

🧪 從「證據樹」出發的逆向構建框架

為了打破這個循環，DeepRubric 提出了一套反向思維的數據構建流程：不再是從 Query 推導 Rubric，而是先決定「一份有證據支持的報告應該被評價什麼」，再反向合成對應的 Query。

其核心流程如下：

種子主題採樣：從一個種子主題開始。
構建證據樹 (Evidence Tree)：遞迴地擴展基於證據的子問題。
定義原子目標：將證據樹的葉子節點 (Leaves) 定義為可驗證的「原子評價目標」。
合成對應對：利用這棵樹同步合成訓練用的 Query 與 Rubric，確保獎勵訊號與查詢需求完全對齊。

💡 精準的獎勵訊號，讓 8B 模型跑贏 SOTA

這種「先有標準，再有問題」的方法，確保了 Rubric 能精準捕捉任務範圍與證據需求。研究團隊利用此框架構建了 9K 組 Query—Rubric 監督樣本，並使用 GRPO 演算法訓練出 DeepRubric-8B 模型。

實驗結果顯示：

效能表現：在三個基準測試中，DeepRubric-8B 的表現與先前開源的最強 (SOTA) 研究模型相當。
訓練效率：最震撼的是，它僅使用了約 1/13 的 RL GPU 小時 即可達到同等水準。

⚠️ 目前研究聚焦於文本合成，多模態擴展待驗證

該研究目前主要針對長篇報告的合成與推理，雖然其框架邏輯可遷移，但對於更複雜的多模態報告生成（如結合圖表、數據視覺化）的實際效果，論文中尚未深入探討。

🎯 對 AI 工程師的實務啟示：獎勵函數的質量決定模型上限

這項研究提醒我們，在進行 RLHF 或 GRPO 訓練時，Reward Model 的品質比模型規模更重要。如果你在訓練研究型 Agent 時發現模型收斂緩慢或輸出遺漏，可以嘗試：

避免直接依賴 LLM 生成的即時 Rubric
嘗試將目標分解為「可驗證的原子目標」 (Atomic Targets)
從結果端的「證據需求」反推輸入端的「查詢設計」

這套逆向構建的邏輯，為開發高效能、低成本的研究型代理提供了一個非常實用的工程路徑。

🔗 論文連結 📝 DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents 👤 Minghang Zhu, Chuyang Wei, Junhao Xu, Yilin Cheng, Zhumin Chen 🔗 論文：http://arxiv.org/abs/2606.17029v1

你認為在 RL 訓練中，定義「正確的獎勵」最困難的地方在哪？歡迎在下方討論 👇

#AI #ReinforcementLearning #DeepResearch #GRPO #LLM #DeepRubric #機器學習 #AI工程

同來源相關文章