2026-05-28 · ResearchMath-14K: Scaling Research-Level Mathematics via Agents

📌 ResearchMath-14K：用 Agent 生成的推理軌跡提升數學推理能力

你以為只靠公開的數學題目就能訓練出解決開放問題的 AI？研究顯示，過濾後的 Agent 推理軌跡才是關鍵。

🤔 研究級數學問題需要更高品質的監督訊號
現有的數學資料多來自教科書或競賽題，難以覆蓋前沿研究中的開放式問題。若語言模型只看到已有答案的題目，學習到的推理模式可能無法泛化到真正的研究挑戰。因此，我們需要一種能提供「思考過程」而非僅最終答案的監督資料。

🧪 14K 過濾後的研究級問題與 Agent 推理軌跡
研究團隊先從公開的數學論文與開放問題中擷取約 14K 個題目，再讓多個語言模型代理（Agent）嘗試解答並產生完整的推理軌跡。經過自動過濾（保留正確且完整的推理路徑），得到 ResearchMath-14K 資料集與對應的 ResearchMath-Reasoning 軌跡，這些軌跡被用作語言模型的監督訓練訊號。

📈 使用此資料集訓練後，模型在數學推理基準上表現提升
實驗顯示，在 ResearchMath-14K 上進行微調的語言模型，在多個標準數學推理測試（如 GSM8K、MATH 等）上的準確率均有顯著提升。這證明了過濾後的 Agent 推理軌跡能提供有效的監督訊號，幫助模型學會更符合研究級問題的推理步驟。

💡 關鍵在於「過濾」與「完整推理」而非僅答案
團隊進一步分析發現，單純使用問題與答案配對的資料集，模型易學到表面的套用技巧；而保留完整推理步驟的軌跡則迫使模型學會中間的演繹、假設與回溯。過濾程式去除錯誤或不完整的軌跡，使監督訊號更乾淨，進而提升模型的推理穩健性。

⚠️ 資料規模仍屬中等，過濾門檻可能影響多樣性
資料集規模為 14K，相較於大規模網頁爬取的數據仍屬有限；過濾過程雖提高了品質，但也可能排除某些具有學習價值但推理過程較為雜亂的範例，長期來看需平衡品質與多樣性。

🎯 實務建議：優先納入過濾後的推理軌跡進行數學模型微調

若目標是提升模型對開放式或研究級數學問題的處理能力，可將類似的 Agent 生成推理軌跡納入訓練管線。
在建構自身資料時，設計自動或半自動的過濾機制（例如基於執行成功率、步驟完整度或外部驗證器）以確保監督訊號的品質。
可將此資料作為基準，與僅使用問題-答案對的訓練方式做對照，量測推理軌跡帶來的實際收益。

🔗 論文連結
📝 ResearchMath-14K: Scaling Research-Level Mathematics via Agents
🔗 https://huggingface.co/papers/2605.28003
（作者資訊未在摘要中提供，請參考原文詳細作者列表）

你是否曾嘗試讓模型「看過程」而非只看答案？歡迎在留言區分享你的經驗與想法 👇

#AI #MathReasoning #LLM #ResearchMath #HuggingFace #AgenticAI #機器學習 #數學AI #OpenProblems

同來源相關文章