ResearchMath-14K: Scaling Research-Level Mathematics via Agents
https://huggingface.co/papers/2605.28003📌 ResearchMath-14K:用 Agent 生成的推理軌跡提升數學推理能力
你以為只靠公開的數學題目就能訓練出解決開放問題的 AI?研究顯示,過濾後的 Agent 推理軌跡才是關鍵。
🤔 研究級數學問題需要更高品質的監督訊號
現有的數學資料多來自教科書或競賽題,難以覆蓋前沿研究中的開放式問題。若語言模型只看到已有答案的題目,學習到的推理模式可能無法泛化到真正的研究挑戰。因此,我們需要一種能提供「思考過程」而非僅最終答案的監督資料。
🧪 14K 過濾後的研究級問題與 Agent 推理軌跡
研究團隊先從公開的數學論文與開放問題中擷取約 14K 個題目,再讓多個語言模型代理(Agent)嘗試解答並產生完整的推理軌跡。經過自動過濾(保留正確且完整的推理路徑),得到 ResearchMath-14K 資料集與對應的 ResearchMath-Reasoning 軌跡,這些軌跡被用作語言模型的監督訓練訊號。
📈 使用此資料集訓練後,模型在數學推理基準上表現提升
實驗顯示,在 ResearchMath-14K 上進行微調的語言模型,在多個標準數學推理測試(如 GSM8K、MATH 等)上的準確率均有顯著提升。這證明了過濾後的 Agent 推理軌跡能提供有效的監督訊號,幫助模型學會更符合研究級問題的推理步驟。
💡 關鍵在於「過濾」與「完整推理」而非僅答案
團隊進一步分析發現,單純使用問題與答案配對的資料集,模型易學到表面的套用技巧;而保留完整推理步驟的軌跡則迫使模型學會中間的演繹、假設與回溯。過濾程式去除錯誤或不完整的軌跡,使監督訊號更乾淨,進而提升模型的推理穩健性。
⚠️ 資料規模仍屬中等,過濾門檻可能影響多樣性
資料集規模為 14K,相較於大規模網頁爬取的數據仍屬有限;過濾過程雖提高了品質,但也可能排除某些具有學習價值但推理過程較為雜亂的範例,長期來看需平衡品質與多樣性。
🎯 實務建議:優先納入過濾後的推理軌跡進行數學模型微調
- 若目標是提升模型對開放式或研究級數學問題的處理能力,可將類似的 Agent 生成推理軌跡納入訓練管線。
- 在建構自身資料時,設計自動或半自動的過濾機制(例如基於執行成功率、步驟完整度或外部驗證器)以確保監督訊號的品質。
- 可將此資料作為基準,與僅使用問題-答案對的訓練方式做對照,量測推理軌跡帶來的實際收益。
🔗 論文連結
📝 ResearchMath-14K: Scaling Research-Level Mathematics via Agents
🔗 https://huggingface.co/papers/2605.28003
(作者資訊未在摘要中提供,請參考原文詳細作者列表)
你是否曾嘗試讓模型「看過程」而非只看答案?歡迎在留言區分享你的經驗與想法 👇
#AI #MathReasoning #LLM #ResearchMath #HuggingFace #AgenticAI #機器學習 #數學AI #OpenProblems
由 tencent/hy3-preview:free 自動生成