ChatPaper/AI Fujitsu Limited; The University of Tokyo; RIKEN center for AIP ★ 104 4 min

EVE-Agent: Evidence-Verifiable Self-Evolving Agents

cs.CLcs.AI

🔗 https://arxiv.org/abs/2605.22905

📌 【Fujitsu/東大/RIKEN】EVE-Agent:讓自我演化代理有「證據」可驗證

你有沒有想過,讓 AI 自己提出問題、回答問題、再從自己的回饋中學習,這樣的閉環到底能不可靠?當沒有外部標註時,模型很容易產出流暢但缺乏根據的答案,訓練訊號就變得不透明、不可信。

🤔 資料自由的自我演化需要可驗證的證據
摘要指出,現有的資料自由自我演化搜尋代理(data‑free self‑evolving search agents)可以自行產生問答對並從自身回饋中改進,但若缺乏可驗證的證據,這個迴路可能只會獎勵「流暢但無根據」的範例,導致訓練訊號不透明且可能不可靠。因此,論文主張證據的可驗證性(evidence verifiability)是可信自我演化的先決條件:每個產生的範例必須包含一段可追溯至來源的文字,且該段落對答案的貢獻能被量測。

🧪 在 proposer‑solver 框架中加入證據驗證器
EVE-Agent 並未更換基礎模型、檢索器、搜尋工具或優化框架,而是在原來的 proposer‑solver 架構上做了最小修改:

  • Proposer 產生一個問題、一個答案,以及一段 逐字的證據片段(verbatim evidence span)。
  • Evidence verifier 根據該證據片段提供時,模型在正確率上的 邊際提升(marginal accuracy gain)來給予獎勵。
    這樣的機制讓訓練訊號偏向於真正有助於回答問題的證據,而不需要任何 oracle 標答、人工標註或外部標註。

💡 實驗顯示證據依底的正確性顯著提升
論文的實驗結果表明,EVE-Agent 在「證據依底的正確性」(evidence‑grounded correctness)上明顯優於先前的自我演化搜尋代理。因為每個訓練範例都帶有一段可檢查的來源文字,整個自我產生的課程(curriculum)因此具備 可 auditability(可稽核性):審閱者可以直接檢視證據片段來判斷該範例為何值得被信任。

🔍 為什麼證據的邊際貢獻是關鍵
深入分析可見,僅獎勵「答案正確」而不管證據是否真的有用,會鼓勵模型學會製造流暢但虛假的解釋。EVE-Agent 的設計讓獎勵與證據的實際貢獻掛鉤:只有當證據片段真的提升了模型答對問題的機率時,才會得到正向回饋。這樣的機制自然抑制了無根據的流暢輸出,使自我演化過程更具可信度。

⚠️ 作者未在摘要中詳細說明限制,建議參考全文
摘要中未提及具體的實驗規模、資料集或潛在的失效情況(例如檢索器品質對證據片段的影響)。為了解完整的限制情境,建議閱讀論文全文以取得更細膩的評估。

🎯 工程上的啟示:在無標註情境下提升可信度

  • 若你正在構建自我演化或自適應的 AI 代理,可考慮在 proposer‑solver 流程中加入類似的「證據驗證」步驟。
  • 這種做法不需要額外的人工標註或 oracle 標答,僅需現有的檢索與語言模型即可實踐。
  • 透過可檢驗的證據片段,你的系統不僅能自我改進,也能提供讓使用者或審計者追溯的依據,提升系統的透明度與可信度。

🔗 論文連結
📝 EVE-Agent: Evidence-Verifiable Self-Evolving Agents
👤 Yamato Arai, Yuma Ichikawa (Fujitsu Limited; The University of Tokyo; RIKEN center for AIP)
🔗 https://arxiv.org/abs/2605.22905

你是否曾在開發自我演化代理時遇過「答案看起來對,但找不到依據」的困擾?歡迎在留言區分享你的經驗或對證據驗證機制的看法 👇

#EVEAgent #SelfEvolvingAgents #EvidenceVerification #AIAgents #Fujitsu #TokyoUniversity #RIKEN #MachineLearning #可信AI #研究解讀

tencent/hy3-preview:free 自動生成