ChatPaper/AI Microsoft; Shanghai Jiao Tong University; Tongji University; Fudan University ★ 132 3 min

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

cs.CLcs.AI

🔗 https://arxiv.org/abs/2605.23904

📌 SkillOpt:可控的文本空間優化器,讓 Agent 技能自我進化

你以為 Agent 的技能只能靠手工調整或一次性生成?一種新方法把技能當成外部狀態來優化,卻不增加任何推論開銷。
實驗顯示,在多個基準與模型上,它竟然全場領先。

🤔 手工與一次性生成無法像深度學習優化那樣穩定提升技能
現有的 Agent 技能多半是人工撰寫、一次性 LLM 生成,或是鬆散控制的自我修訂。這些方式缺乏類似權重空間優化的紀律,難以在回饋中持續超越起點。SkillOpt 的核心主張是:將技能文件視為凍結 Agent 的外部狀態,採用優化器式的嚴格更新機制。

🧪 可控的文字空間優化器:評分驅動的增删替編輯
SkillOpt 包含一個獨立的優化模型,將已評分的 rollout 轉化為單一技能文件的有界 add/delete/replace 編輯。只有當編輯嚴格提升留出驗證分數時才會被接受。設計中還加入了文字學習率預算、被拒編輯緩衝區以及 epoch 級的慢/ meta 更新,以確保訓練穩定,且在部署時零額外模型調用。

📈 六個基準、七個目標模型、三種執行環境全場領先或持平
在 52 個 (model, benchmark, harness) 組合中,SkillOpt 均為最佳或與最佳持平,並擊敗了所有人工、一次性 LLM、Trace2Skill、TextGrad、GEPA 與 EvoSkill 的每個細胞競爭者。具體來說,在 GPT-5.5 上,直接聊天場景下平均無技能準確度提升 +23.5 點;在 Codex agentic 迴路中提升 +24.8 點;在 Claude Code 中提升 +19.1 點。遷移實驗進一步顯示,優化後的技能 artefactual 在不同模型規模、在 Codex 與 Claude Code 執行環境間,以及相近的數學基準上仍保有價值,無需再次優化。

💡 將技能視為外部狀態,使優化過程可重現且無推論開銷
與傳統的權重空間優化類似,SkillOpt 把技能文件當作可優化的外部狀態,透過嚴格的驗證門檻與學習率預算,使更新過程具備可重現性。因為所有優化發生在離線階段,部署時不會產生額外的模型推論呼叫,這對於對延遲敏感的 Agent 應用尤為重要。

⚠️ 實驗主要聚焦在特定基準與模型,長期遷移能力尚需更多證據
雖然跨模型、跨執行環境的遷移實驗顯示正向結果,但論文尚未報告更長時程或更遠任務的表現。此外,實驗範圍限於所列的六個基準與三種執行 harness,其他領域的適用性仍需後續驗證。

🎯 將技能文件納入優化流程,可獲得零開銷的效能提升
對於工程師而言,SkillOpt 提供了一種可控、基於編輯的技能改進工具:先收集任務 rollout 的分數,再讓優化模型產生受限的文本編輯,只有通過驗證的編輯才會被納入技能檔案。這意味著在不犧牲推論效率的前提下,持續提升 Agent 的任務表現。

🔗 論文連結
📝 SkillOpt: Executive Strategy for Self-Evolving Agent Skills
👤 Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou (Microsoft; Shanghai Jiao Tong University; Tongji University; Fudan University)
🔗 https://arxiv.org/abs/2605.23904

你目前是怎樣為 Agent 撰寫或更新技能的?SkillOpt 這種「外部狀態優化」的思路是否能改變你的工作流程?歡迎留言討論 👇

#AI #Agent #SkillOptimization #Microsoft #LLM #AutoML #技術成長

tencent/hy3-preview:free 自動生成