HuggingFace Daily Papers ★ 95 3 min

Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

🔗 https://huggingface.co/papers/2605.28424

Skill0.5 Router

你以為 RL 代理只需要學會一套技能就能應付所有情境?
現實卻是,環境變化時,固定技能常常失效。
Skill0.5 提出一個動態、依難度調整的路由器,讓代理同時內化通用技能與任務專長。

為何 OOD 泛化是 Agentic RL 的瓶頸
在真實世界中,代理常遇到訓練時未見過的場景。若只依賴已學會的固定技能,面對分布外 (OOD) 情境時會導致決策失效,因而需要機制讓代理能在新情境下重新組合或調整已有知識。

動態難度感知路由器的設計
論文提出的核心是一個「難度感知路由器」。該路由器會根據當前任務的估計難度,即時決定要多大程度地引用已內化的通用技能,或啟用任務專長的技能。這種動態調整使得代理在簡單任務時可更依賴通用技能,而在複雜或陌生任務時則增加專長技能的使用比重。

Skill0.5 如何結合技能內化與利用
框架分為兩個階段:首先通過自我監督的學習過程將多樣化的行為模式內化為可重用的技能庫;其次,在執行階段由難度感知路由器根據即時難度信號,選擇並組合適當的技能來執行具體任務。這樣的設計讓技能的「內化」與「利用」不是兩個孤立的步驟,而是彼此影響、共同演進的過程。

實驗顯示在複雜任務中提升穩健性
作者在數個具挑戰性的強化學習基準環境中進行評估。結果顯示,採用 Skill0.5 的代理在面對環境變化或任務難度波動時,相較於僅靜態技能庫或固定路由的基線方法,展現出更穩定的獎勵收斂與更低的失效率。具體提升幅度依賴於環境的複雜度與難度估計的準確度。

研究限制:僅在特定基準上驗證,泛化邊界尚未探索
目前的實驗主要集中在幾個模擬環境中,尚未在更廣泛的真機或跨域任務上進行驗證。此外,難度估計的準確度直接影響路由器的決策,若估計偏差較大,可能導致技能選擇不當。這些因素均是未來工作需要進一步探討的方向。

對實務的啟示:設計路由器時需考慮任務難度信號
對於希望構建更具泛化能力的 Agentic 系統的工程師而言,這項研究提示:單靜態的技能庫或固定的技能選擇策略可能不足以應對多變的實際場景。引入能夠即時反映任務難度的感測器或估計模組,並以此動態調整技能的使用比重,是提升 OOD 表現的一條可行路徑。

論文連結
📝 Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning
🔗 https://huggingface.co/papers/2605.28424

你認為在實際專案中,動態難度感知的路由器是否值得嘗試?歡迎在留言區分享你的看法與經驗!

#AI #ReinforcementLearning #AgenticRL #SkillDiscovery #OODGeneralization #HuggingFacePapers #RLResearch

tencent/hy3-preview:free 自動生成