HuggingFace Daily Papers ★ 100 2 min

OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks

🔗 https://huggingface.co/papers/2606.29537

📌 OSWorld 2.0:挑戰 Computer Use Agent 的長路徑現實世界任務基準

TL;DR:OSWorld 2.0 提供一套評估電腦使用 Agent 在複雜、長路徑真實工作流中推理與執行能力的基準測試。

當 LLM 演進到能操作電腦(Computer Use)的階段,單純的短指令執行已不足以衡量其能力。真正的挑戰在於:Agent 能否在真實的作業系統中,完成需要多個步驟且跨應用程式的長路徑任務?

🤔 揭露 Agent 在現實工作流中的推理瓶頸

OSWorld 2.0 旨在透過複雜且真實的世界工作流(Real-world workflows),全面評估 Computer Use Agent 的表現。這類基準測試的核心在於測試 Agent 在面對長路徑(Long-horizon)任務時,是否能維持正確的推理邏輯並最終完成目標,而非僅僅是執行單一動作。

🧩 以真實工作流衡量 Agent 的完成率

該基準測試將重點放在「現實世界」的複雜度上,透過模擬實際的電腦操作場景,揭示目前 Agent 在處理長路徑任務時的侷限性,特別是在推理能力與任務完成率(Task completion)方面的不足。

🎯 實務啟示

對於開發 Agent 的工程師而言,OSWorld 2.0 的推出提醒我們:衡量 Agent 的標準應從「單步指令成功率」轉向「端到端工作流的成功率」。在設計 Agent 時,應更關注其在長路徑任務中的狀態追蹤與錯誤恢復能力。

🔗 來源

#AI #Agent #ComputerUse #Benchmark #LLM #OSWorld #LongHorizon #Reasoning #Automation #MachineLearning

google/gemma-4-31b-it:free 自動生成