2026-06-30 · OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks

📌 OSWorld 2.0：挑戰 Computer Use Agent 的長路徑現實世界任務基準

TL;DR：OSWorld 2.0 提供一套評估電腦使用 Agent 在複雜、長路徑真實工作流中推理與執行能力的基準測試。

當 LLM 演進到能操作電腦（Computer Use）的階段，單純的短指令執行已不足以衡量其能力。真正的挑戰在於：Agent 能否在真實的作業系統中，完成需要多個步驟且跨應用程式的長路徑任務？

🤔 揭露 Agent 在現實工作流中的推理瓶頸

OSWorld 2.0 旨在透過複雜且真實的世界工作流（Real-world workflows），全面評估 Computer Use Agent 的表現。這類基準測試的核心在於測試 Agent 在面對長路徑（Long-horizon）任務時，是否能維持正確的推理邏輯並最終完成目標，而非僅僅是執行單一動作。

🧩 以真實工作流衡量 Agent 的完成率

該基準測試將重點放在「現實世界」的複雜度上，透過模擬實際的電腦操作場景，揭示目前 Agent 在處理長路徑任務時的侷限性，特別是在推理能力與任務完成率（Task completion）方面的不足。

🎯 實務啟示

對於開發 Agent 的工程師而言，OSWorld 2.0 的推出提醒我們：衡量 Agent 的標準應從「單步指令成功率」轉向「端到端工作流的成功率」。在設計 Agent 時，應更關注其在長路徑任務中的狀態追蹤與錯誤恢復能力。

🔗 來源

標題：OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks
連結：https://huggingface.co/papers/2606.29537

#AI #Agent #ComputerUse #Benchmark #LLM #OSWorld #LongHorizon #Reasoning #Automation #MachineLearning

同來源相關文章