2026-05-29 · PhoneWorld: Scaling Phone-Use Agent Environments

📌 PhoneWorld：將真實手機操作轉換為可擴展的 Agent 評估環境

你有沒有想過，當我們測試一個能夠在手機上操作的 AI Agent 時，該怎麼快速建立大量真實可驗證的任務？現有的基準往往依賴手動編寫腳本，難以隨著模型能力的提升而同步擴展。

🤔 手機 Agent 評估缺乏可擴展、自動驗證的基準
隨著語言模型與多模態代理在手機介面上的應用日益增多（例如自動填表、APP 導航、資訊檢索），研究界亟需一種能夠大量產生、且具備自動判斷成功與否的評估環境。現有做法多半依賴人工設計任務與驗證規則，這不僅耗時，也難以保證任務的多樣性與可重複性。

🧪 從真實 GUI 軌跡與截圖 pipeline 建立可控環境
PhoneWorld 提供一個完整的 pipeline：

收集真實的手機 GUI 操作軌跡（點擊、滑動、輸入）與對應的螢幕截圖。
從這些軌跡中自動抽取可執行的任務描述（例如「在設定裡開啟飛行模式」）。
根據截圖與軌跡重建一個可互動的手機環境，讓 Agent 能在其中執行相同的操作序列。
同時生成自動驗證器（verifier），根據最終畫面或狀態判斷任務是否成功完成。

這個流程把真實世界的使用紀錄轉換成可以程式化重複使用的評估單元，且每一步都有明確的輸入與輸出，便於後續自動化擴展。

📊 Pipeline 能自動產生任務與驗證器，降低人工成本
雖然論文未公開具體的任務數量或成功率數據，但作者強調，透過 PhoneWorld，研究者可以：

從現有的 App 使用紀錄（公開的螢幕錄製或使用日誌）直接產出大量可執行的基準任務。
免除手動編寫驗證腳本的步驟，因為驗證器是從同一套截圖與軌跡中自動推導出來的。
保持任務與真實使用行為的一致性，使得評估結果更具說服力。

換句話說，PhoneWorld 的核心貢獻在於提供了一種「從真實數據出發、自動產出可評估任務」的方法，這在之前的 GUI-Agent 基準裡較為少見。

💡 自動化任務產生與驗證是擴展評估的關鍵
傳統做法中，任務的創建與驗證往往是兩個獨立且耗費人力的環節。PhoneWorld 透過將這兩個步驟緊密耦合——同一套 GUI 軌跡同時決定「要做什麼」與「如何判斷成功」——顯著降低了建立新基準的門檻。這意味著，隨著更多真實使用紀錄的公開（例如開源的 App 使用日誌或使用者同意的遙測資料），研究者可以快速擴展測試集合，而不需要為每個新任務重新設計驗證邏輯。

⚠️ 論文未報告大規模實驗結果，僅提出方法框架
目前可見的資訊僅描述了 pipeline 的設計與概念驗證，並未提供大規模基準的統計數據（例如產出了多少任務、在哪些 Agent 上的表現差異等）。因此，讀者在評估其实際擴展效益時，仍需參考後續社群的實作與回饋。

🎯 研究者可利用 PhoneWorld 快速建立手機 Agent 基準

若你正在開發或評估能在手機介面上操作的模型，可嘗試將現有的 App 使用紀錄透過 PhoneWorld 轉換為可直接測試的任務集。
透過自動產生的驗證器，減少人工檢查成功與否的工作量，專注於模型性能的分析。
此方法也適合用於產生多樣化的邊界案例（edge case），因為它直接繼承了真實使用紀錄中的變異性。

🔗 論文連結
📝 PhoneWorld: Scaling Phone-Use Agent Environments
🔗 https://huggingface.co/papers/2605.29486

你有沒有嘗試過把真實的 App 使用紀錄轉換成測試任務？歡迎在留言區分享你的經驗或想法 👇

#AI #MobileAgents #GUIAgent #PhoneWorld #HuggingFace #基準評估 #Agent評估 #自動驗證 #軟體測試 #研究方法

同來源相關文章