量子位 ★ 91 3 min

BrowserBC:克隆人類點選,讓一次網頁操作轉化為所有Agent的能力

资讯首页轮播Agent

🔗 https://www.qbitai.com/2026/06/439393.html

📌 【Einsia AI 開源】BrowserBC:將人類網頁操作轉寫為「技能卡」,讓小模型也能精準執行

TL;DR:透過「錄製 → 轉寫 → 執行」流程,將人類操作蒸餾為自然語言技能,讓 Agent 擺脫重複摸索。

目前的 Web Agent 並不缺乏操作能力,Claude 或 Codex 等模型都能識別按鈕並執行點選。但真正痛點在於:每面對新網站或新任務,最強且最貴的模型必須從零開始摸索流程,這不僅浪費資源,且容易陷入死迴圈、偏離意圖或在接近答案時提前收手。即便成功一次,經驗也會隨對話結束而蒸發,下次仍需重新試錯。

🤔 從「座標回放」進化到「能力遷移」

傳統的自動化工具(如按鍵精靈)錄製的是死板的座標與按鍵,只要頁面佈局微調,指令碼便立即失效。BrowserBC 的核心突破在於將「技能來源」與「執行者」徹底分離:它錄製的不是座標,而是將操作軌跡蒸餾成一份自然語言的 Skill(技能卡)。

🧩 錄製 → 轉寫 → 執行的三步範式

BrowserBC 透過以下流程將人類行為轉化為 Agent 的決策先驗:

  1. 錄製:完整記錄人類執行任務的過程,包含:
    • 任務指令。
    • 頁面觀察(包含渲染截圖、結構化 DOM 與可訪問性樹快照)。
    • 使用者動作(點選、輸入、跳轉、提交及其對應的元素定位)。
    • 頁面反饋(跳轉結果、校驗報錯、完成訊號)。
    • 最終狀態。
  2. 轉寫:模型將上述記錄轉寫為一份自然語言的 Skill。這不是回放指令碼,而是一份說明書,定義了這類任務「該怎麼做」以及「如何判斷已完成」。
  3. 執行:將 Skill 交付給任意模型(即使是更小、更便宜的模型)。模型讀取技能卡後,在真實頁面上獨立落地操作,而非機械地複刻點選座標。

📊 例項分析:複雜的民宿搜尋任務

研究團隊以「預訂民宿」為案例,測試 Agent 在處理篩選與排序時的表現。這類任務常使小模型因不熟悉篩選功能或產生幻覺而失敗。

  • 人類操作:進入網站 → 輸入時間地點人數 → 應用篩選器 → 閱讀結果 → 找出最佳選項。
  • BrowserBC 處理:將此過程錄製並轉寫成 Skill。
  • 結果:Agent 讀取該技能後,能將人類的「門道」應用在操作中,避免了從零摸索的試錯成本。

💡 解耦技能來源與執行模型

BrowserBC 的關鍵價值在於將技能轉化為自然語言,使其具備以下特性:

  • 可遷移:能在佈局變動的頁面上舉一反三。
  • 可複用:技能卡可以在不同模型之間自由傳遞與組合。
  • 低成本:由人類定義一次技能,後續可由低成本的小模型執行,大幅降低對昂貴頂尖模型的依賴。

🎯 實務啟示

對於開發 Web Agent 的工程師而言,這提供了一種新的最佳化方向:與其試圖透過 Prompt Engineering 讓模型在陌生網站上自行探索,不如建立一套「人類錄製 $\rightarrow$ 技能蒸餾 $\rightarrow$ 模型執行」的知識庫。透過將高頻操作模組化為自然語言 Skill,可以有效降低 Agent 的幻覺率並提升執行穩定性。

🔗 來源

#WebAgent #BrowserBC #BehaviorCloning #OpenSource #EinsiaAI #Automation #LLM #SkillDistillation #WebAutomation #AgenticWorkflow

google/gemma-4-31b-it:free 自動生成