2026-06-27 · BrowserBC：克隆人類點選，讓一次網頁操作轉化為所有Agent的能力

📌 【Einsia AI 開源】BrowserBC：將人類網頁操作轉寫為「技能卡」，讓小模型也能精準執行

TL;DR：透過「錄製 → 轉寫 → 執行」流程，將人類操作蒸餾為自然語言技能，讓 Agent 擺脫重複摸索。

目前的 Web Agent 並不缺乏操作能力，Claude 或 Codex 等模型都能識別按鈕並執行點選。但真正痛點在於：每面對新網站或新任務，最強且最貴的模型必須從零開始摸索流程，這不僅浪費資源，且容易陷入死迴圈、偏離意圖或在接近答案時提前收手。即便成功一次，經驗也會隨對話結束而蒸發，下次仍需重新試錯。

🤔 從「座標回放」進化到「能力遷移」

傳統的自動化工具（如按鍵精靈）錄製的是死板的座標與按鍵，只要頁面佈局微調，指令碼便立即失效。BrowserBC 的核心突破在於將「技能來源」與「執行者」徹底分離：它錄製的不是座標，而是將操作軌跡蒸餾成一份自然語言的 Skill（技能卡）。

🧩 錄製 → 轉寫 → 執行的三步範式

BrowserBC 透過以下流程將人類行為轉化為 Agent 的決策先驗：

錄製：完整記錄人類執行任務的過程，包含：
- 任務指令。
- 頁面觀察（包含渲染截圖、結構化 DOM 與可訪問性樹快照）。
- 使用者動作（點選、輸入、跳轉、提交及其對應的元素定位）。
- 頁面反饋（跳轉結果、校驗報錯、完成訊號）。
- 最終狀態。
轉寫：模型將上述記錄轉寫為一份自然語言的 Skill。這不是回放指令碼，而是一份說明書，定義了這類任務「該怎麼做」以及「如何判斷已完成」。
執行：將 Skill 交付給任意模型（即使是更小、更便宜的模型）。模型讀取技能卡後，在真實頁面上獨立落地操作，而非機械地複刻點選座標。

📊 例項分析：複雜的民宿搜尋任務

研究團隊以「預訂民宿」為案例，測試 Agent 在處理篩選與排序時的表現。這類任務常使小模型因不熟悉篩選功能或產生幻覺而失敗。

人類操作：進入網站 → 輸入時間地點人數 → 應用篩選器 → 閱讀結果 → 找出最佳選項。
BrowserBC 處理：將此過程錄製並轉寫成 Skill。
結果：Agent 讀取該技能後，能將人類的「門道」應用在操作中，避免了從零摸索的試錯成本。

💡 解耦技能來源與執行模型

BrowserBC 的關鍵價值在於將技能轉化為自然語言，使其具備以下特性：

可遷移：能在佈局變動的頁面上舉一反三。
可複用：技能卡可以在不同模型之間自由傳遞與組合。
低成本：由人類定義一次技能，後續可由低成本的小模型執行，大幅降低對昂貴頂尖模型的依賴。

🎯 實務啟示

對於開發 Web Agent 的工程師而言，這提供了一種新的最佳化方向：與其試圖透過 Prompt Engineering 讓模型在陌生網站上自行探索，不如建立一套「人類錄製 $\rightarrow$ 技能蒸餾 $\rightarrow$ 模型執行」的知識庫。透過將高頻操作模組化為自然語言 Skill，可以有效降低 Agent 的幻覺率並提升執行穩定性。

🔗 來源

標題：BrowserBC：克隆人類點選，讓一次網頁操作轉化為所有Agent的能力
作者／機構：一水 / Einsia AI (Navers Lab)
連結：https://www.qbitai.com/2026/06/439393.html

#WebAgent #BrowserBC #BehaviorCloning #OpenSource #EinsiaAI #Automation #LLM #SkillDistillation #WebAutomation #AgenticWorkflow

同來源相關文章