GitHub Trending Alibaba ★ 116 4 min

alibaba/page-agent

TypeScript

🔗 https://github.com/alibaba/page-agent

📌 標題:alibaba/page-agent:即插即用的網頁內 AI 代理

TL;DR:只要在頁面加入一行 script,即可用自然語言直接操作網頁介面,無需瀏覽器擴充或後端改寫。

🎣 開場鉤子
許多 AI Copilot 方案都需要額外的瀏覽器擴充、頭less browser 或後端服務,才能在網頁上執行自然語言指令。這種架構不僅增加開發成本,也限制了在既有產品中快速試驗的可能。

🤔 背景或問題
開發者想在 SaaS 產品、ERP、CRM 或後臺系統中加入 AI 輔助功能時,常面臨三個阻礙:

  1. 需要安裝瀏覽器擴充套件或特別許可權。
  2. 依賴多模態大模型或截圖處理,增加模型與基礎設施複雜度。
  3. 想要跨頁面或多標籤操作時,必須自行實作同步機制。

這些需求使得快速驗證或直接在產品中內嵌 AI 代理變得困難。

🧩 方法或架構
根據 README 的描述,Page Agent 採取以下設計:

  • 純頁面內 JavaScript:只要引用提供的 script,所有運作都在目前網頁內完成,無需安裝瀏覽器擴充、頭less browser 或額外的後端服務。
  • 文字 기반 DOM 操作:不依賴螢幕截圖或多模態 LLM,直接透過文字指令對 DOM 進行查詢與修改。
  • 自帶 LLM(Bring‑your‑own LLM):核心程式不繫結特定模型,開發者可自行接入任何符合介面的 LLM 作為決策後端。
  • 可選的 Chrome 擴充:若需要跨瀏覽器標籤或多頁面任務,可安裝官方提供的擴充套件,讓代理在不同頁面間傳遞狀態。
  • MCP Server (Beta):提供一個外部控制介面,讓其他客戶端透過 MCP 協議遠端操作瀏覽器中的代理。

這些特徵讓 Page Agent 能以最少的程式碼量(「一行 script」)將自然語言操作能力直接注入現有網頁。

🎯 實務啟示
快速試用:在任意 HTML 頁面加入以下程式碼(依據所在地選擇對應鏜像),即可使用官方提供的免費 Demo LLM 進行評估:

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.11.0/dist/iife/page-agent.demo.js" crossorigin="true"></script>

(中國區鏜像:https://registry.npmmirror.com/page-agent/1.11.0/files/dist/iife/page-agent.demo.js
加入 ?autoInit=false 可防止自動初始化,方便在自行程式中手動觸發。

使用範例(僅示意,實際 API 請參考官方檔案):

// 初始化代理(假設已載入 script)
const agent = new PageAgent({ llm: myLLM }); // myLLM 為您自行實作的 LLM 介面
// 用自然語言填寫表單
agent.run("把姓名欄位填成『張三』,然後點選送出按鈕");

適用場景(依據 README):

  • SaaS AI Copilot:在產品內嵌入一行程式碼即可提供自然語言操作,無需重寫後端。
  • 智慧表單填寫:將原本需要二十次點選的工作流程壓縮為一句話,適用於 ERP、CRM、後臺管理系統。
  • 無障礙讀取:透過語音指令或螢幕閱讀器,讓任何網頁都能以自然語言操作,降低使用門檻。
  • 多頁面代理:搭配選用的 Chrome 擴充,實現跨標籤任務自動化。
  • 外部控制:透過 MCP Server 讓其他服務或桌面應用程式遠端操作瀏覽器中的代理。

⚠️ 限制

  • 官方 CDN 提供的 Demo 僅供技術評估使用,使用時需同意其條款;正式產品建議自行部署或接入可靠的 LLM 服務。
  • 若需要跨頁面或多標籤協同操作,必須額外安裝提供的 Chrome 擴充套件。
  • 目前檔案中未提及效能基準或延遲資料,實際回應速度將取決於所接入 LLM 的回應時間與網路狀況。

🔗 來源

#AI #WebAgent #LLM #JavaScript #OpenSource #Alibaba #Copilot #Accessibility #FormAutomation #MCP

google/gemma-4-31b-it:free 自動生成