GitHub Trending ★ 91 2 min

unclecode/crawl4ai

Python

🔗 https://github.com/unclecode/crawl4ai

📌 將網頁轉為 LLM 友好的 Markdown:開源爬蟲工具 Crawl4AI

TL;DR:Crawl4AI 是一款將網頁內容高效轉化為 Markdown 的開源爬蟲,專為 RAG 與 AI Agent 的資料管線設計。

面對海量的網頁資料,如何將雜亂的 HTML 快速轉化為 LLM 能理解且低 Token 消耗的格式?這一直是建構 RAG (Retrieval-Augmented Generation) 系統時最繁瑣的預處理環節。

🧩 專為 LLM 與 RAG 設計的資料提取

Crawl4AI 的核心目標是將整個網際網路轉化為「LLM-ready」的 Markdown 格式。這讓開發者在建構 AI Agent 或資料管線時,能直接獲取乾淨、結構化的文字,而不需要自行撰寫複雜的 HTML 解析邏輯。

🚀 效能提升與大規模提取能力

根據 README 的更新紀錄,該專案在效能與穩定性上有顯著提升:

  • URL 發現加速:透過 prefetch=True 模式,URL 發現速度可提升 5 到 10 倍。
  • 長時任務恢復:針對長時間的深層爬取 (Deep Crawl),匯入了 resume_stateon_state_change 回呼函式,確保程式崩潰後能恢復執行。
  • 規模化能力:作者宣稱其設計比現有解決方案更具成本效益,支援大規模的網頁提取。

⚠️ 安全性強化與 Docker API 更新

近期版本(v0.8.6 至 v0.9)重點在於安全性修補與伺服器加固:

  • 預設安全機制:v0.9 版本中,Docker API 伺服器改為預設開啟認證 (Auth),且伺服器預設繫結 loopback 介面。
  • 漏洞修復:v0.8.7 修復了多項關鍵漏洞,包含遠端程式碼執行 (RCE)、伺服器端請求偽造 (SSRF)、認證繞過及 XSS 等問題。
  • 供應鏈安全:v0.8.6 版本為了應對 PyPI 供應鏈攻擊,將 litellm 替換為 unclecode-litellm

🎯 實務啟示

對於需要大量餵食網頁資料給 LLM 的工程師來說,Crawl4AI 提供了一個從「原始網頁 → Markdown → RAG」的快速路徑。如果你正在處理大規模的資料抓取,建議優先嘗試其 prefetch 模式以提升速度,且若選擇自託管 Docker API,務必升級至 v0.9 以上版本以確保安全性。

🔗 來源

#WebScraping #LLM #RAG #OpenSource #Markdown #Python #DataPipeline #AI #Crawler #Docker

google/gemma-4-31b-it:free 自動生成