2026-06-25 · opendatalab/MinerU

📌 【opendatalab】MinerU：支援 109 國語言，將多格式檔案精準轉為 Markdown 的解析引擎

TL;DR：高精度的檔案解析引擎，透過 VLM+OCR 雙引擎將 PDF 等多種格式轉為結構化 Markdown/JSON，強化 RAG 與 Agent 流程。

處理 LLM 或 RAG 應用時，最痛苦的往往不是模型能力，而是如何將雜亂的 PDF、PPTX 或掃描檔，在不丟失格式的情況下轉成機器可讀的結構化資料。

🧩 VLM 與 OCR 雙引擎實現高精度解析

MinerU 旨在解決複雜檔案的解析問題，將 PDF、DOCX、PPTX、XLSX、影像及網頁內容，統一轉換為結構化的 Markdown 或 JSON 格式。其核心技術亮點在於：

🔌 從 MCP Server 到 RAG 框架的全面整合

MinerU 不僅提供解析能力，更將整合路徑延伸至開發者的工具鏈中：

AI 程式設計工具：透過 MCP Server 整合至 Cursor、Claude Desktop 及 Windsurf。
RAG 框架：原生支援 LangChain、LlamaIndex、RAGFlow、RAG-Anything、Flowise、Dify 與 FastGPT。
開發介面：提供 Python、Go 與 TypeScript SDK，以及 CLI、REST API 與 Docker 部署選項。
低門檻使用：提供 mineru.net 線上版、Gradio WebUI 及桌面客戶端。

🖥️ 彈性的部署模式與硬體支援

根據不同的效能需求，MinerU 提供三種推理後端選擇：

此外，該專案在硬體相容性上相當廣泛，支援 Ascend、Cambricon、Enfla 等多款 AI 晶片。

🎯 實務啟示

對於建構 RAG 系統的工程師而言，MinerU 的價值在於將「非結構化檔案 $\rightarrow$ 結構化 Markdown」這一環節標準化。特別是其對 MCP Server 的支援，讓開發者能直接在 Cursor 等 AI 編輯器中處理檔案解析，大幅縮短了資料前處理的工程時間。

🔗 來源

#AI #RAG #OCR #VLM #Markdown #DocumentParsing #LLM #LangChain #MCP #OpenSource

同來源相關文章