2026-07-01 · allenai/olmocr

📌 【AI2 開源】olmOCR：將複雜 PDF 與影像高效轉換為乾淨 Markdown 的工具集

TL;DR：基於 7B VLM 的檔案轉換工具，能處理複雜版面並將 PDF/影像轉為 Markdown，成本低於每百萬頁 200 美元。

PDF 轉文字一直是工程師的噩夢，尤其是面對多欄位、插圖、頁首頁尾或手寫內容時，傳統 OCR 往往會讓閱讀順序大亂。AI2 (Allen Institute for AI) 推出的 olmOCR 試圖透過視覺語言模型 (VLM) 解決這個痛點。

🧩 將複雜版面轉化為自然閱讀順序

olmOCR 是一個專為 PDF、PNG 和 JPEG 等影像格式設計的工具集，其核心目標是將這些檔案轉換為乾淨且可讀的純文字（Markdown）格式。

其技術設計重點在於處理複雜的視覺結構：

📊 基於 7B VLM 的效能與成本控制

該工具採用一個 7B 引數的 VLM 驅動，因此需要 GPU 支援。在成本方面，作者宣稱轉換每百萬頁的費用低於 200 美元。

從版本更新紀錄可看出其演進路徑：

💡 開發者友好的部署與訓練支援

為了降低工程師的部署門檻，olmOCR 在基礎設施上做了以下調整：

🎯 實務啟示

對於需要處理大量非結構化 PDF 資料以建立 RAG (檢索增強生成) 知識庫的工程師來說，olmOCR 提供的「自然閱讀順序」與「自動移除頁首頁尾」功能，能大幅減少後處理的清理工作，且 FP8 的支援讓大規模轉換的運算成本更具可行性。

🔗 來源

#OCR #VLM #PDF #Markdown #AI2 #OpenSource #vLLM #DocumentAI #MachineLearning #RAG

同來源相關文章