AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification
https://huggingface.co/papers/2606.03031📌 AUDITFLOW: 可執行符號環境結構化財報驗證
你以為讓 LLM 直接閱讀財報就能完成審計?研究顯示,光靠語言模型的理解力,正確率竟只剩不足 20%。
🤔 結構化財報驗證為何讓語言模型失靈
正確性不僅取決於文字描述,更依賴於 US‑GAAP 分類學的結構、XBRL 檔案的計算與維度關係。模型必須將事實連結到分類學概念、遍歷關係、重新計算期望值,才能套用審計規則——這些步驟在純文字推論中極易出錯。
🧪 圖基符號環境+多智能體分工設計
AuditFlow 從靜態的 US‑GAAP 分類學圖與動態的 XBRL 申報圖建構符號環境,透過類型化工具提供事實檢索、分類學遍歷、數值檢查與規則評估。兩名「初級審計師」智能體分別從規範視角與證據視角檢查每個案例;一名「資深審計師」智能體負責裁決分歧,必要時可要求進一步調查。最終報告經證據聚合產出審計 verdict、期望值、證據鏈與可信度分數。
📊 在 FinMR 樣本上達到 82.09% 聯合審計準確度
在經 FinAuditing 衍生的 FinMR 資料集上,AuditFlow 在 GPT‑5.5 下達到 82.09% 的聯合審計準確度,比最強基線高出 14.93 個百分點。若移除其中的決定性檢查步驟,準確度驟降至 17.91%,說明符號環境承擔了語言模型無法可靠完成的驗證步驟。
💡 符號環境才是模型的「外掛腦袋」而非取代
結果凸顯,LLM 在需要精確結構推演與數值核算的任務上,仍需依賴可執行的符號工具來保證正確性。智能體的角色變成「搜尋與提問」,而符號環境負責「計算與規則檢查」,這種搜尋‑驗證分離正是準確度提升的關鍵。
⚠️ 目前僅在單一資料集上驗證,長期穩定性未知
實驗基於 FinAuditing‑derived FinMR 樣本,未涵蓋其他會計準則或更複雜的實際申報。環境的建構依賴靜態分類學圖,若稅法或會計準則更新,需要同步更新圖結構;長期使用中的維護成本與適應性仍需進一步探討。
🎯 工程實務:將符號工具視為 LLM 的可執行插件
- 在受監管領域(財務、醫療、法律)開發代理系統時,優先考慮將規則引擎、圖資料庫或計算庫包裝成類型化工具,讓 LLM 呼叫而非自行推演。
- 設計雙層智能體架構:一層負責適應性搜尋與提問,另一層執行決定性驗證,可顯著降低幻覺與錯誤率。
- 保留可審計的證據鏈(evidence trail)與可信度分數,以符合監管對透明度與可追溯性的需求。
🔗 論文連結
📝 AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification
👤 作者:未在摘要中明確列出
🔗 https://huggingface.co/papers/2606.03031
你在構建 AI 代理時,是否已經將符號工具納入工具鏈?歡迎在留言區分享你的經驗與疑問 👇
#AI #FinancialAuditing #LLM #AgenticSystems #SymbolicAI #HuggingFace #GPT5.5 #XBRL #USGAAP #可信AI
由 tencent/hy3-preview:free 自動生成