Design and Report Benchmarks for Knowledge Work
https://arxiv.org/abs/2605.23262📌 【Harvard 等最新研究】如何設計真正反映知識工作的 AI 基準?
你見過 AI 在基準測試中得分飛高,但實際上無法完成真正的工作嗎?這篇論文指出,問題可能出在我們設計基準的方式上。
🤔 高分基準不等於真實工作能力
現有的知識工作評估多半沿用傳統 NLP 任務的邏輯,導致基準分數與實際工作表現之間缺乏可靠對應。當系統在這類基準上表現優異時,我們無法斷言它真的能在真實的知識工作環境中發揮作用。
🧪 三步驟框架:定義工作活動、指定測試環境、評分工作產出
論文提出一個明確的三步驟流程,使基準任務能直接對應到所宣稱的工作主張:首先界定被評估的具體工作活動;其次說明測試所使用的材料、工具、角色與限制;最後聚焦於系統留下的工作產出進行評分。為了命名與區分這些工作活動,研究團隊從 O*NET 職業任務資料庫中萃取出 18 種典型的知識工作活動。
📊 基準設計選擇直接決定分數能支持的工作主張
作者以三個具體案例示範該框架:GDPval(非程式碼職業交付物基準)、OfficeQA Pro(以最終答案為得分依據的 grounded document‑analysis 基準)以及 APEX‑SWE(具可執行得分產出的軟體工程基準)。這些案例展示,基準在任務映射、測試環境設置與得分方式上的設計決策,將直接影響分數所能支持的工作主張寬度,亦會揭示基準任務、測試環境、得分產出與更廣泛工作主張之間可能存在的落差。
💡 工作活動、材料工具與角色是基準可信度的關鍵
透過將任務對應到具體的工作活動、明確測試環境中的材料、工具、角色與限制,以及以最終工作產出為評分對象,研究者能讓基準分數更貼近實際知識工作的需求。此種設計方式有助於辨識哪些基準真正測試了系統在特定工作流程中的能力,而非僅量測語言模型在抽象任務上的表現。
⚠️ 框架概念性提出,尚未大規模驗證於多樣化任務
論文主要透過三個基準案例說明框架的運用方式,尚未提供跨領域、大規模的實證驗證以確認該框架在所有知識工作類型中的普遍適用性。
🎯 研究者與工程師可依此檢視與改進現有基準
在設計或報告新的 LLM 代理基準時,可參考本文的三步驟指引:先釐清想評估的工作活動,再描述測試所需的具體材料、工具、角色與限制,最後確保得分方式聚焦於系統所產出的可用工作成果。這樣的做法有助於讓基準分數更具說服力,並減少實際部署時的效能落差。
🔗 論文連結
📝 Design and Report Benchmarks for Knowledge Work
👤 Yining Hua, Hongbin Na, Cyrus Ayubcha, Levi Lian (Harvard University; University of Technology Sydney; Stanford University; Raycaster AI)
🔗 https://arxiv.org/abs/2605.23262
你認為目前的 AI 基準是否真正反映了知識工作的能力?歡迎在留言區分享你的看法 👇
#AI #LLM #Benchmark #KnowledgeWork #Harvard #Stanford #UTS #RaycasterAI #MachineLearning #AIEvaluation
由 tencent/hy3-preview:free 自動生成