ClinConsensus:用 2500 個臨床案例測出 LLM 的醫療真實力
ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels醫療 AI 最怕的不是模型不夠聰明,而是你不知道它哪裡不夠聰明。現有的醫療 benchmark 大多是選擇題,測的是知識記憶,不是臨床判斷。但真實的醫療場景是開放式的:病人來了一堆症狀,你要問對問題、排除鑑別診斷、開治療方案、還要追蹤長期預後。阿里巴巴的團隊做了 ClinConsensus,一個由臨床專家策劃的中文醫療 benchmark,2500 個開放式案例,覆蓋從預防到長期照護的完整流程。
🔍 現有醫療 Benchmark 的盲點
目前主流的醫療 LLM 評估大多有三個問題。
- 靜態題目、孤立任務:一題考診斷、一題考用藥、一題考檢查報告解讀,但真實臨床是這些能力要串在一起用的。病人不會只帶一個問題來,醫師也不會只做一個決定就結束。
- 選擇題為主:大多是選擇題或簡答題,模型只要「選對」就算過關。但醫療場景需要的是開放式回答,你要能判斷模型的推理過程是否合理、引用的證據是否正確、建議的治療方案是否安全。
- 缺少難度分級:一個模型在簡單案例上答對 90%、在複雜案例上答對 40%,如果只看平均分你以為它還行,但實際上它處理不了真正需要 AI 幫忙的困難案例。
🛠️ ClinConsensus 怎麼設計
ClinConsensus 有幾個設計決策我覺得特別值得注意:
- 案例覆蓋範圍:2500 個案例橫跨 36 個醫學專科、12 種常見臨床任務類型,而且覆蓋了照護的完整連續體,從預防、介入到長期追蹤。這不是隨便從教科書裡抄題目,是臨床專家根據真實工作流程設計的。
- 難度分級:案例被分成不同複雜度等級,逐步遞增。簡單的可能是單一症狀的診斷,複雜的可能涉及多重共病、藥物交互作用、長期追蹤策略。這讓你能看出模型在不同難度下的表現曲線,而不只是一個平均分。
- 評估方法:他們用 rubric-based grading,也就是每個案例都有明確的評分標準,不是靠主觀印象打分。然後提出了一個叫 CACS@k(Clinically Applicable Consistency Score)的指標,衡量模型回答的臨床一致性。
- Dual-judge evaluation framework:一個高能力 LLM 當主審,加上一個蒸餾過的、可以本地部署的小模型當副審。小模型是用 supervised fine-tuning 訓練的,對齊了醫師的判斷標準。這解決了一個很現實的問題,用 GPT-4 等級的模型當 judge 成本太高,但用小模型又怕評估品質不穩。雙重 judge 的設計讓你可以用小模型做大規模評估,同時用大模型做校準。
💡 測出來的結論讓人清醒
他們拿 ClinConsensus 測了幾個主流 LLM,發現了一些重要的事:
表現最好的幾個模型整體分數差不多,但拆開來看差異很大。
有的模型推理能力強但證據引用弱,有的反過來。在長期追蹤類的任務上,幾乎所有模型都明顯掉分。而「臨床可執行的治療計畫」這個維度,是所有模型的共同瓶頸。
這很好理解。治療計畫不是知識問題,是決策問題。你要考慮病人的具體狀況、禁忌症、藥物交互作用、經濟條件、甚至病人的偏好。這種多因素的平衡決策正是 LLM 目前最弱的地方。
我覺得這個 benchmark 對中文醫療 AI 社群很有價值,但也想提幾個觀察:
- 2500 個案例聽起來不少,但分散到 36 個專科和 12 種任務類型,每個細分類別的樣本量其實不大。某些小眾專科的評估結果可能不夠穩定。
- 「臨床專家策劃」的品質高度依賴專家的代表性。不同醫院、不同地區的臨床實踐可能有差異,benchmark 能否反映這種多樣性是個問號。
- Dual-judge 的設計很聰明,但蒸餾模型的評估品質跟大模型之間的 gap 有多大,論文裡的數據值得仔細看。如果 gap 太大,用小模型做大規模評估的結論可靠性就要打折扣。
對於在做醫療 AI 產品的團隊,我的建議是:不要只看整體 leaderboard 排名,ClinConsensus 的價值在於它能告訴你模型「哪裡弱」。拆開看各個維度的分數,找到你的應用場景對應的短板,這比追求一個漂亮的平均分有用得多。
醫療 AI 最怕的不是模型不夠聰明,而是你不知道它哪裡不夠聰明。現有的醫療 benchmark 大多是選擇題,測的是知識記憶,不是臨床判斷。但真實的醫療場景是開放式的:病人來了一堆症狀,你要問對問題、排除鑑別診斷、開治療方案、還要追蹤長期預後。阿里巴巴的團隊做了 ClinConsensus,一個由臨床專家策劃的中文醫療 benchmark,2500 個開放式案例,覆蓋從預防到長期照護的完整流程。
🔍 現有醫療 Benchmark 的盲點
目前主流的醫療 LLM 評估大多有三個問題。
第一,題目是靜態的、任務是孤立的。一題考診斷、一題考用藥、一題考檢查報告解讀,但真實臨床是這些能力要串在一起用的。病人不會只帶一個問題來,醫師也不會只做一個決定就結束。
第二,大多是選擇題或簡答題,模型只要「選對」就算過關。但醫療場景需要的是開放式回答,你要能判斷模型的推理過程是否合理、引用的證據是否正確、建議的治療方案是否安全。
第三,缺少難度分級。一個模型在簡單案例上答對 90%、在複雜案例上答對 40%,如果只看平均分你以為它還行,但實際上它處理不了真正需要 AI 幫忙的困難案例。
🛠️ ClinConsensus 怎麼設計
ClinConsensus 有幾個設計決策我覺得特別值得注意:
第一是案例的覆蓋範圍。2500 個案例橫跨 36 個醫學專科、12 種常見臨床任務類型,而且覆蓋了照護的完整連續體,從預防、介入到長期追蹤。這不是隨便從教科書裡抄題目,是臨床專家根據真實工作流程設計的。
第二是難度分級。案例被分成不同複雜度等級,逐步遞增。簡單的可能是單一症狀的診斷,複雜的可能涉及多重共病、藥物交互作用、長期追蹤策略。這讓你能看出模型在不同難度下的表現曲線,而不只是一個平均分。
第三是評估方法。他們用 rubric-based grading,也就是每個案例都有明確的評分標準,不是靠主觀印象打分。然後提出了一個叫 CACS@k(Clinically Applicable Consistency Score)的指標,衡量模型回答的臨床一致性。
最有意思的是他們的 dual-judge evaluation framework:一個高能力 LLM 當主審,加上一個蒸餾過的、可以本地部署的小模型當副審。小模型是用 supervised fine-tuning 訓練的,對齊了醫師的判斷標準。這解決了一個很現實的問題,用 GPT-4 等級的模型當 judge 成本太高,但用小模型又怕評估品質不穩。雙重 judge 的設計讓你可以用小模型做大規模評估,同時用大模型做校準。
💡 測出來的結論讓人清醒
他們拿 ClinConsensus 測了幾個主流 LLM,發現了一些重要的事:
表現最好的幾個模型整體分數差不多,但拆開來看差異很大。
有的模型推理能力強但證據引用弱,有的反過來。在長期追蹤類的任務上,幾乎所有模型都明顯掉分。而「臨床可執行的治療計畫」這個維度,是所有模型的共同瓶頸。
這很好理解。治療計畫不是知識問題,是決策問題。你要考慮病人的具體狀況、禁忌症、藥物交互作用、經濟條件、甚至病人的偏好。這種多因素的平衡決策正是 LLM 目前最弱的地方。
我覺得這個 benchmark 對中文醫療 AI 社群很有價值,但也想提幾個觀察:
第一,2500 個案例聽起來不少,但分散到 36 個專科和 12 種任務類型,每個細分類別的樣本量其實不大。某些小眾專科的評估結果可能不夠穩定。
第二,「臨床專家策劃」的品質高度依賴專家的代表性。不同醫院、不同地區的臨床實踐可能有差異,benchmark 能否反映這種多樣性是個問號。
第三,dual-judge 的設計很聰明,但蒸餾模型的評估品質跟大模型之間的 gap 有多大,論文裡的數據值得仔細看。如果 gap 太大,用小模型做大規模評估的結論可靠性就要打折扣。
對於在做醫療 AI 產品的團隊,我的建議是:不要只看整體 leaderboard 排名,ClinConsensus 的價值在於它能告訴你模型「哪裡弱」。拆開看各個維度的分數,找到你的應用場景對應的短板,這比追求一個漂亮的平均分有用得多。
論文連結:https://arxiv.org/abs/2603.02097
#GenAI #MedicalAI #Benchmark #LLMEvaluation #ClinConsensus