2026-03-03 · ClinConsensus：用 2500 個臨床案例測出 LLM 的醫療真實力

醫療 AI 最怕的不是模型不夠聰明，而是你不知道它哪裡不夠聰明。現有的醫療 benchmark 大多是選擇題，測的是知識記憶，不是臨床判斷。但真實的醫療場景是開放式的：病人來了一堆症狀，你要問對問題、排除鑑別診斷、開治療方案、還要追蹤長期預後。阿里巴巴的團隊做了 ClinConsensus，一個由臨床專家策劃的中文醫療 benchmark，2500 個開放式案例，覆蓋從預防到長期照護的完整流程。

🔍 現有醫療 Benchmark 的盲點

目前主流的醫療 LLM 評估大多有三個問題。

靜態題目、孤立任務：一題考診斷、一題考用藥、一題考檢查報告解讀，但真實臨床是這些能力要串在一起用的。病人不會只帶一個問題來，醫師也不會只做一個決定就結束。
選擇題為主：大多是選擇題或簡答題，模型只要「選對」就算過關。但醫療場景需要的是開放式回答，你要能判斷模型的推理過程是否合理、引用的證據是否正確、建議的治療方案是否安全。
缺少難度分級：一個模型在簡單案例上答對 90%、在複雜案例上答對 40%，如果只看平均分你以為它還行，但實際上它處理不了真正需要 AI 幫忙的困難案例。

🛠️ ClinConsensus 怎麼設計

ClinConsensus 有幾個設計決策我覺得特別值得注意：

案例覆蓋範圍：2500 個案例橫跨 36 個醫學專科、12 種常見臨床任務類型，而且覆蓋了照護的完整連續體，從預防、介入到長期追蹤。這不是隨便從教科書裡抄題目，是臨床專家根據真實工作流程設計的。
難度分級：案例被分成不同複雜度等級，逐步遞增。簡單的可能是單一症狀的診斷，複雜的可能涉及多重共病、藥物交互作用、長期追蹤策略。這讓你能看出模型在不同難度下的表現曲線，而不只是一個平均分。
評估方法：他們用 rubric-based grading，也就是每個案例都有明確的評分標準，不是靠主觀印象打分。然後提出了一個叫 CACS@k（Clinically Applicable Consistency Score）的指標，衡量模型回答的臨床一致性。
Dual-judge evaluation framework：一個高能力 LLM 當主審，加上一個蒸餾過的、可以本地部署的小模型當副審。小模型是用 supervised fine-tuning 訓練的，對齊了醫師的判斷標準。這解決了一個很現實的問題，用 GPT-4 等級的模型當 judge 成本太高，但用小模型又怕評估品質不穩。雙重 judge 的設計讓你可以用小模型做大規模評估，同時用大模型做校準。

💡 測出來的結論讓人清醒

他們拿 ClinConsensus 測了幾個主流 LLM，發現了一些重要的事：

表現最好的幾個模型整體分數差不多，但拆開來看差異很大。

有的模型推理能力強但證據引用弱，有的反過來。在長期追蹤類的任務上，幾乎所有模型都明顯掉分。而「臨床可執行的治療計畫」這個維度，是所有模型的共同瓶頸。

這很好理解。治療計畫不是知識問題，是決策問題。你要考慮病人的具體狀況、禁忌症、藥物交互作用、經濟條件、甚至病人的偏好。這種多因素的平衡決策正是 LLM 目前最弱的地方。

我覺得這個 benchmark 對中文醫療 AI 社群很有價值，但也想提幾個觀察：

2500 個案例聽起來不少，但分散到 36 個專科和 12 種任務類型，每個細分類別的樣本量其實不大。某些小眾專科的評估結果可能不夠穩定。
「臨床專家策劃」的品質高度依賴專家的代表性。不同醫院、不同地區的臨床實踐可能有差異，benchmark 能否反映這種多樣性是個問號。
Dual-judge 的設計很聰明，但蒸餾模型的評估品質跟大模型之間的 gap 有多大，論文裡的數據值得仔細看。如果 gap 太大，用小模型做大規模評估的結論可靠性就要打折扣。

對於在做醫療 AI 產品的團隊，我的建議是：不要只看整體 leaderboard 排名，ClinConsensus 的價值在於它能告訴你模型「哪裡弱」。拆開看各個維度的分數，找到你的應用場景對應的短板，這比追求一個漂亮的平均分有用得多。

論文連結

醫療 AI 最怕的不是模型不夠聰明，而是你不知道它哪裡不夠聰明。現有的醫療 benchmark 大多是選擇題，測的是知識記憶，不是臨床判斷。但真實的醫療場景是開放式的：病人來了一堆症狀，你要問對問題、排除鑑別診斷、開治療方案、還要追蹤長期預後。阿里巴巴的團隊做了 ClinConsensus，一個由臨床專家策劃的中文醫療 benchmark，2500 個開放式案例，覆蓋從預防到長期照護的完整流程。

🔍 現有醫療 Benchmark 的盲點

目前主流的醫療 LLM 評估大多有三個問題。

第一，題目是靜態的、任務是孤立的。一題考診斷、一題考用藥、一題考檢查報告解讀，但真實臨床是這些能力要串在一起用的。病人不會只帶一個問題來，醫師也不會只做一個決定就結束。

第二，大多是選擇題或簡答題，模型只要「選對」就算過關。但醫療場景需要的是開放式回答，你要能判斷模型的推理過程是否合理、引用的證據是否正確、建議的治療方案是否安全。

第三，缺少難度分級。一個模型在簡單案例上答對 90%、在複雜案例上答對 40%，如果只看平均分你以為它還行，但實際上它處理不了真正需要 AI 幫忙的困難案例。

🛠️ ClinConsensus 怎麼設計

ClinConsensus 有幾個設計決策我覺得特別值得注意：

第一是案例的覆蓋範圍。2500 個案例橫跨 36 個醫學專科、12 種常見臨床任務類型，而且覆蓋了照護的完整連續體，從預防、介入到長期追蹤。這不是隨便從教科書裡抄題目，是臨床專家根據真實工作流程設計的。

第二是難度分級。案例被分成不同複雜度等級，逐步遞增。簡單的可能是單一症狀的診斷，複雜的可能涉及多重共病、藥物交互作用、長期追蹤策略。這讓你能看出模型在不同難度下的表現曲線，而不只是一個平均分。

第三是評估方法。他們用 rubric-based grading，也就是每個案例都有明確的評分標準，不是靠主觀印象打分。然後提出了一個叫 CACS@k（Clinically Applicable Consistency Score）的指標，衡量模型回答的臨床一致性。

最有意思的是他們的 dual-judge evaluation framework：一個高能力 LLM 當主審，加上一個蒸餾過的、可以本地部署的小模型當副審。小模型是用 supervised fine-tuning 訓練的，對齊了醫師的判斷標準。這解決了一個很現實的問題，用 GPT-4 等級的模型當 judge 成本太高，但用小模型又怕評估品質不穩。雙重 judge 的設計讓你可以用小模型做大規模評估，同時用大模型做校準。

💡 測出來的結論讓人清醒

他們拿 ClinConsensus 測了幾個主流 LLM，發現了一些重要的事：

表現最好的幾個模型整體分數差不多，但拆開來看差異很大。

有的模型推理能力強但證據引用弱，有的反過來。在長期追蹤類的任務上，幾乎所有模型都明顯掉分。而「臨床可執行的治療計畫」這個維度，是所有模型的共同瓶頸。

我覺得這個 benchmark 對中文醫療 AI 社群很有價值，但也想提幾個觀察：

第一，2500 個案例聽起來不少，但分散到 36 個專科和 12 種任務類型，每個細分類別的樣本量其實不大。某些小眾專科的評估結果可能不夠穩定。

第二，「臨床專家策劃」的品質高度依賴專家的代表性。不同醫院、不同地區的臨床實踐可能有差異，benchmark 能否反映這種多樣性是個問號。

第三，dual-judge 的設計很聰明，但蒸餾模型的評估品質跟大模型之間的 gap 有多大，論文裡的數據值得仔細看。如果 gap 太大，用小模型做大規模評估的結論可靠性就要打折扣。

論文連結：https://arxiv.org/abs/2603.02097

#GenAI #MedicalAI #Benchmark #LLMEvaluation #ClinConsensus