2026-05-22 · Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most

📌 【Forecasting Research Institute】更強的 LLM 反而預測失準？超線性增長場景的逆向擴大現象

你以為模型越大、越會「思考」，預測就一定越準？在爆發式疫情、房價飛漲或惡性通貨膨脹這類會突然失控的時間序列上，事實卻可能恰好相反——能力越強的 LLM，在關鍵的上尾風險上反而越容易犯錯。

🤔 當 AI 預測遇上爆發式增長，傳統指標可能在說謊
許多 LLM 預測基準只看「是否超過某個門檻」（例如確診人數是否超過 10 萬），這類二元指標在線性或平穩趨勢上表現不錯。但當底層過程具備 超線性增長 與 尾部風險（如傳染病的 SIR 模型、房市泡沫）時，模型的分布預測會在極端值上產生系統性偏差，而門檻指標完全看不出來。

🧪 用無污染的模擬世界 FBSim 測真實疫情與房市
研究團隊首次提出 ForecastBench‑Sim (FBSim)，一個全合成、無資料洩漏的基準。在 FBSim 上他們模擬了符合 SIR 動態的疫情序列，並設置一個線性對照組；同時也在真實的 COVID‑19、麻疹、美國房價及南蘇丹惡性通貨膨脹資料上進行驗證。所有實驗均使用相同的提示與取樣設定，只變換模型的規模與後訓練方式。

🔍 能力越強，上尾預測越飛高，實際誤差變大
在 FBSim 與四個真實資料集上，更強的 LLM（參數更多、經過更多後訓練）在上分位數（例如 90%、95%、99%）的預測誤差顯著上升，而下分位數則幾乎未變。具體來說，上尾的平均誤差隨模型能力提升而增加，導致整個分布的校準變差——模型傾向於給出過於激進的外推，好像把增長曲線一直往上拉。

💡 模型追逐激進外推，忽略低尾分布，導致校準失準
進一步的 per‑quantile 分解 顯示，問題集中在上尾：更強的模型會把預測分佈的上端整體向上移，以追隨它們從歷史數據中學到的「超線性趨勢」。可是，當真實系統可能因政策介入、行為改變或外部衝擊而進入新 regime（例如封城、疫苗）時，這種外推就變成了誤差的主要來源。低尾因為仍然貼近實際觀測值，誤差幾乎不受模型能力影響。

⚠️ 僅看分位數誤差，未探討因果機制，真實資料樣本有限
研究主要透過分位數誤差與模型規模/後訓練的關係來證實逆向擴大現象；未深入探討為何特定訓練目標會導致這種偏差。真實世界資料集的時間長度與變數數量有限，無法完全排除其他混雜因素（如資料收集偏誤）的影響。此外，實驗僅針對單輪預測，長期遞迴預測的行為仍需後續工作檢驗。

🎯 預測評估該用連續得分而非 soltanto 閾值指標
對於金融、流行病學或任何具尾部風險的領域，建議評估 LLM 預測時 同時使用：

連續、無上限的誤差度量（例如 CRPS、均方誤差於完整分布）
傳統的二元門檻指標（如是否超過某臨界值）

只有當兩種指標一起看時，才能避免「模型在門檻上看似準確，卻在極端風險上大幅失準」的盲點。工程師在部署 LLM 預測模型時，應該在訓練目標與評估指標中明確納入尾部敏感度，否則可能在關鍵時刻低估風險。

🔗 論文連結
📝 Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
👤 Nick Merrill, Jaeho Lee, Ezra Karger @ Forecasting Research Institute; UC Berkeley
🔗 https://arxiv.org/abs/2605.22672

你在使用 AI 做時間序列預測時，有沒有注意到模型越大反而越樂觀？歡迎在留言區分享你的經驗與觀察 👇

#AI #Forecasting #LLM #機器學習 #金融科技 #流行病學 #風險管理 #UCBerkeley #ForecastingResearchInstitute

同來源相關文章