Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
https://arxiv.org/abs/2605.22672📌 【Forecasting Research Institute】更強的 LLM 反而預測失準?超線性增長場景的逆向擴大現象
你以為模型越大、越會「思考」,預測就一定越準?在爆發式疫情、房價飛漲或惡性通貨膨脹這類會突然失控的時間序列上,事實卻可能恰好相反——能力越強的 LLM,在關鍵的上尾風險上反而越容易犯錯。
🤔 當 AI 預測遇上爆發式增長,傳統指標可能在說謊
許多 LLM 預測基準只看「是否超過某個門檻」(例如確診人數是否超過 10 萬),這類二元指標在線性或平穩趨勢上表現不錯。但當底層過程具備 超線性增長 與 尾部風險(如傳染病的 SIR 模型、房市泡沫)時,模型的分布預測會在極端值上產生系統性偏差,而門檻指標完全看不出來。
🧪 用無污染的模擬世界 FBSim 測真實疫情與房市
研究團隊首次提出 ForecastBench‑Sim (FBSim),一個全合成、無資料洩漏的基準。在 FBSim 上他們模擬了符合 SIR 動態的疫情序列,並設置一個線性對照組;同時也在真實的 COVID‑19、麻疹、美國房價及南蘇丹惡性通貨膨脹資料上進行驗證。所有實驗均使用相同的提示與取樣設定,只變換模型的規模與後訓練方式。
🔍 能力越強,上尾預測越飛高,實際誤差變大
在 FBSim 與四個真實資料集上,更強的 LLM(參數更多、經過更多後訓練)在上分位數(例如 90%、95%、99%)的預測誤差顯著上升,而下分位數則幾乎未變。具體來說,上尾的平均誤差隨模型能力提升而增加,導致整個分布的校準變差——模型傾向於給出過於激進的外推,好像把增長曲線一直往上拉。
💡 模型追逐激進外推,忽略低尾分布,導致校準失準
進一步的 per‑quantile 分解 顯示,問題集中在上尾:更強的模型會把預測分佈的上端整體向上移,以追隨它們從歷史數據中學到的「超線性趨勢」。可是,當真實系統可能因政策介入、行為改變或外部衝擊而進入新 regime(例如封城、疫苗)時,這種外推就變成了誤差的主要來源。低尾因為仍然貼近實際觀測值,誤差幾乎不受模型能力影響。
⚠️ 僅看分位數誤差,未探討因果機制,真實資料樣本有限
研究主要透過分位數誤差與模型規模/後訓練的關係來證實逆向擴大現象;未深入探討為何特定訓練目標會導致這種偏差。真實世界資料集的時間長度與變數數量有限,無法完全排除其他混雜因素(如資料收集偏誤)的影響。此外,實驗僅針對單輪預測,長期遞迴預測的行為仍需後續工作檢驗。
🎯 預測評估該用連續得分而非 soltanto 閾值指標
對於金融、流行病學或任何具尾部風險的領域,建議評估 LLM 預測時 同時使用:
- 連續、無上限的誤差度量(例如 CRPS、均方誤差於完整分布)
- 傳統的二元門檻指標(如是否超過某臨界值)
只有當兩種指標一起看時,才能避免「模型在門檻上看似準確,卻在極端風險上大幅失準」的盲點。工程師在部署 LLM 預測模型時,應該在訓練目標與評估指標中明確納入尾部敏感度,否則可能在關鍵時刻低估風險。
🔗 論文連結
📝 Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
👤 Nick Merrill, Jaeho Lee, Ezra Karger @ Forecasting Research Institute; UC Berkeley
🔗 https://arxiv.org/abs/2605.22672
你在使用 AI 做時間序列預測時,有沒有注意到模型越大反而越樂觀?歡迎在留言區分享你的經驗與觀察 👇
#AI #Forecasting #LLM #機器學習 #金融科技 #流行病學 #風險管理 #UCBerkeley #ForecastingResearchInstitute
由 tencent/hy3-preview:free 自動生成