Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
https://arxiv.org/abs/2605.23170📌 【北京交通大學等最新研究】長文本LLM的致命盲點:位置失效導致推理驟降
隨著 64K、甚至 128K 上下文窗口成為主流,評估長文本模型的推理能力變得愈發重要。然而,現有的推理基準多半只關注「能否找到目標資訊」(如 Needle‑in‑a‑Haystack),卻很少檢查當目標任務被放在文本中間或開頭時,模型是否仍能正確推理。這種設計上的盲點,可能讓供應商在主力報表中看起來表現優秀,實際上在真實長文本場景中隱藏嚴重的位置相關失效。
🤔 現有推理基準沒控制任務位置,長文本評估可能遺失關鍵問題
針對 11 個長文本推理基準(含 GSM8K、ARC‑Challenge 等)進行審計,發現沒有一個同時控制「任務位置」「填充內容」與「上下文長度」。即便是四款旗艦長文本模型的主力報表,也鮮少出現 NIAH、RULER 或 LongBench 系列的結果,而代理與編程基準則佔據主要位置。這意味著,現行評估無法揭露位置變化對推理表現的影響。
🧪 提出 Context Rot Evaluation (CRE):同時控制任務位置、填充內容與長度
研究團隊設計了一種名為 Context Rot Evaluation (CRE) 的受控框架,系統性地改變三個變數:目標任務放在文本的開頭、中間或結尾;填充內容採用「只有問題」或「帶解答」的兩種版本;上下文長度則從 8K、32K 到 64K 逐級遞增。利用此框架,對九個長文本大語言模型(初期五模組 + 四款較新的供應商發布版)在 GSM8K 與 ARC‑Challenge 上進行兩輪測試。
📊 目標任務移至中間時,部分模型準驟降達 88 個百分點
在「帶解答」填充條件下,MiMo‑v2‑Flash 在 64K 長度時,從結尾位置的準確率驟降至中間位置僅 8%,相當於 88 個百分點 的下降(Cohen’s d 約 0.74,p=0.01)。相比之下,四款較新的供應商發布版在同一條件下,三款能保持在結尾準確率 ±6 個百分點內;MiMo‑V2.5‑Pro 將原本的 88pp 差距縮小至 32pp。即使換成「只有問題」填充,所有較新模型在 8K、32K、64K 長度下仍顯示中間位置的下降,幅度介於 ‑16pp 至 ‑56pp 之間。
🔍 深入分析:填充文字干擾是主導錯誤模式
進一步診斷顯示,在初期五模組中,有 76% 的中間位置錯誤答案實際上來自周圍的填充文字,而在結尾位置此比例僅為 22%。這說明當目標任務被嵌入長文本中間時,模型易受填充內容干擾,產生「填充答案干擾」的錯誤。當在文本末尾再放置一份目標任務的複製時(診斷探針),所有九個模型在中間位置的準確率恢復至與結尾基準相差 ±4 個百分點內,進一步支持「位置」而非「純粹能力」是造成表現下降的主要因素。
⚠️ 研究限制:僅測試兩個推理基準與九個模型,長效應與更多填充類型未探討
本研究的範圍聚焦於 GSM8K 與 ARC‑Challenge 兩個推理基準,以及九個具體長文本模型。未涵蓋更廣泛的任務類型(如多步驟規劃、代碼生成),亦未探討更長的上下文(超過 64K)或其他填充策略的影響。因此,結果主要反映在此特定設定下的位置敏感度,無法直接推廣至所有長文本使用情境。
🎯 實務啟示:評估長文本LLM時必須將位置變數納入基準,否則可能高估真實能力
對於工程師與產品團隊來說,僅看模型在結尾位置的高分可能會誤導決策。在實際應用中,使用者常會將問題嵌入長篇對話、文件或代碼庫的中間位置;若模型在此情況下顯著失準,將導致體驗斷裂或錯誤決策。建議未來的基準報表與供應商評估流程中,加入類似 CRE 的控制變數,特別是任務位置與填充內容的組合,以獲得更真實的長文本推理能力圖像。同時,開發者在微調或提示設計時,可考慮加入位置不變的檢查機制(如在關鍵任務兩端放置線索),以減輕位置相關的推理衰減。
🔗 論文連結
📝 Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
👤 Chuyifei Zhang, Hongyu Cui, Xiaowen Huang, Jitao Sang (Beijing Jiaotong University; Central South University of Forestry and Technology)
🔗 https://arxiv.org/abs/2605.23170
你在使用長文本模型時,是否曾經發現模型在「中間」位置的表現明顯下降?歡迎在留言區分享你的觀察與應對策略 👇
#AI #LongContextLLM #ReasoningBenchmarks #ContextRotEvaluation #MiMo #北京交通大學 #機器學習 #語言模型 #LLMEvaluation #技術深度
由 tencent/hy3-preview:free 自動生成