2026-05-25 · Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks

📌 【北京交通大學等最新研究】長文本LLM的致命盲點：位置失效導致推理驟降

隨著 64K、甚至 128K 上下文窗口成為主流，評估長文本模型的推理能力變得愈發重要。然而，現有的推理基準多半只關注「能否找到目標資訊」（如 Needle‑in‑a‑Haystack），卻很少檢查當目標任務被放在文本中間或開頭時，模型是否仍能正確推理。這種設計上的盲點，可能讓供應商在主力報表中看起來表現優秀，實際上在真實長文本場景中隱藏嚴重的位置相關失效。

🤔 現有推理基準沒控制任務位置，長文本評估可能遺失關鍵問題
針對 11 個長文本推理基準（含 GSM8K、ARC‑Challenge 等）進行審計，發現沒有一個同時控制「任務位置」「填充內容」與「上下文長度」。即便是四款旗艦長文本模型的主力報表，也鮮少出現 NIAH、RULER 或 LongBench 系列的結果，而代理與編程基準則佔據主要位置。這意味著，現行評估無法揭露位置變化對推理表現的影響。

🧪 提出 Context Rot Evaluation (CRE)：同時控制任務位置、填充內容與長度
研究團隊設計了一種名為 Context Rot Evaluation (CRE) 的受控框架，系統性地改變三個變數：目標任務放在文本的開頭、中間或結尾；填充內容採用「只有問題」或「帶解答」的兩種版本；上下文長度則從 8K、32K 到 64K 逐級遞增。利用此框架，對九個長文本大語言模型（初期五模組 + 四款較新的供應商發布版）在 GSM8K 與 ARC‑Challenge 上進行兩輪測試。

📊 目標任務移至中間時，部分模型準驟降達 88 個百分點
在「帶解答」填充條件下，MiMo‑v2‑Flash 在 64K 長度時，從結尾位置的準確率驟降至中間位置僅 8%，相當於 88 個百分點 的下降（Cohen’s d 約 0.74，p=0.01）。相比之下，四款較新的供應商發布版在同一條件下，三款能保持在結尾準確率 ±6 個百分點內；MiMo‑V2.5‑Pro 將原本的 88pp 差距縮小至 32pp。即使換成「只有問題」填充，所有較新模型在 8K、32K、64K 長度下仍顯示中間位置的下降，幅度介於 ‑16pp 至 ‑56pp 之間。

🔍 深入分析：填充文字干擾是主導錯誤模式
進一步診斷顯示，在初期五模組中，有 76% 的中間位置錯誤答案實際上來自周圍的填充文字，而在結尾位置此比例僅為 22%。這說明當目標任務被嵌入長文本中間時，模型易受填充內容干擾，產生「填充答案干擾」的錯誤。當在文本末尾再放置一份目標任務的複製時（診斷探針），所有九個模型在中間位置的準確率恢復至與結尾基準相差 ±4 個百分點內，進一步支持「位置」而非「純粹能力」是造成表現下降的主要因素。

⚠️ 研究限制：僅測試兩個推理基準與九個模型，長效應與更多填充類型未探討
本研究的範圍聚焦於 GSM8K 與 ARC‑Challenge 兩個推理基準，以及九個具體長文本模型。未涵蓋更廣泛的任務類型（如多步驟規劃、代碼生成），亦未探討更長的上下文（超過 64K）或其他填充策略的影響。因此，結果主要反映在此特定設定下的位置敏感度，無法直接推廣至所有長文本使用情境。

🎯 實務啟示：評估長文本LLM時必須將位置變數納入基準，否則可能高估真實能力
對於工程師與產品團隊來說，僅看模型在結尾位置的高分可能會誤導決策。在實際應用中，使用者常會將問題嵌入長篇對話、文件或代碼庫的中間位置；若模型在此情況下顯著失準，將導致體驗斷裂或錯誤決策。建議未來的基準報表與供應商評估流程中，加入類似 CRE 的控制變數，特別是任務位置與填充內容的組合，以獲得更真實的長文本推理能力圖像。同時，開發者在微調或提示設計時，可考慮加入位置不變的檢查機制（如在關鍵任務兩端放置線索），以減輕位置相關的推理衰減。

🔗 論文連結
📝 Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
👤 Chuyifei Zhang, Hongyu Cui, Xiaowen Huang, Jitao Sang (Beijing Jiaotong University; Central South University of Forestry and Technology)
🔗 https://arxiv.org/abs/2605.23170

你在使用長文本模型時，是否曾經發現模型在「中間」位置的表現明顯下降？歡迎在留言區分享你的觀察與應對策略 👇

#AI #LongContextLLM #ReasoningBenchmarks #ContextRotEvaluation #MiMo #北京交通大學 #機器學習 #語言模型 #LLMEvaluation #技術深度

同來源相關文章