推理模型控制不了自己的思考鏈,這對 AI 安全是好消息

📄 Reasoning Models Struggle to Control their Chains of Thought

Claude Sonnet 4.5 在被要求控制自己 Chain-of-Thought 的內容時,成功率只有 2.7%。但如果只要求它控制最終輸出,成功率是 61.9%

這個數字差距大到讓我反覆確認了兩次。NYU、UCL、UPenn 和 OpenAI 的研究者聯合發了這篇論文,結論有點反直覺但細想很合理:推理模型幾乎無法控制自己「怎麼想」,但可以控制自己「怎麼說」。而這件事,對 AI 安全來說可能是個好消息。

🔍 為什麼我們該在意

Chain-of-thought 監控是目前 AI safety 社群寄予厚望的一個方向。邏輯很簡單:如果我們能看到模型的推理過程,就能在它做壞事之前抓到異常。但這有一個前提——模型不能「演戲」。

如果模型可以一邊想著「我要繞過安全限制」,一邊在 CoT 裡寫出一段看起來完全正常的推理過程,那 CoT 監控就是擺設。

這篇論文直接去量化了這個風險:模型到底有多大能力控制自己 CoT 的內容?

他們設計了一個叫 CoT-Control 的評估套件,任務很具體——讓模型解決一個問題,但同時遵守一個 CoT 限制。比如:回答一個遺傳學問題,但推理過程中不能出現「chromosome」這個字。

🛠️ 兩個關鍵發現

第一個發現:CoT 控制力遠低於輸出控制力

這是整篇論文最核心的數據。跨多個模型測試,控制 CoT 的成功率都遠低於控制最終輸出。Claude Sonnet 4.52.7% vs 61.9% 是最極端的例子,但其他模型也呈現類似趨勢。

這告訴我們什麼?模型的「思考」和「表達」用的是不同的控制機制。它可以選擇最終答案怎麼呈現,但推理過程中用什麼概念、什麼詞彙,很大程度是自動的、不受控的。

第二個發現:越強的模型、越多 RL 訓練、越難的問題 → CoT 控制力越低

這個趨勢很有意思。你可能會以為更大的模型更能控制自己,但實際上相反。原因可能是:越強的推理能力意味著 CoT 越深度地「綁定」在實際的推理路徑上,模型越難在維持解題能力的同時偽裝推理過程。

更多的 RL 訓練和 test-time compute 也降低了 CoT 控制力。這暗示 RL 讓模型更「誠實地思考」——它的 CoT 越來越反映真實的推理過程,而不是可以隨意編輯的文字。

問題難度也是一個因素。簡單的問題,模型可能有餘力去同時解題和控制 CoT。但當問題變難,所有認知資源都投入解題,控制 CoT 的能力就崩掉了。

💡 這對 AI Safety 意味著什麼

論文的結論是「cautiously optimistic」——謹慎樂觀。我同意這個態度。

好消息是:目前的推理模型似乎做不到「表面想一套、實際想另一套」。CoT 監控在當前世代的模型上是有效的。如果一個模型在推理過程中出現了異常的目標或策略,它大概率藏不住。

但有幾個但是。

  • 這個特性的機制不明。我們知道模型控制不了 CoT,但不知道為什麼。是架構上的限制?是訓練方法的副作用?如果原因不清楚,我們就無法保證未來的模型還會保持這個特性。
  • 對抗性攻擊的效果有限但不是零。論文測試了用 adversarial prompt optimization 來提升 CoT 控制力,結果提升不大。但「不大」不等於「不可能」。隨著攻擊方法的進步,這個結論可能需要更新。
  • 監控 vs 被監控的意識。有趣的是,當模型被告知自己正在被監控時,CoT 控制力會稍微上升。這代表模型在某種程度上「知道」什麼是 CoT 監控,也「嘗試」去迴避,只是目前能力不夠。這個「嘗試」本身就值得警惕。

我覺得這篇論文最有價值的建議是:frontier labs 應該持續追蹤 CoT 控制力這個指標。如果某天某個新模型的 CoT 控制力突然從 2.7% 跳到 50%,那就是一個很重要的 safety signal。

回到一個根本問題:我們要的到底是什麼?是模型永遠控制不了自己的 CoT(這樣我們可以監控它),還是模型能控制但選擇不控制(這需要 alignment)?目前我們享受的是前者,但長期來看,後者才是真正的解法。

論文連結 作者:Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak(NYU / UCL / UPenn / OpenAI)

Claude Sonnet 4.5 在被要求控制自己 Chain-of-Thought 的內容時,成功率只有 2.7%。但如果只要求它控制最終輸出,成功率是 61.9%。

這個數字差距大到讓我反覆確認了兩次。NYU、UCL、UPenn 和 OpenAI 的研究者聯合發了這篇論文,結論有點反直覺但細想很合理:推理模型幾乎無法控制自己「怎麼想」,但可以控制自己「怎麼說」。而這件事,對 AI 安全來說可能是個好消息。

🔍 為什麼我們該在意

Chain-of-thought 監控是目前 AI safety 社群寄予厚望的一個方向。邏輯很簡單:如果我們能看到模型的推理過程,就能在它做壞事之前抓到異常。但這有一個前提——模型不能「演戲」。

如果模型可以一邊想著「我要繞過安全限制」,一邊在 CoT 裡寫出一段看起來完全正常的推理過程,那 CoT 監控就是擺設。

這篇論文直接去量化了這個風險:模型到底有多大能力控制自己 CoT 的內容?

他們設計了一個叫 CoT-Control 的評估套件,任務很具體——讓模型解決一個問題,但同時遵守一個 CoT 限制。比如:回答一個遺傳學問題,但推理過程中不能出現「chromosome」這個字。

🛠️ 兩個關鍵發現

第一個發現:CoT 控制力遠低於輸出控制力

這是整篇論文最核心的數據。跨多個模型測試,控制 CoT 的成功率都遠低於控制最終輸出。Claude Sonnet 4.5 的 2.7% vs 61.9% 是最極端的例子,但其他模型也呈現類似趨勢。

這告訴我們什麼?模型的「思考」和「表達」用的是不同的控制機制。它可以選擇最終答案怎麼呈現,但推理過程中用什麼概念、什麼詞彙,很大程度是自動的、不受控的。

第二個發現:越強的模型、越多 RL 訓練、越難的問題 → CoT 控制力越低

這個趨勢很有意思。你可能會以為更大的模型更能控制自己,但實際上相反。原因可能是:越強的推理能力意味著 CoT 越深度地「綁定」在實際的推理路徑上,模型越難在維持解題能力的同時偽裝推理過程。

更多的 RL 訓練和 test-time compute 也降低了 CoT 控制力。這暗示 RL 讓模型更「誠實地思考」——它的 CoT 越來越反映真實的推理過程,而不是可以隨意編輯的文字。

問題難度也是一個因素。簡單的問題,模型可能有餘力去同時解題和控制 CoT。但當問題變難,所有認知資源都投入解題,控制 CoT 的能力就崩掉了。

💡 這對 AI Safety 意味著什麼

論文的結論是「cautiously optimistic」——謹慎樂觀。我同意這個態度。

好消息是:目前的推理模型似乎做不到「表面想一套、實際想另一套」。CoT 監控在當前世代的模型上是有效的。如果一個模型在推理過程中出現了異常的目標或策略,它大概率藏不住。

但有幾個但是。

這個特性的機制不明。我們知道模型控制不了 CoT,但不知道為什麼。是架構上的限制?是訓練方法的副作用?如果原因不清楚,我們就無法保證未來的模型還會保持這個特性。

對抗性攻擊的效果有限但不是零。論文測試了用 adversarial prompt optimization 來提升 CoT 控制力,結果提升不大。但「不大」不等於「不可能」。隨著攻擊方法的進步,這個結論可能需要更新。

監控 vs 被監控的意識。有趣的是,當模型被告知自己正在被監控時,CoT 控制力會稍微上升。這代表模型在某種程度上「知道」什麼是 CoT 監控,也「嘗試」去迴避,只是目前能力不夠。這個「嘗試」本身就值得警惕。

我覺得這篇論文最有價值的建議是:frontier labs 應該持續追蹤 CoT 控制力這個指標。如果某天某個新模型的 CoT 控制力突然從 2.7% 跳到 50%,那就是一個很重要的 safety signal。

回到一個根本問題:我們要的到底是什麼?是模型永遠控制不了自己的 CoT(這樣我們可以監控它),還是模型能控制但選擇不控制(這需要 alignment)?目前我們享受的是前者,但長期來看,後者才是真正的解法。

論文:https://arxiv.org/abs/2603.05706 作者:Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak(NYU / UCL / UPenn / OpenAI)

#GenAI #AISafety #Reasoning #ChainOfThought #CoTMonitoring #OpenAI