2026-03-09 · 推理模型控制不了自己的思考鏈，這對 AI 安全是好消息

Claude Sonnet 4.5 在被要求控制自己 Chain-of-Thought 的內容時，成功率只有 2.7%。但如果只要求它控制最終輸出，成功率是 61.9%。

這個數字差距大到讓我反覆確認了兩次。NYU、UCL、UPenn 和 OpenAI 的研究者聯合發了這篇論文，結論有點反直覺但細想很合理：推理模型幾乎無法控制自己「怎麼想」，但可以控制自己「怎麼說」。而這件事，對 AI 安全來說可能是個好消息。

🔍 為什麼我們該在意

Chain-of-thought 監控是目前 AI safety 社群寄予厚望的一個方向。邏輯很簡單：如果我們能看到模型的推理過程，就能在它做壞事之前抓到異常。但這有一個前提——模型不能「演戲」。

如果模型可以一邊想著「我要繞過安全限制」，一邊在 CoT 裡寫出一段看起來完全正常的推理過程，那 CoT 監控就是擺設。

這篇論文直接去量化了這個風險：模型到底有多大能力控制自己 CoT 的內容？

他們設計了一個叫 CoT-Control 的評估套件，任務很具體——讓模型解決一個問題，但同時遵守一個 CoT 限制。比如：回答一個遺傳學問題，但推理過程中不能出現「chromosome」這個字。

🛠️ 兩個關鍵發現

第一個發現：CoT 控制力遠低於輸出控制力

這是整篇論文最核心的數據。跨多個模型測試，控制 CoT 的成功率都遠低於控制最終輸出。Claude Sonnet 4.5 的 2.7% vs 61.9% 是最極端的例子，但其他模型也呈現類似趨勢。

這告訴我們什麼？模型的「思考」和「表達」用的是不同的控制機制。它可以選擇最終答案怎麼呈現，但推理過程中用什麼概念、什麼詞彙，很大程度是自動的、不受控的。

第二個發現：越強的模型、越多 RL 訓練、越難的問題 → CoT 控制力越低

這個趨勢很有意思。你可能會以為更大的模型更能控制自己，但實際上相反。原因可能是：越強的推理能力意味著 CoT 越深度地「綁定」在實際的推理路徑上，模型越難在維持解題能力的同時偽裝推理過程。

更多的 RL 訓練和 test-time compute 也降低了 CoT 控制力。這暗示 RL 讓模型更「誠實地思考」——它的 CoT 越來越反映真實的推理過程，而不是可以隨意編輯的文字。

問題難度也是一個因素。簡單的問題，模型可能有餘力去同時解題和控制 CoT。但當問題變難，所有認知資源都投入解題，控制 CoT 的能力就崩掉了。

💡 這對 AI Safety 意味著什麼

論文的結論是「cautiously optimistic」——謹慎樂觀。我同意這個態度。

好消息是：目前的推理模型似乎做不到「表面想一套、實際想另一套」。CoT 監控在當前世代的模型上是有效的。如果一個模型在推理過程中出現了異常的目標或策略，它大概率藏不住。

但有幾個但是。

這個特性的機制不明。我們知道模型控制不了 CoT，但不知道為什麼。是架構上的限制？是訓練方法的副作用？如果原因不清楚，我們就無法保證未來的模型還會保持這個特性。
對抗性攻擊的效果有限但不是零。論文測試了用 adversarial prompt optimization 來提升 CoT 控制力，結果提升不大。但「不大」不等於「不可能」。隨著攻擊方法的進步，這個結論可能需要更新。
監控 vs 被監控的意識。有趣的是，當模型被告知自己正在被監控時，CoT 控制力會稍微上升。這代表模型在某種程度上「知道」什麼是 CoT 監控，也「嘗試」去迴避，只是目前能力不夠。這個「嘗試」本身就值得警惕。

我覺得這篇論文最有價值的建議是：frontier labs 應該持續追蹤 CoT 控制力這個指標。如果某天某個新模型的 CoT 控制力突然從 2.7% 跳到 50%，那就是一個很重要的 safety signal。

回到一個根本問題：我們要的到底是什麼？是模型永遠控制不了自己的 CoT（這樣我們可以監控它），還是模型能控制但選擇不控制（這需要 alignment）？目前我們享受的是前者，但長期來看，後者才是真正的解法。

論文連結作者：Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak（NYU / UCL / UPenn / OpenAI）

Claude Sonnet 4.5 在被要求控制自己 Chain-of-Thought 的內容時，成功率只有 2.7%。但如果只要求它控制最終輸出，成功率是 61.9%。

🔍 為什麼我們該在意

如果模型可以一邊想著「我要繞過安全限制」，一邊在 CoT 裡寫出一段看起來完全正常的推理過程，那 CoT 監控就是擺設。

這篇論文直接去量化了這個風險：模型到底有多大能力控制自己 CoT 的內容？

他們設計了一個叫 CoT-Control 的評估套件，任務很具體——讓模型解決一個問題，但同時遵守一個 CoT 限制。比如：回答一個遺傳學問題，但推理過程中不能出現「chromosome」這個字。

🛠️ 兩個關鍵發現

第一個發現：CoT 控制力遠低於輸出控制力

這是整篇論文最核心的數據。跨多個模型測試，控制 CoT 的成功率都遠低於控制最終輸出。Claude Sonnet 4.5 的 2.7% vs 61.9% 是最極端的例子，但其他模型也呈現類似趨勢。

第二個發現：越強的模型、越多 RL 訓練、越難的問題 → CoT 控制力越低

問題難度也是一個因素。簡單的問題，模型可能有餘力去同時解題和控制 CoT。但當問題變難，所有認知資源都投入解題，控制 CoT 的能力就崩掉了。

💡 這對 AI Safety 意味著什麼

論文的結論是「cautiously optimistic」——謹慎樂觀。我同意這個態度。

但有幾個但是。

這個特性的機制不明。我們知道模型控制不了 CoT，但不知道為什麼。是架構上的限制？是訓練方法的副作用？如果原因不清楚，我們就無法保證未來的模型還會保持這個特性。

對抗性攻擊的效果有限但不是零。論文測試了用 adversarial prompt optimization 來提升 CoT 控制力，結果提升不大。但「不大」不等於「不可能」。隨著攻擊方法的進步，這個結論可能需要更新。

監控 vs 被監控的意識。有趣的是，當模型被告知自己正在被監控時，CoT 控制力會稍微上升。這代表模型在某種程度上「知道」什麼是 CoT 監控，也「嘗試」去迴避，只是目前能力不夠。這個「嘗試」本身就值得警惕。

我覺得這篇論文最有價值的建議是：frontier labs 應該持續追蹤 CoT 控制力這個指標。如果某天某個新模型的 CoT 控制力突然從 2.7% 跳到 50%，那就是一個很重要的 safety signal。

論文：https://arxiv.org/abs/2603.05706 作者：Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak（NYU / UCL / UPenn / OpenAI）

#GenAI #AISafety #Reasoning #ChainOfThought #CoTMonitoring #OpenAI