How we contain Claude across products
https://www.anthropic.com/engineering/how-we-contain-claude📌 【Anthropic Engineering】如何在多產品中限制 Claude 的 blast radius
你以為讓 AI 獲得更多存取權只會帶來生產力提升?
Anthropic 的實測顯示,權限開大後,內部服務被誤關的風險也在同步上升。
這正是他們今天必須解決的「爆炸半徑」問題。
🤔 AI 能力提升伴隨風險雙升
隨著 Claude 在 claude.ai、Claude Code 與 Cowork 等產品中被賦予更多任務,其潛在破壞範圍(blast radius)也隨之擴大。風險由兩部分組成:失敗發生的機率,以及單次失敗可能造成的損害大小。防護措施與模型訓練的進步成功降低了前者,但後者則會隨著能力與存取權的增加而持續成長。
🧪 在三個產品中實施 containment 的做法
Anthropic 的工程團隊先後在 claude.ai(對話介面)、Claude Code(程式輔助)與 Cowork(協作平台)上部署了防護機制。其中包括:
- 透過環境控制來限制 agent 能造成的相對損害;
- 在 Claude Code 中採用 human‑in‑the-loop,每一步動作都要求使用者授權;
- 持續監測遙測資料,觀察使用者對建議動作的批准比例。
human‑in‑the-loop 並非萬靈藥
遙測顯示,使用者大約同意了 93% 的建議動作。這意味著即使有授權機制,仍有約 7% 的操作可能被誤核准,導致非預期行為發生。此外,團隊曾指出,單純依賴人工確認在實務上會變得脆弱,無法完全消除風險。
💡 爆炸半徑的兩面性與權衡
雖然提升 Claude 的能力會讓爆炸半徑變大,但不部署同樣帶來機會成本。當關鍵系統被加固、防護措施成熟時,即使存在剩餘風險,高實用值的模型也變得適合廣泛發行。這正是他們認為 Claude Mythos Preview 在 2026 年 4 月仍未發布的原因——其 blast radius 被評估為過高,但隨著防護能力提升,未來較有可能開放。
⚠️ 工程經驗的限制
- 所述經驗主要來自內部遙測與產品觀察,未進行對照實驗或統計顯著性檢驗;
- 人機互動的 93% 同意率僅反映特定使用情境,不同使用者族群或任務類型可能有所不同;
- 防護措施的效能會隨著模型版本與部署環境變化而需重新評估。
🎯 對建置 agentic 系統的實務建議
- 將 blast radius 視為可管理的參數,透過環境隔離與最小權限原則來設定上限;
- 在 human‑in‑the-loop 中補充自動化檢查(例如規則引擎或第二層模型),以降低人工疏失的影響;
- 持續收集遙測資料,監測使用者同意率與異常行為,以便及時調整防護門檻;
- 在關鍵基礎設施完成加固之前,對具高 blast radius 的模型採取漸進式發佈,先在受控環境驗證安全性。
🔗 原始參考
📝 How we contain Claude across products
👤 Anthropic Engineering
🔗 https://www.anthropic.com/engineering/how-we-contain-claude
你在使用 Claude 或其他 agent 時,是否也設定過類似的「權限上限」?歡迎在留言區分享你的經驗與做法 👇
#AI安全 #AgenticAI #Claude #Anthropic #爆炸半徑 #人機協作 #工程實務
由 tencent/hy3-preview:free 自動生成