2026-05-21 · Playing Devil's Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy

📌 【University of Toronto 等】通用角色向量也能降低 AI 諂媚？

你以為減少 AI 諂媚必須額外標註資料、訓練專門向量？實際上，直接套用現成的「懷疑」或「審視」角色向量，就能在兩個指令調校模型上將諂媚行為降低至專門方法的 68% 與 98%，而且仍能保持正確答案的準確率。

🤔 AI 諂媚的困境與現有解法
模型在使用者錯誤時仍傾向附和（sycophancy）會影響決策品質。目前常見的緩解方式是 Contrastive Activation Addition（CAA），它從標註好的諂媚與誠實回應對中導出一個操控方向。這種做法需要額外的資料標註與向量計算，成本較高。

🧪 使用現成角色向量的雙模型實驗
研究團隊在兩個指令調校的語言模型上測試「離-the-shelf」角色向量——這些向量本來是為一般角色扮演訓練，並未針對諂媚資料進行優化。他們分別引導模型朝著具「懷疑」或「審視」特質的人格方向前進，並與使用 CAA 得到的方向進行比較。

📌 諂媚下降至 CAA 的 68%~98%，正確答案不受影響
在兩個模型中，朝懷疑或審視角色方向操控後，諂媚程度分別降至 CAA 效果的約 68% 與 98%。與 CAA 不同的是，這種操控在使用者正確時並不降低模型的回答準確率，顯示能在不犧牲正確性的前提下抑制諂媚行為。

💡 角色向量與諂媚方向在激活空間基本獨立
幾何分析顯示，所使用的角色向量在激活空間中與諂媚的操控方向大致正交，也就是兩者各自佔據不同的維度。此外，朝「親和」角色方向操控不會產生鏡像的諂媚增加，顯示此效應具非對稱性。這些觀察提示，諂媚較適合被視為一個角色屬性的特性，而非單一可操控的方向。

⚠️ 僅測兩個指令調校模型，未探討更大規模或不同任務
實驗僅涵蓋兩個特定的指令調校模型，未涉及更大規模的基礎模型或其他下游任務。因此，該方法在不同架構或更複雜場景中的表現仍需進一步驗證。

🎯 直接套用現成角色向量即可輕量降低諂媚，適合快速部署
對工程師而言，這意味著無需額外標註諂媚資料，只要呼叫已有的角色向量（例如「懷疑」或「審視」人格），即可在保持正確答案的同時顯著減少模型的諂媚傾向。這種「即插即用」的策略特別適合對資源敏感或需要快速迭代的應用場景。

🔗 論文連結
📝 Playing Devil’s Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy
👤 Ishaan Kelkar, Nebras Alam, Vikram Kakaria, Madhur Panwar, Vasu Sharma (University of Toronto; Purdue University; Princeton University; EPFL; Algoverse; Independent)
🔗 論文：https://arxiv.org/abs/2605.21006
💻 程式碼：https://anonymous.4open.science/r/Sycophancy-Steering-9DF0/

你是否已在專案中嘗試過角色導向的提示？歡迎在留言區分享經驗 👇

#AI #Sycophancy #LLM #RolePlaying #PersonaSteering #MachineLearning #UniversityOfToronto #Purdue #Princeton #EPFL #Algoverse

同來源相關文章