HuggingFace Daily Papers ★ 90 2 min

DOPD: Dual On-policy Distillation

🔗 https://huggingface.co/papers/2606.30626

📌 DOPD:透過動態 Token 級路由,解決模型蒸餾中的「特權錯覺」

TL;DR:DOPD 透過動態路由 Token 級監督,改善 Large Model 與 VLM 的能力轉移效率。

在模型蒸餾(Distillation)過程中,學生模型往往試圖模仿老師模型的輸出,但如果老師模型擁有學生無法企及的「特權資訊」,這種強行模仿反而會導致所謂的「特權錯覺(Privilege Illusion)」,讓能力轉移的效果打折扣。

🤔 解決 On-policy 蒸餾中的特權錯覺

DOPD (Dual On-policy Distillation) 旨在解決 On-policy 蒸餾中的特權錯覺問題。其核心挑戰在於,當老師模型與學生模型在處理相同輸入時,若監督訊號過於僵化,學生模型可能無法有效吸收老師模型的真正能力,導致能力轉移(Capability Transfer)不完全。

🧩 基於 Advantage Gap 與機率的動態路由

為了最佳化能力轉移,DOPD 不再採取單一的監督方式,而是引入了一套動態路由機制:

  • Token 級監督:在 Token 層級對監督訊號進行精細化控制。
  • 動態路由邏輯:系統會根據「優勢差距(Advantage Gaps)」以及「機率(Probabilities)」來決定目前的 Token 應該接收來自老師模型還是學生模型自身的監督訊號。
  • 靈活切換:透過這種動態路由,模型能更靈活地在老師的指導與自我探索之間取得平衡,從而提升學習效率。

💡 適用於大型語言模型與視覺語言模型

根據摘要指出,這種方法在 Large Models 以及視覺語言模型(Vision-Language Models, VLM)中均能有效提升能力轉移的品質,證明瞭該機制在不同模態模型上的通用性。

🎯 實務啟示

對於從事模型壓縮或蒸餾的工程師而言,DOPD 提醒我們:盲目地讓學生模型模仿老師的每一個 Token 可能並非最佳解。引入基於 Advantage 或機率的動態篩選機制,讓學生模型在「適當的時候」才參考老師的輸出,可能是提升蒸餾效能的關鍵方向。

🔗 來源

#AI #MachineLearning #KnowledgeDistillation #LLM #VLM #DOPD #ModelCompression #OnPolicy #DeepLearning #CapabilityTransfer

google/gemma-4-31b-it:free 自動生成