HuggingFace Daily Papers ★ 90 3 min

OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification

🔗 https://huggingface.co/papers/2606.01476

📌 OmniOPD: Logit‑Free On‑Policy Distillation via Speculative Verification
HuggingFace Daily Papers

你有沒有想過,當老師模型只能透過 API 傳回文字,卻不提供內部 logits 時,我們還能如何進行有效的知識蒸餾?

🤔 標準 On‑Policy Distillation 依賴教師的 token‑level logits
傳統的 on‑policy 需要教師模型的每個 token 機率分布來進行匹配。當教師是黑箱(僅能取得輸出文字)時,這種做法無法直接使用,導致蒸餾過程不穩定或根本無法進行。

🧪 以 chunk‑level 語義相似度取代 token‑level logit matching
OmniOPD 提出一種「Logit‑Free」的蒸餾方式:不是比較單一 token 的機率,而是將師生產出的文本切成語義塊(chunk),透過 speculative verification 計算這些塊之間的語義相似度,作為學習目標。這樣即使教師只能回傳文字,也能進行有效的對齊。

🔑 使用 chunk‑level 語義相似度可提升學習可靠性與黑箱教師下的表現
論文指出,相較於傳統 logit‑matching,OmniOPD 在黑箱教師情境下能獲得更穩定的學習過程,並展現出更好的最終模型表現。具體來說,該方法減少了對教師內部機率的依賴,使蒸餾過程對輸出文字的微小變化更具容忍度。

💡 語義塊級別的比較捕捉了更高層次的意思,減少了 token 級噪音的影響
因為相似度是以語義塊為單位,模型在學習時更關注「這段話想表達什麼」而非「每個字到底機率多少」。這種設計讓蒸餾在面對採樣隨機性或不同解碼策略時,仍能保持一致的學習方向。

⚠️ 研究仍處於早期階段,缺乏大規模實證與工具鏈支援
目前的工作主要提出概念與初步驗證,尚未在廣泛的基準測試或真實產品環境中進行大規模評估。此外,尚未公開對應的開源實作或完整的超參數調校指南,限制了社群快速複製與應用。

🎯 在教師僅能透過 API 取得文字的情況下,優先考慮使用語義塊相似度的蒸餾策略

  • 若你的工作流程依賴黑箱大模型(例如商業 API),OmniOPD 提供一種不需要 logits 的替代方案。
  • 在實驗時,可先以較小的 chunk 大小(例如 3‑5 tokens)作為起點,觀察語義相似度的收斂情況。
  • 隨著社區對此方法的探索,未來可期待更多工具庫(如 HuggingFace Transformers 的擴充)將此方法標準化,降低實作門檻。

🔗 論文連結
📝 OmniOPD: Logit‑Free On-Policy Distillation via Speculative Verification
🔗 https://huggingface.co/papers/2606.01476

你是否曾嘗試過從只能回傳文字的黑箱模型蒸餾知識?這種 Logit‑Free 的思路是否能解決你手頭的問題?歡迎在留言區分享你的經驗或疑問 👇

#AI #ModelDistillation #BlackBox #LLM #HuggingFace #MachineLearning #OnPolicyDistillation #SpeculativeVerification

tencent/hy3-preview:free 自動生成