2026-06-19 · Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

📌 Taylor-Calibrate：透過原則性初始化優化混合線性注意力蒸餾

TL;DR：利用教師模型注意力統計量與對齊步驟，提升預訓練 Transformer 轉換至混合線性注意力模型的效能。

在追求高效能推理的趨勢下，將傳統 Transformer 轉換為線性注意力（Linear Attention）模型已成為主流方向，但轉換過程中的效能損失往往是最大的痛點。

🤔 轉換過程中的效能損失問題

將預訓練的 Transformer 轉換為混合線性注意力模型時，如何讓新模型在初始化階段就盡可能貼近原有的知識，而非從零開始或僅靠簡單權重複製，是決定蒸餾效果的關鍵。

🧩 利用注意力統計量進行原則性初始化

這項名為 Taylor-Calibrate 的技術提出了一套新的初始化方法，其核心在於不再盲目轉換，而是透過以下路徑優化：

導入教師模型的注意力統計量（Teacher Attention Statistics）作為參考。
執行特定的對齊步驟（Alignment Steps），確保線性注意力機制在初始化時能更精準地模擬原有的注意力分佈。
透過這種原則性的初始化方式，強化從預訓練 Transformer 到混合線性注意力模型的轉換效率。

🎯 實務啟示

對於試圖將大型 Transformer 模型壓縮或轉換為線性注意力架構的工程師而言，這項研究提醒我們：權重初始化不應僅是數值複製，而應考慮「注意力分佈的對齊」。在蒸餾流程中加入基於統計量的校準步驟，能有效降低模型轉換後的效能落差。

🔗 來源

標題：Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation
連結：https://huggingface.co/papers/2606.16429

#AI #MachineLearning #LinearAttention #Transformer #KnowledgeDistillation #ModelCompression #Initialization #DeepLearning #EfficientAI #TaylorCalibrate

同來源相關文章