Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding
https://huggingface.co/papers/2605.29707📌 【Domino】解耦因果建模與自回歸草稿,提升 LLM 推理速度
你以為加速 LLM 推理只能靠更大模型或更多運算資源?Domino 提出了一種全新的思路——將因果建模與自回歸草稿的步驟分離,以平行主幹搭配輕量級校正頭來達成顯著的速度提升。
🤔 為何需要跳過傳統自回歸瓶頸?
當前大型語言模型在生成時必須一個 token 一個 token 依序產生,這使得因果依賴成為吞吐量的主要限制。雖然投機解碼(speculative decoding)已嘗試用草稿模型預測多個 token 再進行驗證,但草稿與驗證仍受到嚴格的自回歸因果約束,難以完全發揮平行運算的優勢。Domino 的核心動機正是要在不犧牲模型準確性的前提下,解開這層因果鏈。
🧪 平行主幹+輕量因果校正頭的設計
論文提出的框架將原本的自回歸草稿步驟拆分為兩個部分:
- 平行主幹(parallel backbone)負責同時處理多個 token 的特徵擷取,這一步不受因果順序限制,可完全利用硬體的平行運算能力。
- 輕量因果校正頭(lightweight causal refinement head)則在主幹輸出之後,僅補充必要的因果依賴資訊,以確保最終輸出符合自回歸模型的機率分布。
這種「先平行計算,再輕量校正」的架構讓模型在保持原始分布不變的同時,大幅減少了逐 token 等待的時間。
🚀 端到端執行與吞吐量皆見顯著提升
實驗顯示,Domino 在端到端執行時間與每秒處理的 token 數(throughput)上均獲得顯著改善。具體數值未在摘要中詳述,但作者強調這些提升在不同設定下皆具統計顯著性,意味著該方法能在不增加模型參數或犧牲生成品質的前提下,實際加速推理流程。
💡 因果建模的「預先計算」與「事後補正」
傳統自回歸模型必須等待前一個 token 的機率分布確定後才能繼續,這導致硬體經常處於等待狀態。Domino 透過先讓平行主幹對所有候選 token 進行特徵編碼,再用極小的校正頭把因果資訊「補回」去,使得計算與記憶體存取能更緊密地重疊。這種設計不僅提升了硬體利用率,也為未來結合其他投機解碼技術(如樹狀草稿、多樣本驗證)提供了模組化的擴充空間。
⚠️ 目前尚未見開源程式碼與詳細消融實驗
雖然論文已闡明方法的核心概念與實驗優勢,但公開資訊中未提及程式碼庫的發布位置,亦未提供在不同模型規模、資料集或解碼策略下的更細膩消融結果。這意味著工程師在直接移植至生產環境前,仍需自行驗證其在特定硬體與工作負載下的實際表現。
🎯 對工程師的實務啟示
- 若你的系統主要受限於自回歸生成的延遲,可考慮採用「平行特徵擷取+輕量因果校正」的框架思路。
- 在保持模型權重不變的前提下,這種結構易於現有推理引擎(如 TensorRT、vLLM)作為一個前處理或後處理模組進行實驗。
- 未來可嘗試將此想法與其他投機解碼草稿(例如基於小模型的看ahead)結合,以進一步壓縮驗證步驟的開銷。
🔗 論文連結
📝 Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding
👤 作者:未在來源中註明
🔗 https://huggingface.co/papers/2605.29707
你在推理加速上的實驗是否也嘗試過「先算後改」的策略?歡迎在留言區分享你的經驗與觀察 👇
#AI #LLM #SpeculativeDecoding #InferenceOptimization #HuggingFace #Domino #機器學習 #深度學習
由 tencent/hy3-preview:free 自動生成