2026-06-02 · Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

📌 【Domino】解耦因果建模與自回歸草稿，提升 LLM 推理速度

你以為加速 LLM 推理只能靠更大模型或更多運算資源？Domino 提出了一種全新的思路——將因果建模與自回歸草稿的步驟分離，以平行主幹搭配輕量級校正頭來達成顯著的速度提升。

🤔 為何需要跳過傳統自回歸瓶頸？
當前大型語言模型在生成時必須一個 token 一個 token 依序產生，這使得因果依賴成為吞吐量的主要限制。雖然投機解碼（speculative decoding）已嘗試用草稿模型預測多個 token 再進行驗證，但草稿與驗證仍受到嚴格的自回歸因果約束，難以完全發揮平行運算的優勢。Domino 的核心動機正是要在不犧牲模型準確性的前提下，解開這層因果鏈。

🧪 平行主幹＋輕量因果校正頭的設計
論文提出的框架將原本的自回歸草稿步驟拆分為兩個部分：

平行主幹（parallel backbone）負責同時處理多個 token 的特徵擷取，這一步不受因果順序限制，可完全利用硬體的平行運算能力。
輕量因果校正頭（lightweight causal refinement head）則在主幹輸出之後，僅補充必要的因果依賴資訊，以確保最終輸出符合自回歸模型的機率分布。

這種「先平行計算，再輕量校正」的架構讓模型在保持原始分布不變的同時，大幅減少了逐 token 等待的時間。

🚀 端到端執行與吞吐量皆見顯著提升
實驗顯示，Domino 在端到端執行時間與每秒處理的 token 數（throughput）上均獲得顯著改善。具體數值未在摘要中詳述，但作者強調這些提升在不同設定下皆具統計顯著性，意味著該方法能在不增加模型參數或犧牲生成品質的前提下，實際加速推理流程。

💡 因果建模的「預先計算」與「事後補正」
傳統自回歸模型必須等待前一個 token 的機率分布確定後才能繼續，這導致硬體經常處於等待狀態。Domino 透過先讓平行主幹對所有候選 token 進行特徵編碼，再用極小的校正頭把因果資訊「補回」去，使得計算與記憶體存取能更緊密地重疊。這種設計不僅提升了硬體利用率，也為未來結合其他投機解碼技術（如樹狀草稿、多樣本驗證）提供了模組化的擴充空間。

⚠️ 目前尚未見開源程式碼與詳細消融實驗
雖然論文已闡明方法的核心概念與實驗優勢，但公開資訊中未提及程式碼庫的發布位置，亦未提供在不同模型規模、資料集或解碼策略下的更細膩消融結果。這意味著工程師在直接移植至生產環境前，仍需自行驗證其在特定硬體與工作負載下的實際表現。

🎯 對工程師的實務啟示

若你的系統主要受限於自回歸生成的延遲，可考慮採用「平行特徵擷取＋輕量因果校正」的框架思路。
在保持模型權重不變的前提下，這種結構易於現有推理引擎（如 TensorRT、vLLM）作為一個前處理或後處理模組進行實驗。
未來可嘗試將此想法與其他投機解碼草稿（例如基於小模型的看ahead）結合，以進一步壓縮驗證步驟的開銷。

🔗 論文連結
📝 Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding
👤 作者：未在來源中註明
🔗 https://huggingface.co/papers/2605.29707

你在推理加速上的實驗是否也嘗試過「先算後改」的策略？歡迎在留言區分享你的經驗與觀察 👇

#AI #LLM #SpeculativeDecoding #InferenceOptimization #HuggingFace #Domino #機器學習 #深度學習

同來源相關文章