2026-07-01 · GEAR: Guided End-to-End AutoRegression for Image Synthesis

📌 GEAR：透過端到端聯合訓練，打破影像合成的 VQ 瓶頸

TL;DR：GEAR 透過表示對齊與雙讀出機制，實現 VQ Tokenizer 與自回歸生成器的端到端聯合訓練。

在傳統的自回歸影像合成流程中，VQ Tokenizer（向量量化分詞器）與後續的自回歸生成器通常是分開訓練的。這種分階段的設計導致生成器必須適應一個固定的量化空間，若 Tokenizer 的特徵表達不夠理想，後續的生成品質將面臨天花板。

🤔 解決非微分問題的端到端訓練

GEAR 提出了一種 Guided End-to-End AutoRegression 框架，旨在讓 VQ Tokenizer 與自回歸生成器在同一過程中共同演進。其核心挑戰在於量化過程（Quantization）通常是不可微的，導致梯度無法直接回傳。

🧩 利用表示對齊與雙讀出機制提升品質

為了克服上述問題，GEAR 引入了以下技術設計：

💡 同步演進帶來的高效能

相較於傳統分階段訓練，GEAR 的聯合訓練模式讓 Tokenizer 能根據生成器的需求動態調整特徵分佈，而非死板地遵循預訓練的量化碼本，從而提升整體的影像合成效能。

🎯 實務啟示

對於開發影像生成模型的工程師而言，GEAR 的設計證明瞭「聯合訓練」能比「分階段訓練」更有效地最佳化特徵品質。若目前的 VQ-VAE 或 VQGAN 瓶頸在於 Token 質素限制了生成器的表現，考慮引入表示對齊與可微的讀出機制可能是提升品質的關鍵方向。

🔗 來源

#AI #ImageSynthesis #Autoregressive #VQTokenizer #EndToEndTraining #ComputerVision #DeepLearning #RepresentationAlignment #GenerativeAI #GEAR

同來源相關文章