2026-07-02 · VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

📌 【Apple 研究】VideoFlexTok：用「粗到細」的可變長度 Token 降低影片生成門檻

TL;DR：透過將影片轉化為由淺入深的變長序列，在維持品質下將模型規模縮小 5 倍，並大幅降低長影片生成成本。

目前的影片 Tokenization 習慣將影片視為一個 3D 網格（3D grid），這意味著無論影片內容簡單或複雜，後端模型都必須「逐畫素」地學習所有低階細節。這種做法導致學習複雜度極高，且在處理長影片時會面臨巨大的計算壓力。

🤔 擺脫 3D 網格的固定成本

傳統的 3D 網格 Tokenizer 強制要求模型處理所有區域性資訊，而 Apple 提出的 VideoFlexTok 改變了這個邏輯。它將影片表示為一個「可變長度」的 Token 序列，並採用「由粗到細」（coarse-to-fine）的結構：

🧩 可靈活調整的生成流解碼器

VideoFlexTok 搭配一個生成流解碼器（generative flow decoder），使其能根據任何 Token 數量還原出真實的影片。這種設計帶來兩個核心優勢：

📊 模型規模縮小 5 倍，品質依然相當

在類別生成（class-to-video）與文字生成影片（text-to-video）的任務評估中，VideoFlexTok 展現了極高的效率：

效能對比：僅使用 1.1B 引數的模型，即可達到與 5.2B 引數模型相當的生成品質（評估指標為 gFVD 與 ViCLIP Score）。
長影片生成：在生成 10 秒（81 幀）的影片時，僅需 672 個 Token，比對應的 3D 網格 Tokenizer 減少了 8 倍的 Token 數量，有效避免了昂貴的計算成本。

🎯 實務啟示

對於開發生成式 AI 的工程師而言，這項研究證明瞭「資訊分層」比「均等取樣」更有效率。如果能將語義與細節在 Token 層級就完成分離，下游模型就不需要浪費大量引數去學習低階畫素分佈，從而能在更小的模型規模下實現高品質的長影片生成。

🔗 來源

#ComputerVision #VideoGeneration #Tokenization #AppleML #ICML #VideoFlexTok #MachineLearning #TextToVideo #EfficientAI #DeepLearning

同來源相關文章