Self-Flow:不靠外部模型,讓生成模型自己學會語義理解
Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis還記得 Stable Diffusion 嗎?當年讓開源圖像生成一夕爆紅的那群人——Robin Rombach、Dustin Podell——現在在 Black Forest Labs,聯手 MIT 的 Antonio Torralba,丟出了一個我覺得蠻根本性的問題:為什麼我們的生成模型,到現在還得靠別人教它「理解」?
這篇 Self-Flow 的核心論點很直接:現有的 diffusion 和 flow matching 模型在生成品質上要好,幾乎都得外掛一個預訓練好的語義模型(像 CLIP、T5 之類的)。但這些外部模型有自己的訓練目標,跟生成任務其實是錯開的,而且 scaling 行為不可預測。Self-Flow 說:我們不要了,讓模型自己學。
🔍 問題出在哪
Flow matching 模型的訓練目標本質上是一個去噪任務——給你一堆加了噪音的東西,你學著把噪音去掉。問題是,這個任務本身不太鼓勵模型去學高層語義。你只要學會「這個 pixel 大概長什麼樣」就能過關了,不需要真的理解圖片裡有什麼東西。
所以大家的解法一直都是:外掛。用 CLIP 的 embedding、用 T5 的 text feature、用 DINOv2 的 visual representation。能動,但問題一堆:
- 額外的訓練成本
- 目標函數不對齊(你的語義模型是為了分類訓練的,不是為了生成)
- Scaling 的時候行為詭異——模型變大,外部 representation 的幫助不一定等比例增加
🛠️ Dual-Timestep Scheduling:製造資訊不對稱
Self-Flow 的核心機制叫 Dual-Timestep Scheduling,概念其實很優雅。
傳統做法是對所有 token 加同樣程度的噪音。Self-Flow 改成:對不同 token 加不同程度的噪音。有些 token 噪音很重,有些比較輕。這製造了一個「資訊不對稱」——模型在處理高噪音 token 的時候,沒辦法只靠局部資訊去噪,它被迫要從那些噪音較輕的 token 去推斷語義,才能把整張圖(或影片、或音訊)補回來。
換句話說,去噪任務本身變成了一個隱式的 representation learning 任務。模型為了完成生成,不得不學會語義理解。
第二個設計決策是把這個機制做成跨模態通用的。同一個框架可以處理圖像、影片、音訊,不需要為每個模態設計不同的外部監督。這一點很重要,因為多模態生成目前最大的痛點之一就是每個模態都要自己的 representation pipeline。
💡 我的看法
坦白說,看到作者名單的時候我就知道這篇不會是嘴砲。Robin Rombach 做 Latent Diffusion 的時候就展現了那種「找到對的 abstraction 然後大幅簡化系統」的能力,Self-Flow 有同樣的味道。
幾個讓我覺得這篇有料的點:
- 它遵循預期的 scaling law。這聽起來像廢話,但很多方法在小模型上漂亮、放大就爆炸。論文明確提到 Self-Flow 的 scaling 行為是「expected」的,這代表你可以預測投入更多 compute 會得到什麼。
- 去掉外部依賴 → 訓練 pipeline 大幅簡化。不用再 pre-train 一個 CLIP,不用擔心 CLIP 的訓練資料跟你的生成資料有 domain gap,不用處理兩個模型之間的 alignment 問題。
但我也有疑慮。論文的 evaluation 主要在他們自己的 benchmark 上,跟 DALL-E 3 或 Imagen 3 這種用了大量外部監督的系統直接比較的結果不夠多。另外,Dual-Timestep Scheduling 在 token 數量很大的時候(比如高解析度影片)計算開銷如何,論文沒有特別展開。
不確定的是:在生產環境中,去掉外部 representation 到底省了多少成本?如果 Self-Flow 的收斂速度明顯慢於有外部監督的版本,那省下的模型複雜度可能被更長的訓練時間吃掉。
不過方向是對的。生成模型不應該永遠當「只會畫畫但不懂自己在畫什麼」的工具。Self-Flow 至少提出了一條讓模型自己長出語義能力的路。
下一步值得觀察的:Black Forest Labs 會不會把這個整合進他們的下一代 FLUX 模型?如果 Self-Flow 真的能在產品級模型上跑通,那「生成模型 + 外掛語義模型」這個沿用多年的 paradigm 可能要開始動搖了。
論文連結 作者:Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach(Black Forest Labs / MIT)
還記得 Stable Diffusion 嗎?當年讓開源圖像生成一夕爆紅的那群人——Robin Rombach、Dustin Podell——現在在 Black Forest Labs,聯手 MIT 的 Antonio Torralba,丟出了一個我覺得蠻根本性的問題:為什麼我們的生成模型,到現在還得靠別人教它「理解」?
這篇 Self-Flow 的核心論點很直接:現有的 diffusion 和 flow matching 模型在生成品質上要好,幾乎都得外掛一個預訓練好的語義模型(像 CLIP、T5 之類的)。但這些外部模型有自己的訓練目標,跟生成任務其實是錯開的,而且 scaling 行為不可預測。Self-Flow 說:我們不要了,讓模型自己學。
🔍 問題出在哪
Flow matching 模型的訓練目標本質上是一個去噪任務——給你一堆加了噪音的東西,你學著把噪音去掉。問題是,這個任務本身不太鼓勵模型去學高層語義。你只要學會「這個 pixel 大概長什麼樣」就能過關了,不需要真的理解圖片裡有什麼東西。
所以大家的解法一直都是:外掛。用 CLIP 的 embedding、用 T5 的 text feature、用 DINOv2 的 visual representation。能動,但問題一堆:
額外的訓練成本 目標函數不對齊(你的語義模型是為了分類訓練的,不是為了生成) Scaling 的時候行為詭異——模型變大,外部 representation 的幫助不一定等比例增加
🛠️ Dual-Timestep Scheduling:製造資訊不對稱
Self-Flow 的核心機制叫 Dual-Timestep Scheduling,概念其實很優雅。
傳統做法是對所有 token 加同樣程度的噪音。Self-Flow 改成:對不同 token 加不同程度的噪音。有些 token 噪音很重,有些比較輕。這製造了一個「資訊不對稱」——模型在處理高噪音 token 的時候,沒辦法只靠局部資訊去噪,它被迫要從那些噪音較輕的 token 去推斷語義,才能把整張圖(或影片、或音訊)補回來。
換句話說,去噪任務本身變成了一個隱式的 representation learning 任務。模型為了完成生成,不得不學會語義理解。
第二個設計決策是把這個機制做成跨模態通用的。同一個框架可以處理圖像、影片、音訊,不需要為每個模態設計不同的外部監督。這一點很重要,因為多模態生成目前最大的痛點之一就是每個模態都要自己的 representation pipeline。
💡 我的看法
坦白說,看到作者名單的時候我就知道這篇不會是嘴砲。Robin Rombach 做 Latent Diffusion 的時候就展現了那種「找到對的 abstraction 然後大幅簡化系統」的能力,Self-Flow 有同樣的味道。
幾個讓我覺得這篇有料的點:
它遵循預期的 scaling law。這聽起來像廢話,但很多方法在小模型上漂亮、放大就爆炸。論文明確提到 Self-Flow 的 scaling 行為是「expected」的,這代表你可以預測投入更多 compute 會得到什麼。
去掉外部依賴 → 訓練 pipeline 大幅簡化。不用再 pre-train 一個 CLIP,不用擔心 CLIP 的訓練資料跟你的生成資料有 domain gap,不用處理兩個模型之間的 alignment 問題。
但我也有疑慮。論文的 evaluation 主要在他們自己的 benchmark 上,跟 DALL-E 3 或 Imagen 3 這種用了大量外部監督的系統直接比較的結果不夠多。另外,Dual-Timestep Scheduling 在 token 數量很大的時候(比如高解析度影片)計算開銷如何,論文沒有特別展開。
不確定的是:在生產環境中,去掉外部 representation 到底省了多少成本?如果 Self-Flow 的收斂速度明顯慢於有外部監督的版本,那省下的模型複雜度可能被更長的訓練時間吃掉。
不過方向是對的。生成模型不應該永遠當「只會畫畫但不懂自己在畫什麼」的工具。Self-Flow 至少提出了一條讓模型自己長出語義能力的路。
下一步值得觀察的:Black Forest Labs 會不會把這個整合進他們的下一代 FLUX 模型?如果 Self-Flow 真的能在產品級模型上跑通,那「生成模型 + 外掛語義模型」這個沿用多年的 paradigm 可能要開始動搖了。
論文:https://arxiv.org/abs/2603.06507 作者:Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach(Black Forest Labs / MIT)
#GenAI #Diffusion #MultiModal #SelfSupervised #FlowMatching #StableDiffusion