2026-03-09 · Self-Flow：不靠外部模型，讓生成模型自己學會語義理解

還記得 Stable Diffusion 嗎？當年讓開源圖像生成一夕爆紅的那群人——Robin Rombach、Dustin Podell——現在在 Black Forest Labs，聯手 MIT 的 Antonio Torralba，丟出了一個我覺得蠻根本性的問題：為什麼我們的生成模型，到現在還得靠別人教它「理解」？

這篇 Self-Flow 的核心論點很直接：現有的 diffusion 和 flow matching 模型在生成品質上要好，幾乎都得外掛一個預訓練好的語義模型（像 CLIP、T5 之類的）。但這些外部模型有自己的訓練目標，跟生成任務其實是錯開的，而且 scaling 行為不可預測。Self-Flow 說：我們不要了，讓模型自己學。

🔍 問題出在哪

Flow matching 模型的訓練目標本質上是一個去噪任務——給你一堆加了噪音的東西，你學著把噪音去掉。問題是，這個任務本身不太鼓勵模型去學高層語義。你只要學會「這個 pixel 大概長什麼樣」就能過關了，不需要真的理解圖片裡有什麼東西。

所以大家的解法一直都是：外掛。用 CLIP 的 embedding、用 T5 的 text feature、用 DINOv2 的 visual representation。能動，但問題一堆：

額外的訓練成本
目標函數不對齊（你的語義模型是為了分類訓練的，不是為了生成）
Scaling 的時候行為詭異——模型變大，外部 representation 的幫助不一定等比例增加

🛠️ Dual-Timestep Scheduling：製造資訊不對稱

Self-Flow 的核心機制叫 Dual-Timestep Scheduling，概念其實很優雅。

傳統做法是對所有 token 加同樣程度的噪音。Self-Flow 改成：對不同 token 加不同程度的噪音。有些 token 噪音很重，有些比較輕。這製造了一個「資訊不對稱」——模型在處理高噪音 token 的時候，沒辦法只靠局部資訊去噪，它被迫要從那些噪音較輕的 token 去推斷語義，才能把整張圖（或影片、或音訊）補回來。

換句話說，去噪任務本身變成了一個隱式的 representation learning 任務。模型為了完成生成，不得不學會語義理解。

第二個設計決策是把這個機制做成跨模態通用的。同一個框架可以處理圖像、影片、音訊，不需要為每個模態設計不同的外部監督。這一點很重要，因為多模態生成目前最大的痛點之一就是每個模態都要自己的 representation pipeline。

💡 我的看法

坦白說，看到作者名單的時候我就知道這篇不會是嘴砲。Robin Rombach 做 Latent Diffusion 的時候就展現了那種「找到對的 abstraction 然後大幅簡化系統」的能力，Self-Flow 有同樣的味道。

幾個讓我覺得這篇有料的點：

它遵循預期的 scaling law。這聽起來像廢話，但很多方法在小模型上漂亮、放大就爆炸。論文明確提到 Self-Flow 的 scaling 行為是「expected」的，這代表你可以預測投入更多 compute 會得到什麼。
去掉外部依賴 → 訓練 pipeline 大幅簡化。不用再 pre-train 一個 CLIP，不用擔心 CLIP 的訓練資料跟你的生成資料有 domain gap，不用處理兩個模型之間的 alignment 問題。

但我也有疑慮。論文的 evaluation 主要在他們自己的 benchmark 上，跟 DALL-E 3 或 Imagen 3 這種用了大量外部監督的系統直接比較的結果不夠多。另外，Dual-Timestep Scheduling 在 token 數量很大的時候（比如高解析度影片）計算開銷如何，論文沒有特別展開。

不確定的是：在生產環境中，去掉外部 representation 到底省了多少成本？如果 Self-Flow 的收斂速度明顯慢於有外部監督的版本，那省下的模型複雜度可能被更長的訓練時間吃掉。

不過方向是對的。生成模型不應該永遠當「只會畫畫但不懂自己在畫什麼」的工具。Self-Flow 至少提出了一條讓模型自己長出語義能力的路。

下一步值得觀察的：Black Forest Labs 會不會把這個整合進他們的下一代 FLUX 模型？如果 Self-Flow 真的能在產品級模型上跑通，那「生成模型 + 外掛語義模型」這個沿用多年的 paradigm 可能要開始動搖了。

論文連結作者：Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach（Black Forest Labs / MIT）

還記得 Stable Diffusion 嗎？當年讓開源圖像生成一夕爆紅的那群人——Robin Rombach、Dustin Podell——現在在 Black Forest Labs，聯手 MIT 的 Antonio Torralba，丟出了一個我覺得蠻根本性的問題：為什麼我們的生成模型，到現在還得靠別人教它「理解」？

這篇 Self-Flow 的核心論點很直接：現有的 diffusion 和 flow matching 模型在生成品質上要好，幾乎都得外掛一個預訓練好的語義模型（像 CLIP、T5 之類的）。但這些外部模型有自己的訓練目標，跟生成任務其實是錯開的，而且 scaling 行為不可預測。Self-Flow 說：我們不要了，讓模型自己學。

🔍 問題出在哪

所以大家的解法一直都是：外掛。用 CLIP 的 embedding、用 T5 的 text feature、用 DINOv2 的 visual representation。能動，但問題一堆：

額外的訓練成本目標函數不對齊（你的語義模型是為了分類訓練的，不是為了生成） Scaling 的時候行為詭異——模型變大，外部 representation 的幫助不一定等比例增加

🛠️ Dual-Timestep Scheduling：製造資訊不對稱

Self-Flow 的核心機制叫 Dual-Timestep Scheduling，概念其實很優雅。

換句話說，去噪任務本身變成了一個隱式的 representation learning 任務。模型為了完成生成，不得不學會語義理解。

💡 我的看法

坦白說，看到作者名單的時候我就知道這篇不會是嘴砲。Robin Rombach 做 Latent Diffusion 的時候就展現了那種「找到對的 abstraction 然後大幅簡化系統」的能力，Self-Flow 有同樣的味道。

幾個讓我覺得這篇有料的點：

它遵循預期的 scaling law。這聽起來像廢話，但很多方法在小模型上漂亮、放大就爆炸。論文明確提到 Self-Flow 的 scaling 行為是「expected」的，這代表你可以預測投入更多 compute 會得到什麼。

去掉外部依賴 → 訓練 pipeline 大幅簡化。不用再 pre-train 一個 CLIP，不用擔心 CLIP 的訓練資料跟你的生成資料有 domain gap，不用處理兩個模型之間的 alignment 問題。

但我也有疑慮。論文的 evaluation 主要在他們自己的 benchmark 上，跟 DALL-E 3 或 Imagen 3 這種用了大量外部監督的系統直接比較的結果不夠多。另外，Dual-Timestep Scheduling 在 token 數量很大的時候（比如高解析度影片）計算開銷如何，論文沒有特別展開。

不過方向是對的。生成模型不應該永遠當「只會畫畫但不懂自己在畫什麼」的工具。Self-Flow 至少提出了一條讓模型自己長出語義能力的路。

下一步值得觀察的：Black Forest Labs 會不會把這個整合進他們的下一代 FLUX 模型？如果 Self-Flow 真的能在產品級模型上跑通，那「生成模型 + 外掛語義模型」這個沿用多年的 paradigm 可能要開始動搖了。

論文：https://arxiv.org/abs/2603.06507 作者：Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach（Black Forest Labs / MIT）

#GenAI #Diffusion #MultiModal #SelfSupervised #FlowMatching #StableDiffusion