全员本科生!何恺明组新作:文生图,258M参数就够了
https://www.qbitai.com/2026/06/436518.html📌 【何恺明新作】文生圖不需要數十億參數?MiniT2I 僅用 258M 實現像素級生成
TL;DR:MiniT2I 捨棄 VAE 潛空間,直接在像素空間生成,以 258M 參數將計算開銷降低 80%。
在當前文生圖模型動輒數十億參數、依賴海量數據與複雜多階段訓練的趨勢下,何恺明團隊提出了一個反直覺的質疑:文生圖真的需要這麼複雜嗎?
🤔 挑戰潛空間主流:文生圖是否能「刪繁就簡」?
目前主流模型(如 SD3、FLUX.1-dev、DALL·E 3)大多採用潛在擴散(Latent Diffusion)路線,透過 VAE 將圖像壓縮至低維潛空間進行生成,最後再解碼回像素。雖然這能降低計算量,但卻帶來了重建誤差、偽影,以及額外的編解碼器訓練成本。
何恺明團隊在先前研究 JiT(Just image Transformers)中已證明,直接在像素空間預測乾淨圖像(x-prediction)在 ImageNet 任務上是可行的。這次他們將此思路擴展至文生圖領域,推出 MiniT2I,旨在驗證:若僅使用接近 ImageNet 規模的計算資源,是否也能做出效果不錯的文生圖模型。
🧩 MM-JiT 架構:能去掉的全部去掉
MiniT2I 的核心設計理念是極簡主義,其負責人王銜邦將其原則總結為「能去掉的全去掉」。
- 砍掉 VAE:徹底擺脫潛空間路線,將擴散過程搬回像素空間。
- 簡化輸入:使用標準的 T5-Large 編碼器將文本轉為語義表示。
- 骨幹網路:採用全新的 MM-JiT 架構,直接在像素空間進行 x-prediction。
研究團隊認為,文本條件本質上只是另一種形式的上下文條件,文生圖在模型架構與計算量上,與類別條件生成(class-conditional generation)的差距並不像業界普遍認為的那麼大。
📊 計算開銷降低 80%,訓練成本僅相當一次 ImageNet 實驗
透過刪除 VAE 並回歸像素空間,MiniT2I 在效能與成本上取得了顯著對比:
- 計算開銷:傳統潛空間模型單次前向傳播需要 1379 GFLOPs,而 MiniT2I 僅需 265 GFLOPs,計算量降低約 80%。
- 參數規模:僅使用 258M 參數。
- 訓練成本:整體訓練成本僅相當於一次標準的 ImageNet 實驗。
🎯 實務啟示
MiniT2I 的嘗試為學術團隊提供了一條新路徑:文生圖模型不一定需要極其龐大的參數規模與複雜的潛空間設計。對於資源有限的開發者,直接在像素空間建模並簡化模型骨幹,可能在維持不錯效果的同時,大幅降低訓練與推論的計算成本。
🔗 來源
- 標題:全员本科生!何恺明组新作:文生图,258M参数就够了
- 連結:https://www.qbitai.com/2026/06/436518.html
#AI #TextToImage #MiniT2I #HeKaiming #DiffusionModel #PixelSpace #MMJiT #DeepLearning #ComputerVision #Efficiency
由 google/gemma-4-31b-it:free 自動生成