2026-06-19 · 全员本科生！何恺明组新作：文生图，258M参数就够了

📌 【何恺明新作】文生圖不需要數十億參數？MiniT2I 僅用 258M 實現像素級生成

TL;DR：MiniT2I 捨棄 VAE 潛空間，直接在像素空間生成，以 258M 參數將計算開銷降低 80%。

在當前文生圖模型動輒數十億參數、依賴海量數據與複雜多階段訓練的趨勢下，何恺明團隊提出了一個反直覺的質疑：文生圖真的需要這麼複雜嗎？

🤔 挑戰潛空間主流：文生圖是否能「刪繁就簡」？

目前主流模型（如 SD3、FLUX.1-dev、DALL·E 3）大多採用潛在擴散（Latent Diffusion）路線，透過 VAE 將圖像壓縮至低維潛空間進行生成，最後再解碼回像素。雖然這能降低計算量，但卻帶來了重建誤差、偽影，以及額外的編解碼器訓練成本。

何恺明團隊在先前研究 JiT（Just image Transformers）中已證明，直接在像素空間預測乾淨圖像（x-prediction）在 ImageNet 任務上是可行的。這次他們將此思路擴展至文生圖領域，推出 MiniT2I，旨在驗證：若僅使用接近 ImageNet 規模的計算資源，是否也能做出效果不錯的文生圖模型。

🧩 MM-JiT 架構：能去掉的全部去掉

MiniT2I 的核心設計理念是極簡主義，其負責人王銜邦將其原則總結為「能去掉的全去掉」。

砍掉 VAE：徹底擺脫潛空間路線，將擴散過程搬回像素空間。
簡化輸入：使用標準的 T5-Large 編碼器將文本轉為語義表示。
骨幹網路：採用全新的 MM-JiT 架構，直接在像素空間進行 x-prediction。

研究團隊認為，文本條件本質上只是另一種形式的上下文條件，文生圖在模型架構與計算量上，與類別條件生成（class-conditional generation）的差距並不像業界普遍認為的那麼大。

📊 計算開銷降低 80%，訓練成本僅相當一次 ImageNet 實驗

透過刪除 VAE 並回歸像素空間，MiniT2I 在效能與成本上取得了顯著對比：

計算開銷：傳統潛空間模型單次前向傳播需要 1379 GFLOPs，而 MiniT2I 僅需 265 GFLOPs，計算量降低約 80%。
參數規模：僅使用 258M 參數。
訓練成本：整體訓練成本僅相當於一次標準的 ImageNet 實驗。

🎯 實務啟示

MiniT2I 的嘗試為學術團隊提供了一條新路徑：文生圖模型不一定需要極其龐大的參數規模與複雜的潛空間設計。對於資源有限的開發者，直接在像素空間建模並簡化模型骨幹，可能在維持不錯效果的同時，大幅降低訓練與推論的計算成本。

🔗 來源

標題：全员本科生！何恺明组新作：文生图，258M参数就够了
連結：https://www.qbitai.com/2026/06/436518.html

#AI #TextToImage #MiniT2I #HeKaiming #DiffusionModel #PixelSpace #MMJiT #DeepLearning #ComputerVision #Efficiency