InstanceControl: Controllable Complex Image Generation without Instance Labeling
https://huggingface.co/papers/2606.31924📌 InstanceControl:不需標註即可產生多例項影像的可控生成方法
TL;DR:透過視覺語言模型對文字與視覺條件建立例項對應,並以自適應遮罩精煉提升多例項影像生成的準確度,無需事先的例項標籤。
🧩 多例項生成的挑戰與突破
傳統可控影像生成多依賴於每個例項的手動標註,成本高且難以擴充套件。InstanceControl 以 Vision‑Language Model(VLM)為核心,直接在文字提示與視覺條件之間找出例項層級的對應關係,從而在不提供任何例項標籤的情況下,實現同時生成多個目標物件。
🤔 方法概覽
- 文字‑視覺對應:利用 VLM 將使用者的文字提示對映到影像中的潛在例項,形成「文字 ↔ 例項」的對應表。
- 自適應遮罩精煉:在初始生成階段產生粗糙遮罩,接著根據 VLM 的回饋動態調整遮罩形狀與位置,以提升每個例項的定位與外觀一致性。
- 多例項合成:將經過精煉的遮罩與相應的文字描述結合,交給生成模型產出最終影像,完成多例項的同步控制。
📊 技術亮點
- 免標籤:不需要事先為每個例項提供標註,降低資料前處理成本。
- 適應性遮罩:遮罩會根據生成過程中的語意回饋自動調整,提升細節與邊緣的精確度。
- 可擴充套件性:框架可直接套用於現有的 VLM 與擴散模型,具備即插即用的實作潛力。
⚠️ 目前限制
- 具體的實驗結果與效能指標未在摘要中說明,實際生成品質仍需依原文或後續實驗驗證。
- 方法依賴於 VLM 的語意理解能力,若文字提示過於模糊,可能影響例項對應的準確度。
🎯 實務啟示
- 快速原型:開發者可利用此框架在缺乏標註資料的情境下,快速測試多物件生成概念。
- 資料增強:生成的多例項影像可作為合成資料,用於後續的偵測或分割模型訓練,降低標註成本。
- 互動式設計:結合文字提示的即時調整,設計師能在不編寫遮罩程式碼的前提下,直接控制影像中各例項的外觀與位置。
🔗 來源
- 標題:InstanceControl: Controllable Complex Image Generation without Instance Labeling
- 連結:https://huggingface.co/papers/2606.31924
#InstanceControl #VisionLanguageModel #ImageGeneration #MaskRefinement #ControllableAI #SyntheticData #NoLabel #DeepLearning #ComputerVision #GenerativeModels
由 google/gemma-4-31b-it:free 自動生成