2026-07-03 · InstanceControl: Controllable Complex Image Generation without Instance Labeling

📌 InstanceControl：不需標註即可產生多例項影像的可控生成方法

TL;DR：透過視覺語言模型對文字與視覺條件建立例項對應，並以自適應遮罩精煉提升多例項影像生成的準確度，無需事先的例項標籤。

🧩 多例項生成的挑戰與突破
傳統可控影像生成多依賴於每個例項的手動標註，成本高且難以擴充套件。InstanceControl 以 Vision‑Language Model（VLM）為核心，直接在文字提示與視覺條件之間找出例項層級的對應關係，從而在不提供任何例項標籤的情況下，實現同時生成多個目標物件。

🤔 方法概覽

文字‑視覺對應：利用 VLM 將使用者的文字提示對映到影像中的潛在例項，形成「文字 ↔ 例項」的對應表。
自適應遮罩精煉：在初始生成階段產生粗糙遮罩，接著根據 VLM 的回饋動態調整遮罩形狀與位置，以提升每個例項的定位與外觀一致性。
多例項合成：將經過精煉的遮罩與相應的文字描述結合，交給生成模型產出最終影像，完成多例項的同步控制。

📊 技術亮點

免標籤：不需要事先為每個例項提供標註，降低資料前處理成本。
適應性遮罩：遮罩會根據生成過程中的語意回饋自動調整，提升細節與邊緣的精確度。
可擴充套件性：框架可直接套用於現有的 VLM 與擴散模型，具備即插即用的實作潛力。

⚠️ 目前限制

具體的實驗結果與效能指標未在摘要中說明，實際生成品質仍需依原文或後續實驗驗證。
方法依賴於 VLM 的語意理解能力，若文字提示過於模糊，可能影響例項對應的準確度。

🎯 實務啟示

快速原型：開發者可利用此框架在缺乏標註資料的情境下，快速測試多物件生成概念。
資料增強：生成的多例項影像可作為合成資料，用於後續的偵測或分割模型訓練，降低標註成本。
互動式設計：結合文字提示的即時調整，設計師能在不編寫遮罩程式碼的前提下，直接控制影像中各例項的外觀與位置。

🔗 來源

標題：InstanceControl: Controllable Complex Image Generation without Instance Labeling
連結：https://huggingface.co/papers/2606.31924

#InstanceControl #VisionLanguageModel #ImageGeneration #MaskRefinement #ControllableAI #SyntheticData #NoLabel #DeepLearning #ComputerVision #GenerativeModels

同來源相關文章