HuggingFace Daily Papers ★ 87 2 min

InstanceControl: Controllable Complex Image Generation without Instance Labeling

🔗 https://huggingface.co/papers/2606.31924

📌 InstanceControl:不需標註即可產生多例項影像的可控生成方法

TL;DR:透過視覺語言模型對文字與視覺條件建立例項對應,並以自適應遮罩精煉提升多例項影像生成的準確度,無需事先的例項標籤。

🧩 多例項生成的挑戰與突破
傳統可控影像生成多依賴於每個例項的手動標註,成本高且難以擴充套件。InstanceControl 以 Vision‑Language Model(VLM)為核心,直接在文字提示與視覺條件之間找出例項層級的對應關係,從而在不提供任何例項標籤的情況下,實現同時生成多個目標物件。

🤔 方法概覽

  1. 文字‑視覺對應:利用 VLM 將使用者的文字提示對映到影像中的潛在例項,形成「文字 ↔ 例項」的對應表。
  2. 自適應遮罩精煉:在初始生成階段產生粗糙遮罩,接著根據 VLM 的回饋動態調整遮罩形狀與位置,以提升每個例項的定位與外觀一致性。
  3. 多例項合成:將經過精煉的遮罩與相應的文字描述結合,交給生成模型產出最終影像,完成多例項的同步控制。

📊 技術亮點

  • 免標籤:不需要事先為每個例項提供標註,降低資料前處理成本。
  • 適應性遮罩:遮罩會根據生成過程中的語意回饋自動調整,提升細節與邊緣的精確度。
  • 可擴充套件性:框架可直接套用於現有的 VLM 與擴散模型,具備即插即用的實作潛力。

⚠️ 目前限制

  • 具體的實驗結果與效能指標未在摘要中說明,實際生成品質仍需依原文或後續實驗驗證。
  • 方法依賴於 VLM 的語意理解能力,若文字提示過於模糊,可能影響例項對應的準確度。

🎯 實務啟示

  • 快速原型:開發者可利用此框架在缺乏標註資料的情境下,快速測試多物件生成概念。
  • 資料增強:生成的多例項影像可作為合成資料,用於後續的偵測或分割模型訓練,降低標註成本。
  • 互動式設計:結合文字提示的即時調整,設計師能在不編寫遮罩程式碼的前提下,直接控制影像中各例項的外觀與位置。

🔗 來源

#InstanceControl #VisionLanguageModel #ImageGeneration #MaskRefinement #ControllableAI #SyntheticData #NoLabel #DeepLearning #ComputerVision #GenerativeModels

google/gemma-4-31b-it:free 自動生成