2026-05-29 · 9 demos of Gemini Omni and Gemini 3.5 in action

📌 【Google AI Blog】Gemini Omni 與 Gemini 3.5 九則實際應用示範

你想用自然語言直接編輯影片，或讓 AI 複雜工作流程自動執行嗎？以下九段示範給你直觀感受。

🤔 多模態與代理能力成為下一代 AI 競爭焦點
隨著多模態輸入（圖像、聲音、影片、文字）與能夠執行動作的代理需求增加，Google 在 I/O 2026 發布了 Gemini Omni 與 Gemini 3.5 系列模型。Omni 強調「從任意輸入產出高品質影片」，而 3.5 則聚焦於「結合前沿智慧與行動能力」，旨在支援較長 horizion 的實務任務。

🧪 九段示範影片展示模型功能
Google AI Blog 提供了九則短片，分別示露：

使用自然語言指令編輯已有影片（例如要求「把雕塑做成泡泡」）；
在編輯過程中保持角色一致性、物理法則與場景記憶；
將圖像、聲音、文字與影片作為混合輸入，生成具備真實世界知識的新影片；
展示 Gemini 3.5 Flash 在代理規劃與程式碼任務上的表現。

🔥 核心發現：Omni 可透過對話編輯影片；3.5 Flash 在代理與程式碼任務上領先
從示範中可以看到，Omni 讓使用者僅需以對話方式描述想要的變更，模型即可在保持畫面連貫性的前提下完成編輯；而 3.5 Flash 則在需要多步驟規劃與執行的場景中（如代理工作流程或程式輔助）展現出較好的效能。

💡 這意味著工作流程可更自然地融入多種媒體輸入與自動化步驟
如果開發者能將這類多模態生成與代理行動結合，未來可能實現：

以語音或文字直接調整教學影片、廣告素材或產品展示；
在軟體開發流程中讓 AI 協助撰寫、檢查甚至重構程式碼，同時保持任務脈絡；
跨媒體內容創作變得更為流畅，減少手動切割與合成的步驟。

⚠️ 僅為示範影片，未公開技術細節或程式碼，難以評估實際效能與邊界
目前僅能觀察到模型的表現，未見模型架構、訓練資料量、推論延遲或開放原始碼。因此，對於實際落地的資源需求、邊界案例或失敗模式仍缺乏量化依據。

🎯 開發者可從這些示範獲得靈感，思考如何在自己的產品中結合多模態輸入與代理規劃

在構思新功能時，可參考「自然語言編輯影片」的互動方式；
評估是否需要投資類似的代理規劃框架來處理長 horizion 任務；
關注後續官方文件或開放 API，以便在技術成熟後進行試驗。

🔗 論文連結
📝 9 demos of Gemini Omni and Gemini 3.5 in action
👤 Zahra Thompson（Google AI Blog 貢獻者）
🔗 https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-3-5-videos/

你對這些示範有什麼看法？歡迎在留言區分享你的想法或潛在應用場景 👇

#AI #Gemini #Multimodal #AgenticAI #GoogleIO2026 #機器學習 #創意工具 #程式輔助

同來源相關文章