9 demos of Gemini Omni and Gemini 3.5 in action
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-3-5-videos/📌 【Google AI Blog】Gemini Omni 與 Gemini 3.5 九則實際應用示範
你想用自然語言直接編輯影片,或讓 AI 複雜工作流程自動執行嗎?以下九段示範給你直觀感受。
🤔 多模態與代理能力成為下一代 AI 競爭焦點
隨著多模態輸入(圖像、聲音、影片、文字)與能夠執行動作的代理需求增加,Google 在 I/O 2026 發布了 Gemini Omni 與 Gemini 3.5 系列模型。Omni 強調「從任意輸入產出高品質影片」,而 3.5 則聚焦於「結合前沿智慧與行動能力」,旨在支援較長 horizion 的實務任務。
🧪 九段示範影片展示模型功能
Google AI Blog 提供了九則短片,分別示露:
- 使用自然語言指令編輯已有影片(例如要求「把雕塑做成泡泡」);
- 在編輯過程中保持角色一致性、物理法則與場景記憶;
- 將圖像、聲音、文字與影片作為混合輸入,生成具備真實世界知識的新影片;
- 展示 Gemini 3.5 Flash 在代理規劃與程式碼任務上的表現。
🔥 核心發現:Omni 可透過對話編輯影片;3.5 Flash 在代理與程式碼任務上領先
從示範中可以看到,Omni 讓使用者僅需以對話方式描述想要的變更,模型即可在保持畫面連貫性的前提下完成編輯;而 3.5 Flash 則在需要多步驟規劃與執行的場景中(如代理工作流程或程式輔助)展現出較好的效能。
💡 這意味著工作流程可更自然地融入多種媒體輸入與自動化步驟
如果開發者能將這類多模態生成與代理行動結合,未來可能實現:
- 以語音或文字直接調整教學影片、廣告素材或產品展示;
- 在軟體開發流程中讓 AI 協助撰寫、檢查甚至重構程式碼,同時保持任務脈絡;
- 跨媒體內容創作變得更為流畅,減少手動切割與合成的步驟。
⚠️ 僅為示範影片,未公開技術細節或程式碼,難以評估實際效能與邊界
目前僅能觀察到模型的表現,未見模型架構、訓練資料量、推論延遲或開放原始碼。因此,對於實際落地的資源需求、邊界案例或失敗模式仍缺乏量化依據。
🎯 開發者可從這些示範獲得靈感,思考如何在自己的產品中結合多模態輸入與代理規劃
- 在構思新功能時,可參考「自然語言編輯影片」的互動方式;
- 評估是否需要投資類似的代理規劃框架來處理長 horizion 任務;
- 關注後續官方文件或開放 API,以便在技術成熟後進行試驗。
🔗 論文連結
📝 9 demos of Gemini Omni and Gemini 3.5 in action
👤 Zahra Thompson(Google AI Blog 貢獻者)
🔗 https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-3-5-videos/
你對這些示範有什麼看法?歡迎在留言區分享你的想法或潛在應用場景 👇
#AI #Gemini #Multimodal #AgenticAI #GoogleIO2026 #機器學習 #創意工具 #程式輔助
由 tencent/hy3-preview:free 自動生成