2026-06-09 · Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API

📌 【Google 最新發佈】Gemini 3.5 Live Translate：打破「輪替式」翻譯，實現真正的連續語音流翻譯

你是否發現目前的 AI 翻譯工具總是得等對方「說完一句話」才開始翻譯？這種 turn-by-turn（輪替式）的互動模式，在快節奏的對話中總有一種明顯的遲滯感，讓溝通變得不自然。

Google 最新推出的 Gemini 3.5 Live Translate 試圖解決這個痛點，將翻譯從「句子級別」提升到「串流級別」。

🤔 從「等對方說完」到「同步翻譯」的範式轉移

傳統的語音翻譯系統通常依賴於：說話者結束 $\rightarrow$ 偵測停頓 $\rightarrow$ 處理翻譯 $\rightarrow$ 輸出語音。這種模式在正式演講中可行，但在自然對話中會造成嚴重的中斷感。

Gemini 3.5 Live Translate 採取的是「連續串流處理 (Continuous Stream Processing)」。它不再等待句子結束，而是在音訊輸入的過程中同步生成翻譯，讓翻譯內容僅落後說話者數秒，大幅提升了溝通的即時性。

🧪 核心設計：在「上下文理解」與「低延遲」之間取得平衡

這款模型（gemini-3.5-live-translate-preview）的核心挑戰在於處理一個經典的 Trade-off：

Google 的解決方案是透過優化串流處理，讓模型在維持高品質翻譯的同時，將延遲控制在極低水準，並在輸出時保留原說話者的語調 (Intonation)、語速 (Pacing) 與音高 (Pitch)，讓翻譯後的聲音聽起來更像原說話者，而非生硬的機器合成音。

💡 專注於翻譯管線，而非通用 AI Agent

值得工程師注意的一個關鍵設計決策是：Gemini 3.5 Live Translate 是一個專門的音訊模型，而非一個通用聊天助手。為了追求極致的即時延遲，Google 採取了以下限制：

這種設計將其從一個複雜的 Agent 簡化為一個高效的「翻譯管線 (Translator Pipeline)」，確保資源全部投入在即時翻譯的效能上。此外，該模型具備強大的抗噪能力 (Noise robustness)，使其能在嘈雜且不可預測的現實環境中穩定運作。

⚠️ 功能定位明確，不支援文字輸入與 Agent 功能

這款模型並非用來取代 Gemini 的對話能力，因此它不具備對話代理人的特質（如意圖偵測或中斷處理）。如果你需要的是一個能執行任務的 AI Agent，這不是正確的選擇；但如果你需要的是一個高效的即時翻譯引擎，它則是目前最頂尖的選擇。

🎯 開發者與企業如何開始嘗試？

目前 Google 已將此模型部署於三個主要入口：

對於產品團隊而言，這意味著我們可以用於構建更自然的多語言即時通訊應用，而不再受限於傳統的「對話輪替」邏輯。

你認為「同步翻譯」會讓跨國遠端協作變得像面對面溝通一樣自然嗎？歡迎在評論區分享你的看法 👇

#Google #Gemini #LiveTranslate #SpeechToSpeech #AI #即時翻譯 #API #GoogleAIStudio #技術分享

同來源相關文章