2026-07-03 · huggingface/speech-to-speech

📌 【HuggingFace 開源】打造低延遲語音代理，模組化 pipeline 讓 STT/LLM/TTS 全面可替換

TL;DR：HuggingFace 提供一套模組化語音代理流水線，支援 OpenAI Realtime 相容 API，可實現全本地化部署。

想要打造一個能即時對話的語音代理（Voice Agent），最困難的往往不是單一模型的效能，而是如何將多個模型串接成一個低延遲且穩定的流水線。

🧩 模組化設計：VAD → STT → LLM → TTS

speech-to-speech 專案將語音代理的流程拆解為四個可替換的模組，確保開發者能根據需求靈活調整：

💡 全面相容 OpenAI Realtime API 與本地化部署

該專案透過 WebSocket API 暴露介面，且與 OpenAI Realtime 協定相容，這意味著任何支援該協定的客戶端都能直接連線。在 LLM 的選擇上，開發者擁有極高的自由度：

雲端方案：連線至託管服務商或 HF Inference Providers。
本地方案：透過 vLLM 或 llama.cpp 在自有硬體上執行。例如，可以使用 llama.cpp 部署 Gemma 4 並將其作為後端，實現完全開源且本地化的技術棧。

📊 已在數千臺 Reachy Mini 機器人中實戰驗證

這套流水線並非僅是實驗性質的 Demo，README 指出它已作為對話後端，在數千臺 Reachy Mini 機器人的生產環境中執行，證明瞭其在實際應用中的穩定性與低延遲表現。

🎯 實務啟示

對於 AI 工程師而言，這個專案提供了一個「即插即用」的語音代理框架。如果你需要快速搭建一個語音對話系統，不需要從零開始處理 WebSocket 串流或模型串接，直接利用其模組化設計，即可在「雲端 API 快速原型」與「全本地化隱私部署」之間自由切換。

🔗 來源

#HuggingFace #VoiceAgent #STT #TTS #LLM #OpenSource #OpenAIRealtime #Gemma4 #vLLM #Robotics

同來源相關文章