OpenMOSS/MOSS-TTS
https://github.com/OpenMOSS/MOSS-TTS📌 OpenMOSS 釋出 MOSS‑TTS v1.5 與 SoundEffect v2.0
你以為 TTS 只能說中英文?MOSS‑TTS 最新版直接產出 48 kHz 雙語音效,而且還能用 [pause 0.5s] 控制停頓。
🤔 開源語音合成需要更高保真與即時串流的原因
隨著語音助手、遊戲聲效與雙語內容需求激增,單一語種、低取樣率或無法即時產出的模型已難以滿足實際場景。OpenMOSS 團隊因此推出 MOSS‑TTS Family,目標是在高保真、高表達力與複雜實時場景之間取得平衡。
🧪 模型架構與關鍵更新
- MOSS‑SoundEffect‑v2.0:採用 DiT(Diffusion Transformer)骨幹搭配 Flow Matching 目標,能在 48 kHz 下產出最長 30 秒的雙語音效(環境聲、角色語音等)。
- MOSS‑TTS‑v1.5:在語標籤(language tag)下提升多語種合成穩定性;聲音複製更穩健;長參考‑短文本複製品質提升;遵守標點符號的韻律;新增明確的暫停控制語法
[pause X.Ys]。 - MOSS‑TTS‑Nano:約 100M 參數,支援多語聲音複製、48 kHz 立體聲輸入/輸出,且僅需 4 顆 CPU 核心即可進行即時串流輸出。
- mlx‑audio 支援:MOSS‑TTS 與 MOSS‑Audio‑Tokenizer 現在皆可透過 Apple 的 mlx‑audio 框架在蘋果晶片上運行,降低部署門檻。
- 技術報告:MOSS‑TTSD 與 MOSS‑VoiceGenerator 的技術細節已於 arXiv 發布(2026‑03‑31),並提供 fine‑tuning 教學(2026‑03‑26)。
🔥 核心發現:這些更新帶來什麼實用能力
- 雙語音效模型可直接用於遊戲、短片或 AR/VR 場景中的環境聲與角色語音,無需額外後處理。
- 語標籤與
[pause X.Ys]讓開發者在合成腳本中精確控制語言切換與停頓,適合雙語客服或語言學習應用。 - MOSS‑TTS‑Nano 在資源受限的邊緣設備(如 Raspberry Pi、行動裝置)上仍能提供即時回應,滿足離線語音助手的需求。
- 透過 mlx‑audio,Mac 開發者可在本機利用蘋果神經引擎加速推理,減少雲端依賴。
💡 深入分析:為何這些技術選擇值得關注
- DiT + Flow Matching 傳統上用於圖像生成,移至音訊領域表明在高保真、長序列聲音合成上具備潛力;相較於自回聲學模型,它在平行度與訓練穩定性上有優勢。
- 明確暫停 token 是一種可控制的符號層級干預,避免了只依賴模型內隱學習停頓的不確定性,對於語音對話系統的自然度提升有直接幫助。
- Nano 模型的設計 展示了在參數量大幅下降時,仍可透過較高取樣率與立體聲保留基本聲音品質;這種 trade‑off 對於需要低功耗與低延遲的場景尤為重要。
- mlx‑audio 支援 代表開源社群開始更緊密地與硬體供應商的加速框架合作,未來類似的移植預計會擴展到其他平台(如 Qualcomm Hexagon、Google Edge TPU)。
⚠️ 已知限制與需要注意的地方
- 公開資訊中未提供客觀評估指標(如 MOS、WER、聲音相似度分數),因此實際表現仍需社群自行基準測試。
- MOSS‑TTS‑Nano 因參數量較小,在極端情感表達或非常長的參考語音上可能會出現細節遺失。
- 即時串流的具體延遲數值未在說明中給出,實際部署時需根據硬體與網路條件進行調適。
- 目前的多語言提升依賴於明確的語標籤,若未提供標籤則模型可能回退至預設語言。
- 專案仍處於快速迭代階段(MOSS‑TTS 2.0 正在收集需求),部分功能可能在後續版本中變更。
🎯 給開發者的實務建議
- 若需要製作遊戲聲效或短片環境聲,優先嘗試 MOSS‑SoundEffect‑v2.0,利用其 48 kHz 雙語輸出直接切換中英文場景。
- 建置雙語語音助手時,在合成腳本中加入
[pause 0.8s]等標記,搭配語標籤可讓系統在語言切換時自然停頓,提升使用體驗。 - 對於邊緣設備或離線場景,部署 MOSS‑TTS‑Nano 並透過 mlx‑audio(Mac)或對應的 CPU 推理庫,可在不犧牲太多音質的前提下達到低功耗運作。
- 若有特殊聲音克隆需求,參考 arXiv 上的 MOSS‑VoiceGenerator 技術報告進行 fine‑tuning,並利用官方提供的教學快速上手。
🔗 資源連結
- GitHub 專案:https://github.com/OpenMOSS/MOSS-TTS
- 技術報告(arXiv):MOSS‑TTSD、MOSS‑VoiceGenerator(2026‑03‑31)
- mlx‑audio 說明:請參考 mlx‑audio 儲存庫(連結已在專案 README 中提供)
你目前在專案中是怎麼使用 MOSS‑TTS 系列的?歡迎在留言區分享你的實作經驗與改進建議 👇
#OpenMOSS #MOSS-TTS #TextToSpeech #SoundEffect #DiT #FlowMatching #mlx-audio #開源語音 #AI音訊 #聲音合成 #邊緣運算 #語音助手 #語音克隆 #雙語合成 #即時串流 #聲音設計 #AI開發 #GitHubTrending #2026 #MOSI.AI #OpenMOSSTeam
由 tencent/hy3-preview:free 自動生成