MarkTechPost ★ 93 3 min

Stability AI Releases Stable Audio 3: A Family of Fast Latent Diffusion Models for Audio Generation and Editing

Audio Language ModelLanguage ModelSoftware EngineeringVoice AI

🔗 https://www.marktechpost.com/2026/05/26/stability-ai-releases-stable-audio-3-a-family-of-fast-latent-diffusion-models-for-audio-generation-and-editing/

📌 【Stability AI】Stable Audio 3:高壓縮 latent diffusion 模型

你以為生成 44.1 kHz 立體聲音須要強大 GPU?Stable Audio 3 透過 4096× 壓縮讓筆電也能跑長段音訊。

🤔 高壓縮讓消費級硬體也能玩長段音訊
Stable Audio 3 是一系列 latent diffusion 模型,能夠產生立體聲 44.1 kHz 音訊,支援變長輸出、基於 inpainting 的編輯以及快速推論。模型家族分為 small、medium、large 三種規模,其中 small 與 medium 的開放權重已在 Hugging Face 釋出,large 則採企業授權。

🧪 SAME 自編碼器:4096× 下採樣的關鍵設計
模型的核心是 Semantically‑Aligned Music autoEncoder(SAME),它把立體聲 44.1 kHz 音訊壓縮成低維序列,之後再由 diffusion transformer 在該 latent 上進行去噪生成。SAME 實現 4096× 的總下採樣分兩段:首先把聲音切成不重疊的 256‑sample patch(實現 256× 下採樣),接著透過可學習的 Transformer Resampling Block(TRB)再進行 16× 下採樣,最終得到約 10.76 Hz 的 256 維 latent 序列。這樣的高壓縮大幅縮短 latent 序列長度,使得長段音訊的產生能在消費級硬體上運行。

💡 即時可用的生成與編輯功能
因為採用 latent diffusion 框架,Stable Audio 3 同時支援:

  • 依照文字、時長與 inpainting mask 生成或編輯音訊
  • 變長輸出(可產生短片段也可延伸至數分鐘)
  • 快速推論(得益於較短的 latent 序列)

這些特性讓模型適合音效設計、音樂創作以及互動媒體的即時編輯場景。

⚠️ 目前可見的限制

  • 開放權重僅涵蓋 small 與 medium 兩種規模,large 模型需企業授權才能取得
  • 文件中未詳細說明 diffusion transformer 的參數規模或具體推論速度基準
  • 未提供針對不同音訊類型(語音、環境聲、樂器)的定量評估結果
  • 模型訓練資料與授權條款尚未在摘要中說明,使用時需參考官方文件

🎯 對開發者的實務建議

  • 若想在筆電或消費級 GPU 上實驗長段音訊生成,可優先下載 small 或 medium 權重
  • 需要更高容量或商業部署時,考慮申請 large 模型的企業授權
  • 在實際應用時,先以文字提示與 inpainting mask 測試模型的編輯能力,再根據結果微調推論參數以平衡品質與速度

🔗 論文連結
📝 Stable Audio 3: A Family of Fast Latent Diffusion Models for Audio Generation and Editing
👤 Asif Razzaq (MarkTechPost 報導)
🔗 https://www.marktechpost.com/2026/05/26/stability-ai-releases-stable-audio-3-a-family-of-fast-latent-diffusion-models-for-audio-generation-and-editing/

你有試過在筆電上跑 44.1 kHz 音訊生成嗎?歡迎在留言區分享你的經驗或想法 👇

#StableAudio #StabilityAI #AudioGeneration #LatentDiffusion #AI音訊 #GenAI #機器學習 #開放權重 #MarkTechPost

tencent/hy3-preview:free 自動生成