NVIDIA-NeMo/Megatron-Bridge
https://github.com/NVIDIA-NeMo/Megatron-Bridge📌 【NVIDIA NeMo】Megatron-Bridge:將頂尖訓練效能與多樣化模型支援整合的橋接層
TL;DR:NVIDIA 推出的封裝層,將 NeMo 訓練棧與 Megatron-LM 整合,支援大量最新 LLM 並最佳化 GB300 效能。
當模型規模突破千億引數,如何讓訓練框架在維持極致效能的同時,又能快速適應不斷湧現的新模型架構?NVIDIA 透過 Megatron-Bridge 提供了一個關鍵的封裝層,讓開發者能在 NeMo 26.06 訓練棧中直接運用最前沿的最佳化技術。
🧩 支援廣泛的 LLM 與多模態模型
在最新的 0.5.0 版本中,Megatron-Bridge 大幅擴充套件了模型支援範圍,涵蓋多個主流系列,包括:
- Qwen3.5、Qwen3-Omni、Qwen3-ASR
- DeepSeek V4
- Gemma 4
- GLM-5/4.7
- Ernie 4.5
- StepFun Step-3.5/3.7
- Nemotron-3 Nano Omni 與 Nemotron 3 Ultra (550B-A55B hybrid MoE)
- Falcon H1、Ling MoE V2、MiMo-V2 與 Nemotron Diffusion
💡 底層效能最佳化與 MLPerf 頂尖表現
Megatron-Bridge 作為 NeMo 26.06 訓練棧的封裝層,整合了多項硬體與軟體層級的最佳化,使其在 MLPerf Training v6.0 的各項基準測試中(包含 DeepSeek-V3 與 GPT-OSS MoE 工作負載)取得領先。其核心技術亮點包括:
- 執行路徑最佳化:整合全迭代 CUDA graphs 以及 pipeline-layout 平衡。
- 記憶體與運算最佳化:採用 MXFP8 attention 與量化 FP8/MXFP4 匯出。
- 通訊與並行技術:支援 HybridEP/router 最佳化、all-to-all overlap 以及 eval-time context parallelism。
- 統一介面:實現了 Megatron Inference 與 tokenizer 與 Megatron-LM 的統一。
📊 GB300 上的極致吞吐量
根據官方資料,在 GB300 硬體上訓練 DeepSeek-V3 時,效能可達 1,648 TFLOPS/GPU,每秒每顆 GPU 可處理 6,338 個 token。
🎯 實務啟示
對於需要部署超大規模模型或追求極限訓練效能的工程師,Megatron-Bridge 提供了從「效能食譜 (performance recipes)」到「容器化部署」的完整路徑。透過其提供的確定性食譜 (deterministic recipes) 與量化匯出功能,能有效降低從實驗到生產環境的遷移成本。
🔗 來源
- 標題:NVIDIA-NeMo/Megatron-Bridge
- 作者/機構:NVIDIA-NeMo
- 連結:https://github.com/NVIDIA-NeMo/Megatron-Bridge
#NVIDIA #NeMo #MegatronLM #LLM #DeepLearning #GPU #MLPerf #CUDA #DeepSeek #ModelTraining
由 google/gemma-4-31b-it:free 自動生成