2026-06-24 · Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel

📌 【NVIDIA NeMo】不改程式碼，MoE 模型微調吞吐量提升 3.4-3.7 倍

TL;DR：NeMo AutoModel 結合 Transformers v5，讓 MoE 模型微調速度提升 3 倍以上且節省 30% 記憶體。

當前最頂尖的模型大多採用 Mixture-of-Experts (MoE) 架構，但這種設計也帶來了巨大的工程挑戰：如何高效地在數百個專家之間路由 token、如何將矩陣乘法融合進單一 kernel，以及如何讓通訊與計算重疊。這些需求早已超出通用函式庫的預設能力。

🤔 MoE 模型微調的基礎設施挑戰

MoE 模型雖然強大，但在訓練時面臨多項效能瓶頸，包含權重在 GPU 間的分片 (sharding)、高效的 all-to-all dispatch 以及專家矩陣乘法 (matmuls) 的融合。這些複雜的底層操作需要專門的基礎設施才能實現高效能執行。

🧩 NeMo AutoModel 與 Transformers v5 的協作機制

NVIDIA NeMo AutoModel 作為 NeMo 框架的一部分，透過與 Transformers v5 的深度整合，將高效能運算能力注入到開源生態系中：

Transformers v5 提供基礎：引入了對 MoE 的原生支援，包含專家後端 (expert backends)、動態權過載入 (dynamic weight loading) 以及分散式執行的張量平行計畫 (tensor parallel plans)。
NeMo AutoModel 疊加最佳化：在 v5 的基礎上進一步加入 Expert Parallelism、DeepEP fused all-to-all dispatch 以及 TransformerEngine kernels。
無縫接軌 API：利用 v5 的動態權過載入機制，讓這些最佳化能應用於越來越多的模型系列。

📊 吞吐量提升 3.4-3.7 倍，記憶體佔用降低 29-32%

相較於使用原生 Transformers v5，NeMo AutoModel 在微調 MoE 模型時帶來了顯著的效能提升：

🎯 實務啟示

對於需要微調大規模 MoE 模型的工程師來說，這意味著可以在不重寫訓練指令碼的前提下，透過切換底層庫來大幅降低算力成本並縮短訓練時間。只要環境支援 Transformers v5 與 NeMo AutoModel，即可在維持原有 API 習慣的同時，獲得企業級的訓練效能。

🔗 來源

標題：Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel
作者／機構：HuggingFace
連結：https://huggingface.co/blog/nvidia/accelerating-fine-tuning-nvidia-nemo-automodel

#MoE #NVIDIA #NeMo #HuggingFace #Transformers #FineTuning #DeepLearning #GPU #PerformanceOptimization #MachineLearning

同來源相關文章