英伟达开源黑科技:加一行代码,训练AI模型快3倍,还省内存
2026-06-27
英伟达最近开源了一个叫 NeMo AutoModel 的工具,专门用来加速和优化大模型的训练。
最牛的一点是:只要你原来用的代码是基于 Hugging Face Transformers v5(一个很多人用的AI训练工具包),现在只需要加一行 import 代码,就能让训练速度直接翻3倍多,同时内存占用减少将近三分之一。
这事儿跟普通人有什么关系?
简单说,训练大模型(比如ChatGPT背后那种)非常烧钱、耗时间。英伟达这个新工具能让训练成本大幅降低,速度变快。以后你可能用到的AI助手或智能服务,背后模型升级更快、效果更好,甚至价格也可能更便宜。
为什么能快这么多?
现在很多先进的大模型都用了 MoE(混合专家模型),可以理解为把一个大问题拆成很多小问题,交给不同的“专家”去处理,这样既高效又省钱。但训练MoE模型时,有个麻烦:专家分布在不同显卡上,通信和计算容易卡住,内存也容易爆。
英伟达这个工具主要在三个地方做了优化:
- 专家并行:以前每张显卡都要装下所有专家的参数,现在把专家分散到多张显卡上。比如8张卡,每张只负责1/8的专家,内存占用一下子降到原来的1/8。
- DeepEP:把分发任务和计算过程合并优化,原来卡在通信上的时间就被省掉了,计算和通信能同时进行。
- TransformerEngine:对注意力机制、线性层这些核心计算进行加速,不光加速MoE部分,整个模型都变快。
数字说话
实验用 Qwen3-30B-A3B 这个模型(拥有30亿参数但采用MoE架构),在8张H100显卡上跑微调:
- 原来每张显卡每秒处理3075个token(大约几千个单词),用上新工具后飙到11340,提升3.69倍。
- 内存占用从68.2GiB降到48.1GiB,省了29%。
而且,对于更大的模型(比如550亿参数的Nemotron 3 Ultra),原来的工具根本跑不动(显存不够),新工具却能轻松跑起来。
怎么用?
如果你现在正用 Transformers v5 训练MoE模型,只需在代码里加一行:
import nemo.automodel
然后其他代码不用改,速度就飞起来。英伟达已经把代码、配置和测试脚本都公开了,在GitHub上可以找到。
总之,这个工具让训练AI模型又快又省,连技术小白也能感受到:AI时代的技术门槛正在一点点降低。