英伟达开源黑科技：加一行代码，训练AI模型快3倍，还省内存

英伟达最近开源了一个叫 NeMo AutoModel 的工具，专门用来加速和优化大模型的训练。

最牛的一点是：只要你原来用的代码是基于 Hugging Face Transformers v5（一个很多人用的AI训练工具包），现在只需要加一行 import 代码，就能让训练速度直接翻3倍多，同时内存占用减少将近三分之一。

这事儿跟普通人有什么关系？

简单说，训练大模型（比如ChatGPT背后那种）非常烧钱、耗时间。英伟达这个新工具能让训练成本大幅降低，速度变快。以后你可能用到的AI助手或智能服务，背后模型升级更快、效果更好，甚至价格也可能更便宜。

现在很多先进的大模型都用了 MoE（混合专家模型），可以理解为把一个大问题拆成很多小问题，交给不同的“专家”去处理，这样既高效又省钱。但训练MoE模型时，有个麻烦：专家分布在不同显卡上，通信和计算容易卡住，内存也容易爆。

英伟达这个工具主要在三个地方做了优化：

实验用 Qwen3-30B-A3B 这个模型（拥有30亿参数但采用MoE架构），在8张H100显卡上跑微调：

而且，对于更大的模型（比如550亿参数的Nemotron 3 Ultra），原来的工具根本跑不动（显存不够），新工具却能轻松跑起来。

如果你现在正用 Transformers v5 训练MoE模型，只需在代码里加一行：

import nemo.automodel

然后其他代码不用改，速度就飞起来。英伟达已经把代码、配置和测试脚本都公开了，在GitHub上可以找到。

总之，这个工具让训练AI模型又快又省，连技术小白也能感受到：AI时代的技术门槛正在一点点降低。