首页 > 快讯 > 震撼来袭：英伟达推出开源模型 Llama-Nemotron，其推理能力超越 DeepSeek-R1

震撼来袭：英伟达推出开源模型 Llama-Nemotron，其推理能力超越 DeepSeek-R1

发布时间：2025-05-07 10:49:28 | 责任编辑：张毅 | 浏览量：232 次

近日，英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron，该系列模型不仅在推能力上超越了 DeepSeek-R1，更是在内存效率和吞吐量上实现了显著提升。根据最新发布的技术报告，Llama-Nemotron 的训练过程与众不同，采用了合成数据监督微调与强化学习的方法，以全方位提升模型的推理能力。
Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。这些模型的性能在业界引发了广泛关注，尤其是 LN-Ultra，它在推理任务中表现优异，能够在单个8xH100节点上高效运行，同时支持最多128K 的上下文长度，这在大语言模型中可谓是独一无二。
值得一提的是，英伟达在开源界首次推出了 “推理开关” 功能，用户只需通过系统提示词 “detailed thinking on/off” 即可轻松切换不同的推理模式。这一设计使得模型能够在日常对话与复杂的多步骤推理之间自如转换，极大地满足了不同用户的需求。
Llama-Nemotron 模型的构建分为五个阶段，首先通过神经架构搜索（NAS）优化推理效率，接着进行知识蒸馏与预训练，以恢复模型性能。随后，进行了有监督微调(SFT)，结合标准指令数据与强大教师模型的推理过程，提升模型的多步骤推理能力。特别是在复杂的数学和 STEM 数据集上进行强化学习训练，使 LN-Ultra 在科学推理方面脱颖而出。
在模型架构方面，Llama-Nemotron 引入了新颖的 Puzzle 框架，能够根据硬件限制转化大语言模型为高效版本，提升计算性能。这一系列优化措施为 LN-Ultra 的推理能力奠定了坚实基础。
英伟达的 Llama-Nemotron 系列模型在推理效率、内存管理和用户交互方面的创新，标志着开源人工智能模型领域的一次重大突破。
论文地址：https://arxiv.org/pdf/2505.00949

英伟达于2025年5月正式推出了其最新开源模型系列——Llama-Nemotron，该系列模型在推理性能上显著超越了DeepSeek-R1。以下是关于Llama-Nemotron模型的详细介绍：

模型概况

Llama-Nemotron系列包括三个不同规模的模型：

LN-Nano 8B：轻量级模型，适合资源受限的设备。
LN-Super 49B：中等规模模型，平衡性能与资源需求。
LN-Ultra 253B：旗舰级模型，参数规模最大，推理性能最强。

此外，还有一个独立变体 UltraLong 8B，支持超长上下文（最多128K），适合需要处理长文本的任务。

性能优势

推理吞吐量和内存效率：Llama-Nemotron系列在推理吞吐量和内存效率上显著优于DeepSeek-R1。例如，LN-Ultra可以在单个8xH100节点上高效运行，而DeepSeek-R1需要8xH200的硬件配置。
推理能力：LN-Ultra在多项推理基准测试中表现优异，例如在GPQA基准测试中达到了开源模型中的最先进水平。在科学推理方面，LN-Ultra的表现也远超DeepSeek-R1。
动态推理切换：Llama-Nemotron系列是首批支持动态推理切换的开源模型。用户可以通过系统提示词“detailed thinking on/off”在标准聊天模式和推理模式之间自由切换。

训练与优化

多阶段后训练流程：Llama-Nemotron的训练分为五个阶段：
1. 神经架构搜索（NAS）：优化推理效率，引入前馈网络融合（FFN Fusion）。
2. 知识蒸馏与预训练：恢复模型性能。
3. 有监督微调（SFT）：结合标准指令数据和教师模型的推理过程，提升多步骤推理能力。
4. 强化学习：在复杂数学和STEM数据集上进行训练，进一步优化推理能力。
5. 对齐训练：确保模型符合人类偏好。
架构优化：引入Puzzle框架，优化模型推理效率。例如，LN-Ultra通过移除注意力机制、调整前馈网络维度等优化措施，将推理延迟降低了1.71倍。

开源与许可

Llama-Nemotron系列模型完全开源，模型权重和部分训练数据已在Hugging Face上公开。这些模型遵循NVIDIA Open Model License和Llama社区许可，支持商业使用。

未来展望

Llama-Nemotron系列模型的推出，标志着开源人工智能模型领域的一次重大突破。其高效推理能力和灵活的交互设计，有望推动手机端智能助手的升级，提升科研加速器的效率，并显著降低企业算力成本。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。