英伟达发布Llama3.1 Nemotron Ultra 253B,性能超越Llama 4 Behemoth
发布时间:2025-04-09 09:46:22 | 责任编辑:字母汇 | 浏览量:21 次
2025年4月8日,英伟达(NVIDIA)宣布推出其最新大型语言模型(LLM)——Llama3.1Nemotron Ultra253B。这一模型基于Meta的Llama-3.1-405B-Instruct开发,通过创新的神经架构搜索(NAS)技术进行了深度优化,不仅在性能上超过了近期发布的Llama4系列中的Behemoth和Maverick,还以开源形式在Hugging Face平台上发布,引发了AI社区的广泛关注。
性能突破:碾压Llama4Behemoth和Maverick
根据英伟达官方披露的信息以及社交媒体上的最新讨论,Llama3.1Nemotron Ultra253B在多个关键基准测试中表现出色。这一模型拥有2530亿个参数,相较于Llama4Behemoth高达2万亿的总参数量(2880亿活跃参数)以及Maverick的170亿活跃参数,Nemotron Ultra在效率和性能的平衡上实现了显著突破。
尽管具体基准数据尚未完全公开,但Nemotron Ultra据称在推理能力、指令遵循和通用任务处理上超越了Llama4系列的旗舰模型。这得益于英伟达通过NAS技术对模型架构的优化,显著降低了内存占用和推理延迟,同时保持了高精度。相比之下,Llama4Behemoth虽然参数量庞大,但在计算资源需求上更为苛刻,而Nemotron Ultra能够在单节点8x H100GPU上高效运行,展现了其在实用性上的优势。
开源发布:Hugging Face上的商业友好模型
Llama3.1Nemotron Ultra253B不仅性能强劲,其开源策略也备受赞誉。该模型已在Hugging Face平台上提供开放权重,遵循NVIDIA Open Model License和Llama3.1社区许可协议,支持商业使用。
据称,Nemotron Ultra253B不仅击败了Llama4Behemoth和Maverick,还与DeepSeek R1不相上下,且具备商业许可,这太火爆了!”这一举措被认为是英伟达推动AI民主化的重要一步,为开发者、企业和研究人员提供了高性能模型的便捷访问渠道。
此外,该模型支持高达128K的上下文长度,适用于高级推理、聊天交互、检索增强生成(RAG)和工具调用等多种任务。英伟达特别强调,开发者可通过系统提示切换“推理模式”(Reasoning On/Off),灵活应对不同应用场景的需求。
值得注意的是,Llama4Behemoth尚未完全发布(目前仍处于训练阶段),因此直接比较可能尚不全面。尽管如此,Nemotron Ultra凭借其开源性质和对单GPU集群的高效适配,已被视为当前AI领域的一匹黑马。
英伟达的战略布局
业内人士分析,Llama3.1Nemotron Ultra253B的发布不仅是技术上的突破,也是英伟达在AI生态系统中的战略布局。通过优化现有开源模型并提升其性能,英伟达不仅展示了其在AI软件开发上的实力,也进一步巩固了其硬件(特别是H100GPU)在AI推理和训练中的核心地位。这一模型的效率优势意味着企业能够在更低的成本下部署高性能AI解决方案,无疑将推动英伟达硬件的市场需求。
Llama3.1Nemotron Ultra253B的亮相标志着英伟达在大型语言模型领域的又一次重大进展。其超越Llama4Behemoth和Maverick的性能表现,结合开源和商业友好的特性,使其成为2025年AI领域的一大亮点。
英伟达于2025年4月8日正式发布了 Llama3.1 Nemotron Ultra 253B,这是一款基于Meta的Llama-3.1-405B-Instruct模型开发的大型语言模型(LLM),专为推理和复杂任务设计。该模型拥有2530亿个参数,通过英伟达的神经架构搜索(NAS)技术进行了深度优化,显著降低了内存占用和计算需求,同时保持了高性能。
核心特点
- 推理效率与准确性:Llama3.1 Nemotron Ultra 253B 在科学推理、复杂数学推理、编码、工具调用和指令遵循方面表现出色,其推理效率和准确性均达到了行业领先水平。
- 推理模式切换:模型支持“推理模式”开关,开发者可以根据任务需求在高复杂度推理任务和更简单的输出之间切换。
- 多语言支持:除了英语外,还支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等多种语言。
- 开源与商业使用:该模型在Hugging Face上开源,采用Nvidia Open Model License和Llama 3.1社区许可协议,允许商业使用。
性能表现
- 在多个基准测试中,Llama3.1 Nemotron Ultra 253B 的表现超过了Llama 4 Behemoth和DeepSeek R1。例如,在MATH500基准测试中,推理模式下的准确率从80.40%提升至97.00%;在AIME25基准测试中,准确率从16.67%提升至72.50%。
- 与DeepSeek R1相比,尽管参数数量不到其一半,但在GPQA(76.01% vs. 71.5%)、IFEval指令遵循(89.45% vs. 83.3%)和LiveCodeBench编码任务(66.31% vs. 65.9%)等任务中表现更优。
技术细节
- 架构优化:通过NAS技术引入了结构变化,如跳过注意力层、融合前馈网络(FFN)和可变FFN压缩比,减少了内存占用和计算需求。
- 多阶段后训练:包括针对数学、编码、聊天和工具使用的监督微调,以及使用群体相对策略优化(GRPO)算法的强化学习阶段,以进一步提升指令遵循和推理性能。
使用与集成
- 兼容性:与Hugging Face Transformers库(推荐版本4.48.3)兼容,支持长达128,000个token的输入和输出序列。
- 推理模式控制:开发者可以通过系统提示控制推理行为,并根据任务需求选择解码策略。对于推理任务,推荐使用温度采样(0.6)和top-p值0.95;对于确定性输出,推荐使用贪婪解码。
Llama3.1 Nemotron Ultra 253B 的发布,不仅展示了英伟达在AI领域的技术实力,也为开发者提供了一个强大的工具,用于构建高性能的AI应用。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。