AIGC宇宙 AIGC宇宙

英伟达新开源模型 Llama-Nemotron 震撼发布,推理性能超越 DeepSeek-R1

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。 根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。

image.png

Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。这些模型的性能在业界引发了广泛关注,尤其是 LN-Ultra,它在推理任务中表现优异,能够在单个8xH100节点上高效运行,同时支持最多128K 的上下文长度,这在大语言模型中可谓是独一无二。

值得一提的是,英伟达在开源界首次推出了 “推理开关” 功能,用户只需通过系统提示词 “detailed thinking on/off” 即可轻松切换不同的推理模式。这一设计使得模型能够在日常对话与复杂的多步骤推理之间自如转换,极大地满足了不同用户的需求。

image.png

Llama-Nemotron 模型的构建分为五个阶段,首先通过神经架构搜索(NAS)优化推理效率,接着进行知识蒸馏与预训练,以恢复模型性能。随后,进行了有监督微调(SFT),结合标准指令数据与强大教师模型的推理过程,提升模型的多步骤推理能力。特别是在复杂的数学和 STEM 数据集上进行强化学习训练,使 LN-Ultra 在科学推理方面脱颖而出。

在模型架构方面,Llama-Nemotron 引入了新颖的 Puzzle 框架,能够根据硬件限制转化大语言模型为高效版本,提升计算性能。这一系列优化措施为 LN-Ultra 的推理能力奠定了坚实基础。

英伟达的 Llama-Nemotron 系列模型在推理效率、内存管理和用户交互方面的创新,标志着开源人工智能模型领域的一次重大突破。

论文地址:https://arxiv.org/pdf/2505.00949

相关资讯

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布,其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术,利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化,进一步提升了模型性能。 在 watsonx.ai平台上,用户可以通过两种方式使用 DeepSeek 蒸馏模型。
2/11/2025 2:25:00 PM
AI在线

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。 面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。 从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。
2/5/2025 2:37:00 PM
机器之心

程序员购买OGOpenAI.com域名转向DeepSeek

最近,一名软件工程师以 “不到一顿 Chipotle 餐的价格” 购买了 OGOpenAI.com 域名,并将其重定向至中国人工智能实验室 DeepSeek 的网站。 该实验室在开源 AI 领域崭露头角,吸引了广泛的关注。 据软件工程师阿纳奈・阿罗拉(Ananay Arora)向《TechCrunch》透露,他的初衷是为了支持 DeepSeek,因为该实验室最近推出了一款名为 DeepSeek-R1的开放版本模型,声称在某些基准测试中表现优于 OpenAI 的 o1。
1/23/2025 4:32:00 PM
AI在线
testab