英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

作者：故渊 2024-10-22 09:46

科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。

科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。

nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。

传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。

这种几何结构有助于创造更稳定高效的学习过程：

减少训练步骤：nGPT 不再直接对模型权重应用权重衰减，而是依赖学习到的缩放参数，优化模型在训练中的调整方式。
简化过程：此方法消除了对 LayerNorm 或 RMSNorm 等归一化技术的需求，使训练过程更为简单和快速。

英伟达团队使用 OpenWebText 数据集进行测试，nGPT 在速度和效率上均优于传统的 GPT 模型。对于长达 4000 个 tokens 的文本输入，nGPT 所需的训练轮次远少于传统模型，显著缩短了训练时间。

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

nGPT 的一个关键优势是将归一化（normalization）和表示学习（representation learning）结合成一个统一框架，这种设计简化了模型架构，便于扩展和适应更复杂的混合系统。未来，nGPT 的方法可能被整合进其他类型的模型和架构，从而开发出更强大的 AI 系统。

AI在线附上参考地址

nGPT: Normalized Transformer with Representation Learning on the Hypersphere

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布，其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术，利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化，进一步提升了模型性能。在 watsonx.ai平台上，用户可以通过两种方式使用 DeepSeek 蒸馏模型。

2/11/2025 2:25:00 PM

AI在线

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

今日凌晨，全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布，DeepSeek-R1在 Hugging Face 上获得了超过10000个赞，成为该平台近150万个模型中最受欢迎的大模型。这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。

2/24/2025 9:30:00 AM

AI在线

DeepSeek 更新 R1 推理 AI 模型：代码生成与复杂推理性能大幅提升推理能力比肩 o1

DeepSeek 公司近日对其高性能推理 AI 模型 DeepSeek-R1进行了重大更新，显著提升了模型在代码生成和复杂推理任务中的表现，引发人工智能领域的广泛关注。以下基于公开信息和最新动态，全面解析此次更新的关键亮点。 R1模型更新:代码能力大幅提升DeepSeek-R1的最新更新在代码生成能力上取得了显著突破。

5/29/2025 10:01:21 AM

AI在线

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

相关资讯

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

DeepSeek 更新 R1 推理 AI 模型：代码生成与复杂推理性能大幅提升 推理能力比肩 o1

DeepSeek 更新 R1 推理 AI 模型：代码生成与复杂推理性能大幅提升推理能力比肩 o1