英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

作者：故渊 2024-10-22 09:46

科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。

科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。

nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。

传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。

这种几何结构有助于创造更稳定高效的学习过程：

减少训练步骤：nGPT 不再直接对模型权重应用权重衰减，而是依赖学习到的缩放参数，优化模型在训练中的调整方式。
简化过程：此方法消除了对 LayerNorm 或 RMSNorm 等归一化技术的需求，使训练过程更为简单和快速。

英伟达团队使用 OpenWebText 数据集进行测试，nGPT 在速度和效率上均优于传统的 GPT 模型。对于长达 4000 个 tokens 的文本输入，nGPT 所需的训练轮次远少于传统模型，显著缩短了训练时间。

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

nGPT 的一个关键优势是将归一化（normalization）和表示学习（representation learning）结合成一个统一框架，这种设计简化了模型架构，便于扩展和适应更复杂的混合系统。未来，nGPT 的方法可能被整合进其他类型的模型和架构，从而开发出更强大的 AI 系统。

AI在线附上参考地址

nGPT: Normalized Transformer with Representation Learning on the Hypersphere

万字独家爆光，首揭o1 pro架构！惊人反转，Claude 3.5 Opus没失败？

大模型Scaling Law终结，前段时间曾被吵得沸沸扬扬。面对诸多的质疑，硅谷巨头们用行动给出了截然不同的答案。谷歌祭出最强下一代新模型Gemini 2.0 Flash，并带着多个智能体一同亮相；OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。

12/16/2024 9:00:00 AM

新智元

DeepSeek-V3 发布新论文，揭示低成本大模型训练的奥秘

近日，DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文，重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。这篇长达14页的论文不仅总结了 DeepSeek 在开发 V3过程中的经验与教训，还为未来的硬件设计提供了深刻的见解。值得注意的是，DeepSeek 的 CEO 梁文锋也参与了论文的撰写。

5/16/2025 9:00:55 AM

AI在线

一文读懂DeepSeek-V3 技术报告

2023年7月17日，DeepSeek正式成立，由幻方量化提供资金支持。梁文锋凭借其在金融和AI领域的深厚背景，带领团队开始探索生成式AI技术。同年11月2日，DeepSeek推出首款开源模型DeepSeek Coder，支持多种编程语言的代码生成、调试和数据分析任务，为AI领域的应用奠定了基础，直到 2024 年 12 月，DeepSeek-V3的发布引发了行业震动和社会广泛关注，在他们的最新技术报告《DeepSeek-V3技术报告》中，团队详细介绍了其最新成果——DeepSeek-V3模型。

2/12/2025 8:30:18 AM

FlerkenS

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

相关资讯

万字独家爆光，首揭o1 pro架构！惊人反转，Claude 3.5 Opus没失败？

DeepSeek-V3 发布新论文，揭示低成本大模型训练的奥秘

一文读懂DeepSeek-V3 技术报告