架构

Transformer 模型结构详解及代码实现!

一、Transformer简要发展史以下是Transformer模型发展历史中的关键节点：Transformer架构于2017年6月推出。原本研究的重点是翻译任务。随后推出了几个有影响力的模型，包括：时间模型简要说明2017 年 6 月「Transformer」Google 首次提出基于 Attention 的模型，用于机器翻译任务2018 年 6 月「GPT」第一个使用 Transformer 解码器模块进行预训练的语言模型，适用于多种 NLP 任务2018 年 10 月「BERT」使用 Transformer 编码器模块，通过掩码语言建模生成更强大的句子表示2019 年 2 月「GPT-2」更大更强的 GPT 版本，由于潜在风险未立即发布，具备出色的文本生成能力2019 年 10 月「DistilBERT」BERT 的轻量化版本，在保留 97% 性能的同时，速度更快、内存占用更低2019 年 10 月「BART、T5」使用完整的 Encoder-Decoder 架构，在各种 NLP 任务中表现优异2020 年 5 月「GPT-3」超大规模语言模型，支持“零样本学习”，无需微调即可完成新任务这个列表并不全面，只是为了突出一些不同类型的 Transformer 模型。

5/20/2025 8:15:00 AM

郭小喵玩AI

DeepSeek-V3 发布新论文，揭示低成本大模型训练的奥秘

近日，DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文，重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。这篇长达14页的论文不仅总结了 DeepSeek 在开发 V3过程中的经验与教训，还为未来的硬件设计提供了深刻的见解。值得注意的是，DeepSeek 的 CEO 梁文锋也参与了论文的撰写。

5/16/2025 9:00:55 AM

AI在线

DeepSeek 悄然发布 DeepSeek-V3–0324：远超预期的重大升级

DeepSeek 近期悄然发布的 DeepSeek-V3–0324，在 AI 社区和行业内引发了广泛关注。这一版本是 DeepSeek V3 （DeepSeek-V3 深度剖析：下一代 AI 模型的全面解读）模型的重要升级，其带来的一系列技术革新和性能提升远超众人预期，为开发者和企业带来了新的机遇与可能。一、DeepSeek-V3–0324 的技术突破（一）Multi-head Latent Attention（MLA）和增强的 DeepSeekMoE 架构DeepSeek-V3–0324 引入了 Multi-head Latent Attention（MLA）和增强版的 DeepSeekMoE 架构，这些创新技术为模型性能的提升奠定了坚实基础。

3/28/2025 4:30:00 AM

大模型之路

DeepSeek 开源 V3/R1 架构设计思路，原来 545% 的利润率，它也只是被逼无奈？

开源周的最后一天，DeepSeek分享了DeepSeek-V3/R1的架构设计思路，让大家能够更系统更全面的了解其推理系统的设计过程，以及更深刻的理解之前开源的6个项目。 DeepSeek-V3/R1推理系统的核心目标是什么？通过软件架构的优化，达到：更高的吞吐量；更低的延时；为什么DeepSeek要走这一条路？

3/20/2025 9:00:00 AM

架构师之路

DeepSeek 3FS 架构分析和思考（上篇）

2025 年 2 月28 日，DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System，简称 3FS。该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程，在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。项目一经发布，就获得了存储领域的广泛关注。

3/13/2025 1:51:46 PM

火山引擎存储团队

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型，通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

3/10/2025 2:00:00 AM

余俊晖

“源神”DeepSeek！突破H800性能上限，FlashMLA重磅开源，算力成本还能降

DeepSeek开源周第一天，降本大法公开——FlashMLA，直接突破H800计算上限。网友：这怎么可能？？

2/24/2025 11:31:33 AM

一文读懂DeepSeek-V3 技术报告

2023年7月17日，DeepSeek正式成立，由幻方量化提供资金支持。梁文锋凭借其在金融和AI领域的深厚背景，带领团队开始探索生成式AI技术。同年11月2日，DeepSeek推出首款开源模型DeepSeek Coder，支持多种编程语言的代码生成、调试和数据分析任务，为AI领域的应用奠定了基础，直到 2024 年 12 月，DeepSeek-V3的发布引发了行业震动和社会广泛关注，在他们的最新技术报告《DeepSeek-V3技术报告》中，团队详细介绍了其最新成果——DeepSeek-V3模型。

2/12/2025 8:30:18 AM

FlerkenS

OpenAI Agent来了！大小事务自动帮你搞定，带推送提醒的那种，今日可开玩

开年第一剑，OpenAI Agent闪亮登场！ ChatGPT新功能「Tasks」，让AI有了执行力，可以替你完成各种任务。无论是一次性提醒还是重复执行的动作，告诉ChatGPT你需要什么以及何时需要，它会自动帮你处理。

1/15/2025 8:32:33 AM

万字独家爆光，首揭o1 pro架构！惊人反转，Claude 3.5 Opus没失败？

大模型Scaling Law终结，前段时间曾被吵得沸沸扬扬。面对诸多的质疑，硅谷巨头们用行动给出了截然不同的答案。谷歌祭出最强下一代新模型Gemini 2.0 Flash，并带着多个智能体一同亮相；OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。

12/16/2024 9:00:00 AM

新智元

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

量化到1 bit的LLM还能再突破？这次，他们对激活值下手了！近日，BitNet系列的原班人马推出了新一代架构：BitNet a4.8，为1 bit大模型启用了4位激活值：图片论文地址：，激活值量化通常是比较难办的。

12/6/2024 7:17:07 AM

新智元

重磅开源！Kimi把自家底层推理架构都开源了，开源贡献阵容相当豪华：清华、阿里、华为、AISoft、面壁智能

就在昨天，Kimi宣布要把自家底层的大模型推理架构Mooncake开源出来！有媒体称该架构正是承载了月之暗面Kimi线上80%以上流量的正在用的底层架构。小编立马求证了一番，的确Github上有提到：Mooncake 正在服务Kimi平台。

11/29/2024 1:54:13 PM

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。

10/22/2024 9:46:42 AM

故渊

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ ChatGPT 语音功能升级，实时翻译对话更自然流畅支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊