架构
DeepSeek 悄然发布 DeepSeek-V3–0324:远超预期的重大升级
DeepSeek 近期悄然发布的 DeepSeek-V3–0324,在 AI 社区和行业内引发了广泛关注。 这一版本是 DeepSeek V3 (DeepSeek-V3 深度剖析:下一代 AI 模型的全面解读)模型的重要升级,其带来的一系列技术革新和性能提升远超众人预期,为开发者和企业带来了新的机遇与可能。 一、DeepSeek-V3–0324 的技术突破(一)Multi-head Latent Attention(MLA)和增强的 DeepSeekMoE 架构DeepSeek-V3–0324 引入了 Multi-head Latent Attention(MLA)和增强版的 DeepSeekMoE 架构,这些创新技术为模型性能的提升奠定了坚实基础。
3/28/2025 4:30:00 AM
大模型之路
DeepSeek 开源 V3/R1 架构设计思路,原来 545% 的利润率,它也只是被逼无奈?
开源周的最后一天,DeepSeek分享了DeepSeek-V3/R1的架构设计思路,让大家能够更系统更全面的了解其推理系统的设计过程,以及更深刻的理解之前开源的6个项目。 DeepSeek-V3/R1推理系统的核心目标是什么? 通过软件架构的优化,达到:更高的吞吐量;更低的延时;为什么DeepSeek要走这一条路?
3/20/2025 9:00:00 AM
架构师之路
DeepSeek 3FS 架构分析和思考(上篇)
2025 年 2 月28 日,DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System,简称 3FS。 该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程,在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。 项目一经发布,就获得了存储领域的广泛关注。
3/13/2025 1:51:46 PM
火山引擎存储团队
Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节
Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。 训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量合成数据。 它的设计体现了小型语言模型在多模态任务上的潜力。
3/10/2025 2:00:00 AM
余俊晖
“源神”DeepSeek!突破H800性能上限,FlashMLA重磅开源,算力成本还能降
DeepSeek开源周第一天,降本大法公开——FlashMLA,直接突破H800计算上限。 网友:这怎么可能? ?
2/24/2025 11:31:33 AM
一文读懂DeepSeek-V3 技术报告
2023年7月17日,DeepSeek正式成立,由幻方量化提供资金支持。 梁文锋凭借其在金融和AI领域的深厚背景,带领团队开始探索生成式AI技术。 同年11月2日,DeepSeek推出首款开源模型DeepSeek Coder,支持多种编程语言的代码生成、调试和数据分析任务,为AI领域的应用奠定了基础,直到 2024 年 12 月,DeepSeek-V3的发布引发了行业震动和社会广泛关注,在他们的最新技术报告《DeepSeek-V3技术报告》中,团队详细介绍了其最新成果——DeepSeek-V3模型。
2/12/2025 8:30:18 AM
FlerkenS
OpenAI Agent来了!大小事务自动帮你搞定,带推送提醒的那种,今日可开玩
开年第一剑,OpenAI Agent闪亮登场! ChatGPT新功能「Tasks」,让AI有了执行力,可以替你完成各种任务。 无论是一次性提醒还是重复执行的动作,告诉ChatGPT你需要什么以及何时需要,它会自动帮你处理。
1/15/2025 8:32:33 AM
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
大模型Scaling Law终结,前段时间曾被吵得沸沸扬扬。 面对诸多的质疑,硅谷巨头们用行动给出了截然不同的答案。 谷歌祭出最强下一代新模型Gemini 2.0 Flash,并带着多个智能体一同亮相;OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。
12/16/2024 9:00:00 AM
新智元
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
量化到1 bit的LLM还能再突破? 这次,他们对激活值下手了! 近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值:图片论文地址:,激活值量化通常是比较难办的。
12/6/2024 7:17:07 AM
新智元
重磅开源!Kimi把自家底层推理架构都开源了,开源贡献阵容相当豪华:清华、阿里、华为、AISoft、面壁智能
就在昨天,Kimi宣布要把自家底层的大模型推理架构Mooncake开源出来! 有媒体称该架构正是承载了月之暗面Kimi线上80%以上流量的正在用的底层架构。 小编立马求证了一番,的确Github上有提到:Mooncake 正在服务Kimi平台。
11/29/2024 1:54:13 PM
英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20
科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。
10/22/2024 9:46:42 AM
故渊
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉