AIGC宇宙 AIGC宇宙

理论

DeepSeek太给力了!自家的大模型秘方开源到底!国产大模型雄起

出品 | 51CTO技术栈(微信号:blog51cto)DeepSeek “开源周”第五天,依旧保持了一如既往地“务实”风,满满的诚意。 先来回忆下前四天,源神的慷慨发布——第一天,2月24日,最为外界称道的MLA技术率先开源,这项解码加速器FlashMLA技术能够让英伟达Hopper架构GPU跑得更快,效果更好! 紧接着,25日,直接亮出首个面向MoE模型的开源专家并行通信库DeepEP,实现了MoE训练推理的全栈优化;第三天,则进一步祭出一项跨时代的发布:FP8通用矩阵乘法加速库,从底层让模型训练、微调变得更加流畅丝滑;第四天,也就是昨天的并行优化“三剑客”:DeepSeek-V3和R1 模型背后的并行计算优化技术——DualPipe(双向流水线并行算法,让计算和通信高效协同)、EPLB ( 专家并行负载均衡器,让每个 GPU 都“雨露均沾”)、profile-data (性能分析数据,可以理解成V3/R1 的并行优化的分析经验)可以说前四天的发布聚焦在算力通信、模型架构优化,也就是算力和算法的层面,而接下来第五天的开源则补上了AI三驾马车的最后一块,也是用户体验感知更为明显的一块优化动作:高性能分布式文件系统(数据存储层面的改进)。
2/28/2025 12:32:42 PM

DeepSeek开源周最后一天:让数据处理「从自行车升级到高铁」

DeepSeek 的开源周终于迎来了最后一天。 今天他们开源了一个名为 3FS(Fire-Flyer File System)的系统。 这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽,能够加速和推动 DeepSeek 平台上所有数据访问操作。
2/28/2025 10:36:25 AM
机器之心

81%的美国人对AI说“不”:科技圈的“打脸”时刻?

在科技巨头们纷纷砸下重金布局人工智能的时代,你有没有想过,那些身处职场的美国上班族们,到底有没有把AI用起来呢? 最近,皮尤研究中心的一项调查给出了答案:大多数美国人,其实还在AI的门外徘徊。 这项调查在2024年10月进行,涵盖了5273名美国在职成年人。
2/28/2025 10:16:13 AM
舒云

DeepSeek 开源进度 5/5:高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s

2 月 28 日消息,DeepSeek 在开源周第五天发布了 3FS(Fire-Flyer File . System),这是一个专为充分利用现代 SSD 和 RDMA . 网络带宽而设计的并行文件系统,具备惊人的数据访问性能,为深度学习等数据密集型应用提供了强大的支持。
2/28/2025 10:01:06 AM
故渊

疯了!居然有人试图让我搞懂,什么是 DeepGEMM

DeepSeek开源周,继DeepEP之后,开源了第三弹DeepGEMM。 今天简单来说说:吃瓜:DeepGMEE是干嘛的? 技术:DeepGMEE是怎么做到的?
2/28/2025 9:30:00 AM
58沈剑

DeepSeek“出圈”了,鹅厂人怎么看?

话题背景在人工智能领域,大型语言模型的快速发展引发了无数关于技术革新和未来趋势的讨论。 随着各类AI技术的不断突破,越来越多的创新模型开始崭露头角,而最近备受关注的DeepSeek更是成为了热议的焦点。 它被一些人称为“AI技术的重大突破”,甚至被认为是下一代人工智能发展的重要方向。
2/28/2025 9:00:00 AM
腾讯技术工程

任意Prompt就能给大模型实时排名!竞技场新玩法,还能自动找最佳AI来作答

给大模型排名这事儿,现在有了新玩法——任意输入一个Prompt,就能给大模型们实时排名,精准找到最适合做这个Prompt的大模型! 这就是竞技场(lmarena.ai)最新推出的排名方式,叫做Prompt-to-leaderboard(P2L)。 主打的就是找到最能直击你Prompt“灵魂”的那款大模型。
2/28/2025 8:40:00 AM
量子位

DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发

按时整活! DeepSeek开源周第四天,直接痛快「1日3连发」,且全都围绕一个主题:优化并行策略。 DualPipe:一种创新的双向流水线并行算法,能够完全重叠前向和后向计算-通信阶段,并减少“流水线气泡”。
2/27/2025 1:10:00 PM
量子位

榨干每一分算力:Distillation Scaling Laws带你走进高效模型新时代

初次阅读这篇文章,感到非常震撼。 在DeepSeek将知识蒸馏方法带入大众视野后,Apple与牛津大学的研究人员迅速提出了蒸馏缩放定律,并已于2月28日完成了所有实验及一篇长达67页的论文上传至arXiv。 这种效率和深度,无疑展示了大公司的研究实力。
2/27/2025 12:42:54 PM
Gloadma

外网夸爆DeepSeek开源周!今天一口气开源3个重磅!压轴戏期待拉满,R2、V4、被提名

出品 | 51CTO技术栈(微信号:blog51cto)好家伙! DeepSeek是真的OpenAI啊! 在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3/R1模型中的干货:DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。
2/27/2025 12:31:40 PM

DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升

开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
2/27/2025 12:06:45 PM
新智元

被DeepSeek带火的知识蒸馏详解!

今天来详细了解DeepSeek中提到的知识蒸馏技术,主要内容来自三巨头之一Geoffrey Hinton的一篇经典工作:。 主要从背景、定义、原理、代码复现等几个方面来介绍:1、背景介绍训练与部署的不一致性在机器学习和深度学习领域,训练模型和部署模型通常存在显著差异。 训练阶段,为了追求最佳性能,我们通常会使用复杂的模型架构和大量的计算资源,从海量且高度冗余的数据集中提取有用信息。
2/27/2025 10:41:53 AM
Glodma

曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

嚯,万众期待的GPT-4.5,本周就要空降发布? ! 部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。
2/27/2025 9:49:15 AM
量子位

OpenAI Deep Research已向所有付费用户开放,系统卡发布

相信很多用户已经见识过或至少听说过 Deep Research 的强大能力。 今天凌晨,OpenAI 宣布 Deep Research 已经面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户推出(刚发布时仅有 Pro 用户可用),同时,OpenAI 还发布了 Deep Research 系统卡。 此外,OpenAI 研究科学家 Noam Brown 还在 𝕏 上透露:Deep Research 使用的基础模型是 o3 正式版,而非 o3-mini。
2/27/2025 9:45:50 AM
机器之心

DeepSeek 开源第二弹 DeepEP,但它究竟是个啥?(终于懂了...)

deepseek开源周,继Flash-MLA之后,开源了第二弹DeepEP。 画外音:上一顿还没消化完,新的大餐又来了。 今天简单聊聊:吃瓜:DeepEP是干嘛的?
2/27/2025 9:40:00 AM
58沈剑

DeepSeek引爆,英伟达特供版H20需求激增!特朗普「急」了?

DeepSeek的横空出世会让英伟达「失宠」? DeepSeek爆火之时,英伟达的H20芯片在中国市场也随之走俏,订单量暴增。 路透社消息,六位知情人士表示,由于DeepSeek模型需求的激增,中国企业正在大幅增加对英伟达H20 GPU的订单量。
2/27/2025 9:34:32 AM
新智元

AI再次突破安全红线,留给人类不到一年治理窗口

人工智能的发展与棋类游戏有着不解的缘分,从1962年跳棋程序首次战胜人类棋手,到1997年IBM深蓝击败国际象棋棋王,再到2016年阿法狗击败李世石,每一次AI浪潮都率先在棋盘上取得突破。 但是,AI最近在棋盘上的“炸裂”表现,却让全球科技行业不寒而栗。 根据Palisade Research一项最新AI安全研究,像OpenAI的o1-preview这样的新型AI在面对强大对手时,若察觉胜算渺茫,并不总是推枰认输,而是可能通过毫无底线的“作弊”手法翻盘——比如直接入侵对手系统,迫使对方自动放弃比赛。
2/27/2025 9:26:58 AM
佚名

DeepSeek 总崩溃?如何快速使用满血版DeepSeek!!

DeepSeek 太火了,我们在使用的过程中,是不是经常遇到服务器繁忙的情况。 后台很多同学都在询问有没有快速、免费使用满血版 DeepSeek 的平台。 今天就给大家推荐一款免费使用满血版 DeepSeek-R1 671B 的平台,彻底解决服务器卡顿的情况,主打一个快、稳定,而且免费它支持多端使用,包括 iOS/安卓/PC/web废话不多说,让我们直接上手,看看如何使用这里以web为例进行演示,网址为 ,点击左侧的满血版 DeepSeek,默认开启深度思考和联网搜索。
2/27/2025 9:17:41 AM
程序员小寒