文章列表
榨干每一分算力:Distillation Scaling Laws带你走进高效模型新时代
初次阅读这篇文章,感到非常震撼。 在DeepSeek将知识蒸馏方法带入大众视野后,Apple与牛津大学的研究人员迅速提出了蒸馏缩放定律,并已于2月28日完成了所有实验及一篇长达67页的论文上传至arXiv。 这种效率和深度,无疑展示了大公司的研究实力。
2/27/2025 12:42:54 PM
Gloadma
外网夸爆DeepSeek开源周!今天一口气开源3个重磅!压轴戏期待拉满,R2、V4、被提名
出品 | 51CTO技术栈(微信号:blog51cto)好家伙! DeepSeek是真的OpenAI啊! 在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3/R1模型中的干货:DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。
2/27/2025 12:31:40 PM
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
2/27/2025 12:06:45 PM
新智元
DeepSeek一口气开源3个项目,还有梁文锋亲自参与,昨晚API大降价
实现顶级 AI 性能的秘诀,就在这里了。 DeepSeek 的开源周已经进行到了第四天(前三天报道见文末「相关阅读」)。 今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据。
2/27/2025 11:45:00 AM
机器之心
发布在即?OpenAI GPT-4.5出现在Android应用测试版
最近,OpenAI 正在为其新一代语言模型 GPT-4.5的预览版做准备,这一消息引发了广泛关注。 根据发现,这一开发成果出现在 ChatGPT 的 Android 应用程序中,作为一个已宣布的实验性选项,尽管目前还无法访问。 根据最新通知,GPT-4.5最初将专门向 Pro 订阅用户提供。
2/27/2025 11:15:00 AM
AI在线
前OpenAI首席技术官穆拉蒂创立新公司 估值将达90亿美元
在硅谷,前OpenAI首席技术官米拉・穆拉蒂(Mira Murati)的新公司 Thinking Machines Lab 正成为投资者关注的焦点。 据《商业内幕》的报道,这家成立不到一年的初创公司正在筹集10亿美元融资,估值预计将达到惊人的90亿美元,折合人民币约653.57亿元。 这一估值在初创企业中可谓凤求凰,尤其是在竞争激烈的人工智能(AI)行业中。
2/27/2025 11:14:00 AM
AI在线
DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命
今日,国内人工智能领军企业DeepSeek正式公开其开源计划的第四日成果——Optimized Parallelism Strategies(优化并行策略),重点推出双向管道并行算法DualPipe、专家并行负载均衡器EPLB,以及对计算-通信重叠机制的深度优化。 此次技术升级直击大规模语言模型训练的核心痛点,为超万卡级集群的高效运行提供了全新解决方案。 DualPipe:双向管道并行算法作为本次升级的核心技术之一,DualPipe专为V3/R1架构设计,通过创新的双向数据流管道,实现计算与通信的高度重叠。
2/27/2025 10:45:00 AM
AI在线
被DeepSeek带火的知识蒸馏详解!
今天来详细了解DeepSeek中提到的知识蒸馏技术,主要内容来自三巨头之一Geoffrey Hinton的一篇经典工作:。 主要从背景、定义、原理、代码复现等几个方面来介绍:1、背景介绍训练与部署的不一致性在机器学习和深度学习领域,训练模型和部署模型通常存在显著差异。 训练阶段,为了追求最佳性能,我们通常会使用复杂的模型架构和大量的计算资源,从海量且高度冗余的数据集中提取有用信息。
2/27/2025 10:41:53 AM
Glodma
全球AI顶会AAAI 2025 在美开幕,产学研联手的“中国队”表现亮眼
当地时间2月25日,AAAI 2025 在美国宾夕法尼亚州费城举办,会议为期8天,于3月4日结束。 AAAI 由国际人工智能促进协会主办,是人工智能领域历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议,每年举办一届。 AAAI 2025 共有12957篇有效投稿,录用3032篇,录取率为 23.4%。
2/27/2025 10:28:00 AM
新闻助手
字节跳动悟空浏览器接入DeepSeek R1模型,或为抖音接入铺路
字节跳动旗下悟空浏览器近日正式接入DeepSeek R1模型,这一举措引发业界广泛关注。 与此前飞书、火山引擎接入DeepSeek不同,悟空浏览器作为面向C端用户的产品,融合了抖音与番茄小说等内容,其接入被认为可能为抖音未来接入DeepSeek铺路。 目前,悟空浏览器同时搭载豆包与DeepSeek两大模型,DeepSeek R1主要负责智能对话与文本生成,而豆包则提供AI快捷功能,应用场景更为广泛。
2/27/2025 10:06:00 AM
AI在线
英伟达CEO黄仁勋: DeepSeek不会对公司销售造成影响,销量持续攀升
在近日的财报电话会议上,英伟达 CEO 黄仁勋对公司的未来展望依旧充满信心,尽管上个月因中国的 DeepSeek 技术引发了一场市场恐慌。 他表示,DeepSeek 的推出不会对公司的销售造成影响。 市场对 DeepSeek R1模型所需的芯片数量大幅减少的猜测,曾导致英伟达的股价出现了创纪录的下跌。
2/27/2025 9:53:00 AM
AI在线
曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考
嚯,万众期待的GPT-4.5,本周就要空降发布? ! 部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。
2/27/2025 9:49:15 AM
量子位
2025年AI大模型价格战加剧,相关概念股受到资金追捧
近年来,人工智能(AI)大模型技术发展迅猛,随之而来的降价潮使得市场竞争愈发激烈。 根据数据宝的最新统计,2025年这一降价趋势仍将持续。 尤其是在过去的一段时间里,字节跳动、阿里云等企业纷纷宣布降低旗下 AI 大模型的使用成本,引发了业界的广泛关注。
2/27/2025 9:49:00 AM
AI在线
OpenAI Deep Research已向所有付费用户开放,系统卡发布
相信很多用户已经见识过或至少听说过 Deep Research 的强大能力。 今天凌晨,OpenAI 宣布 Deep Research 已经面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户推出(刚发布时仅有 Pro 用户可用),同时,OpenAI 还发布了 Deep Research 系统卡。 此外,OpenAI 研究科学家 Noam Brown 还在 𝕏 上透露:Deep Research 使用的基础模型是 o3 正式版,而非 o3-mini。
2/27/2025 9:45:50 AM
机器之心
DeepSeek 开源第二弹 DeepEP,但它究竟是个啥?(终于懂了...)
deepseek开源周,继Flash-MLA之后,开源了第二弹DeepEP。 画外音:上一顿还没消化完,新的大餐又来了。 今天简单聊聊:吃瓜:DeepEP是干嘛的?
2/27/2025 9:40:00 AM
58沈剑
DeepSeek引爆,英伟达特供版H20需求激增!特朗普「急」了?
DeepSeek的横空出世会让英伟达「失宠」? DeepSeek爆火之时,英伟达的H20芯片在中国市场也随之走俏,订单量暴增。 路透社消息,六位知情人士表示,由于DeepSeek模型需求的激增,中国企业正在大幅增加对英伟达H20 GPU的订单量。
2/27/2025 9:34:32 AM
新智元
AI再次突破安全红线,留给人类不到一年治理窗口
人工智能的发展与棋类游戏有着不解的缘分,从1962年跳棋程序首次战胜人类棋手,到1997年IBM深蓝击败国际象棋棋王,再到2016年阿法狗击败李世石,每一次AI浪潮都率先在棋盘上取得突破。 但是,AI最近在棋盘上的“炸裂”表现,却让全球科技行业不寒而栗。 根据Palisade Research一项最新AI安全研究,像OpenAI的o1-preview这样的新型AI在面对强大对手时,若察觉胜算渺茫,并不总是推枰认输,而是可能通过毫无底线的“作弊”手法翻盘——比如直接入侵对手系统,迫使对方自动放弃比赛。
2/27/2025 9:26:58 AM
佚名
DeepSeek 总崩溃?如何快速使用满血版DeepSeek!!
DeepSeek 太火了,我们在使用的过程中,是不是经常遇到服务器繁忙的情况。 后台很多同学都在询问有没有快速、免费使用满血版 DeepSeek 的平台。 今天就给大家推荐一款免费使用满血版 DeepSeek-R1 671B 的平台,彻底解决服务器卡顿的情况,主打一个快、稳定,而且免费它支持多端使用,包括 iOS/安卓/PC/web废话不多说,让我们直接上手,看看如何使用这里以web为例进行演示,网址为 ,点击左侧的满血版 DeepSeek,默认开启深度思考和联网搜索。
2/27/2025 9:17:41 AM
程序员小寒