AIGC宇宙 AIGC宇宙

模型

曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

嚯,万众期待的GPT-4.5,本周就要空降发布? ! 部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。
2/27/2025 9:49:15 AM
量子位

OpenAI Deep Research已向所有付费用户开放,系统卡发布

相信很多用户已经见识过或至少听说过 Deep Research 的强大能力。 今天凌晨,OpenAI 宣布 Deep Research 已经面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户推出(刚发布时仅有 Pro 用户可用),同时,OpenAI 还发布了 Deep Research 系统卡。 此外,OpenAI 研究科学家 Noam Brown 还在 𝕏 上透露:Deep Research 使用的基础模型是 o3 正式版,而非 o3-mini。
2/27/2025 9:45:50 AM
机器之心

ScaleOT框架亮相AAAI 2025:提升隐私保护50%,降算力成本90%

近日,在全球人工智能顶级学术会议AAAI2025期间,蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队提出创新的跨域微调(offsite-tuning)框架——ScaleOT。 该框架能在模型性能无损前提下,将隐私保护效果提升50%,与知识蒸馏技术相比,算力消耗显著降低90%,为百亿级参数模型的跨域微调提供高效轻量化方案,论文因创新性入选AAAI的oral论文(本届大会近13000篇投稿,口头报告比例仅4.6%)。 跨域微调是目前业内保护模型产权与数据隐私的主流方案,通过有损压缩将大模型转换为仿真器,数据持有方基于其训练适配器并返回给大模型完成调优,数据和模型均未出域,可保护双方隐私,但存在局限性:一是“均匀抽积木”式处理易致模型关键层缺失,使性能显著下降;二是用蒸馏技术弥补性能损失,计算成本高;且现有方法隐私保护缺乏灵活性。
2/26/2025 2:13:00 PM
AI在线

幻方量化回应DeepSeek-R2模型提前发布:以官方消息为准

据券商中国消息,针对“DeepSeek新一代AI模型R2提前发布”的传闻,幻方量化相关人士作出回应,表示一切以官方消息为准。 据悉,幻方量化于2023年7月17日成立深度求索AI公司,并在今年1月成功发布了DeepSeek-R1模型。 而近日,路透社援引三位知情人士的消息称,DeepSeek正在加速推进R2模型的发布计划,原定于5月发布的计划现正努力提前。
2/26/2025 8:59:00 AM
AI在线

DeepSeek开放平台API充值服务已正式恢复

近日,DeepSeek API开放平台发布消息,宣布其API充值服务已正式恢复。 此前,由于服务器资源紧张,DeepSeek于2月6日暂停了API服务的充值功能。 此次恢复充值的同时,DeepSeek也对部分模型调用价格进行了调整。
2/25/2025 3:11:00 PM
AI在线

微软急刹车,被曝撤掉大波数据中心租赁!DeepSeek冲击,算力泡沫要破?

一个月内,微软市值已暴跌了3171亿美元,时间点正好是从DeepSeek在华尔街掀起风暴开始。 而就在刚刚,根据Bloomberg透露,作为OpenAI的最大支持者,微软已经取消了部分AI数据中心的租赁。 具体来说,微软在美国至少与两家私人运营商取消了协议,总计取消了「数百兆瓦」的租赁,相当于大约两个数据中心。
2/25/2025 1:00:00 PM
新智元

苹果计划将谷歌Gemini引入iOS:iOS 18.4测试版泄露第三方AI模型选项

最新消息显示,苹果公司正计划为其海外版iPhone和iPad引入谷歌Gemini模型,进一步扩展其人工智能生态布局。 据悉,苹果在2024年WWDC大会上宣布与OpenAI合作,将ChatGPT集成至iOS18系统,但这并非其为iPhone规划的唯一AI模型。 除了传闻中针对国行iPhone的阿里系模型外,谷歌Gemini也有望成为海外用户的新选择。
2/25/2025 11:17:00 AM
AI在线

双擎升级!商汤大装置DeepSeek企业版上线+免费版扩容

今年2月,商汤大装置万象平台正式上线了DeepSeek-R1、DeepSeek-V3等模型,并为免费版提供3个月内千万Token额度,受到客户的热烈响应。 为了更好的服务用户,经过系列优化,,现正式推出企业版,同时完成免费版国产化适配与算力扩容,形成专业强支撑 普惠广覆盖的双擎驱动! 登录官网,即刻体验!
2/24/2025 4:48:00 PM
新闻助手

DeepSeek 开源周首日:开源 FlashMLA,AI 推理速度再进化!

DeepSeek 开源周day1 推出 FlashMLA! 专为Hopper 架构 GPU打造的 超高效 MLA (Multi-Layer Attention) 解码内核,现在已经正式开源啦! 👏什么是 FlashMLA?
2/24/2025 10:07:04 AM
AI寒武纪

DeepSeek R-1 能否解答这五道“刁钻”AI 问题?

每当有新的语言模型公开发布时,我总会忍不住拿它来做一些看似简单、实则暗藏难点的小测试。 我把这当作给模型做“压力测试”,用来检验它们在逻辑推理上到底行不行。 DeepSeek R-1 刚发布不久,就因为它是开源、且推理能力强大而备受关注。
2/24/2025 12:00:00 AM
dev

两万字长文深度解密DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈?

刚刚过去的春节,DeepSeek-R1 推理大模型引爆了国内外 AI 社区,并火出了圈。 最近,各个行业又掀起了接入 DeepSeek 的狂潮,大家唯恐落后于人。 北大 AI 对齐团队对包括 DeepSeek-R1、Kimi-K1.5在内的一些强推理模型进行了 2 万字的技术解读,也是此前 o1 解读(北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式)的续作。
2/21/2025 10:34:49 AM
机器之心

DeepSeek R1范式复现笔记

作者 | yulei自DeepSeek R1技术报告🐳开放以来,开源社区涌现了多种「复现」工作。 本R1复现笔记旨在以多个开源项目的再复现以及交叉验证为目标,探索R1/R1-zero中强化学习步骤带来的模型效果提升,并尝试展望R1技术在未来模型训练与业务落地上的前景。 一、R1 开源项目梳理目前主流的 R1 系列复现工作如表 1 所示。
2/20/2025 3:32:28 PM
腾讯技术工程

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位

OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型,抢走了所有关注。 这边OpenAI就开始坐不住了,立刻扔出了SWE-Lancer(AI编码测试基准),看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试,用于评估AI模型的编码性能。
2/19/2025 4:01:37 PM
新智元

DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此

DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊! 微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。 就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血671B LoRA低成本SFT微调;完整的强化学习工具链PPO、GRPO、DPO、SimPO等;无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型;兼容支持英伟达GPU、华为昇腾NPU等多种硬件;支持混合精度训练,gradient checkpoint等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。
2/19/2025 2:02:11 PM
量子位

官宣!OpenAI前CTO新公司:北大校友翁荔加盟,创始29人2/3来自OpenAI

正式官宣! OpenAI前CTO Mira Murati 成立新公司——Thinking Machines Lab。 整个创业团队可以说前所未有之豪华了,三分之二的都是以前的OpenAI旧部追随——其中包括OpenAI前研究(后训练)副总裁Barret Zoph,担任公司CTO;刚刚离职Anthropic、OpenAI离职联创John Schulman,任公司首席科学家,还有包括前OpenAI VP、北大校友翁荔等等。
2/19/2025 9:20:30 AM
量子位

大决战!OpenAI可能发布GPT-4.5,狙击马斯克Gork3

今天凌晨1点,OpenAI首席执行官兼联合创始人SamAltman表示,对于高要求的测试者来说,试用 GPT - 4.5 带来的感受AGI的体验,远比我预期的要深刻得多! 这说明 GPT - 4.5已经进入测试阶段,离正式发布非常近了。 而马斯克在上周日宣布,将在美国太平洋时间周一晚上8点,直播发布“地球最聪明的AI”——Gork3。
2/18/2025 9:21:21 AM
AIGC开放社区

如何用DeepSeek来变现?90%的人都不知道

大家好,我是程序员小灰。 DeepSeek-R1模型发布已经快一个月了,但是热度丝毫不减。 在这个风口上,许多比较敏感的朋友已经靠着DeepSeek赚到了第一桶金。
2/18/2025 12:05:00 AM
小灰