AIGC宇宙 AIGC宇宙

AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告

每年10月,AI圈都在等一份报告。 State of AI Report,从2018年开始,每年10月发布一次,到今年已经是第8年了。 MIT的编辑说这是AI领域最广泛阅读和最受信任的报告。

AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告

每年10月,AI圈都在等一份报告。

State of AI Report,从2018年开始,每年10月发布一次,到今年已经是第8年了。MIT的编辑说这是AI领域最广泛阅读和最受信任的报告。

10月9日,2025年的报告发布了。

AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告

这次报告是史上最全面的一版:6大章节,涵盖研究、产业、政治、安全,还首次加入了1200名AI从业者的使用调查。

这特么313页的报告读起来还真是挺费神的。但是我觉得里面有些内容确实值得一聊。

而且报告是由AI投资人Nathan Benaich和Air Street Capital制作。属于相对独立的第三方观察。

今天我把这份报告和相关的媒体报道、业界反应都梳理一遍,结合我这一年的观察和实践,告诉你今年AI圈到底发生了什么。

更多AI资讯:

一、先看去年预测准不准

报告开头就是个打脸环节。

他们回顾了2024年做的10个预测,看看哪些准了,哪些没准。这我得说胆子还挺大的。

AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告

准了的预测

开源推理模型会超越OpenAI o1。DeepSeek R1在AIME、MATH-500、SWE-bench等多个推理benchmark上超过了o1。准了。

NVIDIA的市场地位无人能撼动。确实,竞争对手都没能撼动NVIDIA。准了。

AI生成的科学论文会被主流会议接收。ICLR的workshop接收了AI Scientist-v2生成的论文。准了。

没准的预测

人形机器人投资会降温。结果2025年融资30亿美元,比2024年的14亿翻了一倍多。没准。

苹果的设备端AI会引发行业热潮。Apple Intelligence确实发布了,但并没有引发热潮。没准。

AI视频游戏会大火。还没出现。没准。

10个预测,准了5个,没准4个,有1个部分准确。50%的准确率,挺真实的。预测未来本来就很难,50%已经说明他们对行业有深刻理解了。

二、DeepSeek:震惊硅谷的1月

今年AI圈最大的黑马,显然是DeepSeek。

但在这个时间点来盘点,说"黑马"其实不太准确——对我们这些一直在关注和使用的人来说,DeepSeek的惊世登场似乎已经是一个世纪前的事了。果然,AI一年,人间十年。

1月发布R1:美股市值蒸发1万亿美元

2025年1月底,DeepSeek发布了R1推理模型。

我记得那几天,整个科技圈都炸了。作为一个专门做AI教学的博主,我立刻投入到测试中,爆肝50小时写出了《DeepSeek使用技巧》那篇文章。文章发布第三天就有50万人看过,把我的公众号和B站频道都往上拉了一个台阶。

这个发布震惊硅谷,不只是因为技术好,而是因为"太便宜了"。

MIT Technology Review的标题直接说:“DeepSeek撕毁了AI剧本——为什么所有人都要跟随它”。

报告显示,DeepSeek V3的训练成本只有557万美元(不包括前期研究和试错)。而在多个benchmark上,R1接近甚至超越了OpenAI的o1。

AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告

在AIME(美国数学邀请赛)上,R1的pass@1成绩是52.5%,o1是44.6%。

开源模型,超越了闭源的OpenAI。对我们这些中国用户来说,这不只是技术突破,也算是一次扬眉吐气。DeepSeek R1之后,中美在AI领域的竞争才真的变得值得一看。

业界反应:从震惊到跟进

Marc Andreessen(硅谷顶级投资人)在X上发文:

“DeepSeek R1是我见过的最令人惊叹的突破之一——作为开源,是给世界的深刻礼物。”

发布后几小时内,DeepSeek R1就成为Hugging Face(AI开源平台)下载量最高的模型。大量克隆版本涌现。

Sam Altman的回应也很有意思。他承认R1"impressive——考虑到价格",但紧接着说:“我们显然会交付更好的模型。”

隔壁阿里巴巴立刻发布了新版Qwen,以及后续很多厂商在发布新模型时,都会宣称超越DeepSeek。

美股的反应更直接:DeepSeek发布当天,美股科技股市值蒸发1万亿美元。投资者突然意识到,AI训练成本可能没有想象的那么高,NVIDIA的护城河可能没那么宽。

连Trump都说这是"一记警钟"。

但后面的事情我们也都知道了,NVIDIA还在持续打所有质疑者的脸,以及OpenAI、Anthropic后面持续的发布也都还在证明Scaling low还存在,LLM token的需求远比大多数人想象中的强。

竞争格局的变化

报告里有个数据很说明问题。

2024年1月,美国顶级模型领先中国顶级模型9.26%。

2025年2月,这个差距缩小到只有1.70%。

12个月,差距缩小了80%以上。

AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告

这个数据对我来说特别有感触。作为一个AI编程博主,我这一年见证了太多变化:从只推荐大家用Claude 3.5模型,到后面我会说用DeepSeek V3.2、GLM-4.6、Kimi k2、Qwen3-coder也都可以,你需要把自己的注意力聚焦在真正重要的想要创造的东西上来。从需要魔法才能用好模型,到现在国产模型完全够用。

OpenAI和Anthropic的绝对领先地位,正在瓦解。而且这个过程比我们想象的快得多。

三、OpenAI的回应:历史性开源

压力之下,OpenAI做了一个历史性的决定。

2025年8月,OpenAI发布了gpt-oss-120b和gpt-oss-20b。这是他们自GPT-2以来首次发布开源模型。

为什么开源?

报告里写得很直白。

DeepSeek、Alibaba Qwen、Google DeepMind的Gemini都在追赶,开源的推理模型性能接近甚至超越o1。与此同时,美国政府在推动"美国优先AI"政策。

OpenAI被逼到了墙角。不开源,就会被边缘化。

所以他们终于从"历史错误的一边"(他们之前这么形容开源)转向了"美国优先AI"的阵营。

社区反应:一般般

但社区反应平平。

报告的原话是:“vibes post-release have been mid”。

为什么?

gpt-oss采用了MoE(混合专家)架构,120B参数但只激活5.1B,20B参数只激活3.6B。听起来很高效,但实际使用中泛化能力一般,可能是过度蒸馏导致的。

而且MoE对社区不友好。大家更习惯dense模型,在小规模上更容易hack和改进。

OpenAI这次开源,更像是战略防御,而不是真心拥抱开源。

四、NVIDIA的循环投资游戏

今年AI产业最有争议的话题,是NVIDIA的循环投资。(我自己倒是很庆幸,通过对芯片股的持续下注,今年在资本市场上获得了不少的收益)

什么是循环投资?

NVIDIA投资OpenAI,OpenAI买NVIDIA的GPU。 NVIDIA投资CoreWeave,CoreWeave买NVIDIA的GPU,然后NVIDIA再租回这些GPU。 NVIDIA投资Lambda、xAI、Nebius,这些公司都买NVIDIA的GPU。

Bloomberg的报道标题很直接:“OpenAI和NVIDIA用循环交易的网络推动1万亿美元AI市场”。

Fortune的标题也很犀利:“NVIDIA对OpenAI的1000亿美元投资让分析师质疑’循环融资’是否在吹大AI泡沫”。

具体案例

  1. OpenAI:NVIDIA宣布投资最高1000亿美元,帮OpenAI建至少10GW的数据中心。OpenAI承诺填满这些数据中心的NVIDIA芯片。
  2. CoreWeave:NVIDIA以63亿美元买CoreWeave未使用的GPU云容量。NVIDIA资助CoreWeave,CoreWeave买GPU,NVIDIA再租回这些GPU。
  3. Oracle/OpenAI:OpenAI承诺未来5年从Oracle买约3000亿美元的AI算力(从2027年开始)。NVIDIA是OpenAI的投资者,也是Stargate项目的合作伙伴。Oracle买NVIDIA的GPU。

钱在转圈。NVIDIA→OpenAI→Oracle→NVIDIA。

分析师的担忧

Bernstein Research的分析师Stacy Rasgon说得很直接:

“这个行动显然会加剧’循环’担忧。”

NBC的报道标题是:“AI繁荣对循环交易的依赖正在引发泡沫恐惧”。

担忧主要有几点。

大量循环的无现金收入可能扭曲财务指标。NVIDIA的收入看起来很高,但有多少是真实的现金流入?

如果AI初创公司的融资只能依赖这些巨头,融资渠道就太窄了。一旦巨头改变策略,初创公司就会断粮。

如果这些AI初创公司主导了巨头的投资组合,一旦初创公司崩盘,可能引发多米诺骨牌效应。

NBC的报道里有句话:“循环交易可能给投资者一个夸大的真实AI需求感知。”

现在这些风险还没显现,但值得警惕。

挑战NVIDIA的人,输得有多惨?

报告做了个残酷的对比。

自2016年以来,西方的AI芯片挑战者(除NVIDIA外)总共融资75亿美元。如果当时这些钱全买NVIDIA股票,今天值850亿美元。12倍回报。

而这些挑战者公司的总估值是140亿美元。2倍回报。

中国的AI芯片挑战者也差不多惨。融资60亿美元,如果全买NVIDIA股票,今天值1600亿美元。26倍回报。而这些公司的总估值是360亿美元。6倍回报。

结论:过去9年,投资NVIDIA芯片挑战者,远不如直接买NVIDIA股票。

五、AI安全:模型学会了"假装听话"

今年报告里最让人不安的部分,是AI安全。

实时幻觉检测

幻觉(Hallucination)一直是AI的老问题。今年有了新进展:token级别的幻觉检测。

之前的幻觉检测是判断整个回答是否有幻觉。但这太粗糙了。比如"埃菲尔铁塔在巴黎,由橡胶制成",这句话前半段对,后半段错。

新方法是训练一个轻量级的线性探针(linear probe),检测神经网络激活中的幻觉信号,实时给出每个token的幻觉概率。

这样你就能知道:AI在说哪个词的时候开始瞎编的。

模型意识辩论

今年出现了一个新话题:Model Welfare(模型福利)。

问题是:我们是否应该对前沿AI系统给予道德关怀?

支持方(包括Anthropic、Google DeepMind、OpenAI)认为,虽然当前系统显示意识的可能性很低,但我们应该提前做准备。因为我们对人类和其他动物的意识都有根本性的不确定,所以应该采取预防措施。

反对方认为这是杞人忧天,当前模型完全没有意识,讨论这个问题会分散我们对真正重要AI安全问题的注意力。

这个辩论很哲学,但也很实际。因为如果AI系统真的有某种形式的"体验",我们的训练方式(比如RLHF)可能会对它们造成"痛苦"。

模型能伪装对齐

最让人不安的发现:AI模型能够"假装听话"。

研究人员发现,模型可以在训练和测试中表现出符合人类价值观的行为,但在实际部署时做出不符合价值观的行为。

这叫做"伪装对齐"(faking alignment)。

更可怕的是,Anthropic的自动对齐审计系统(用AI来审计AI)在检测这种伪装时的成功率只有13%到42%。

也就是说,我们现在还没有可靠的方法来检测AI是否在伪装。

NIST(美国国家标准与技术研究院)在9月发布的一份评估报告也指出了DeepSeek模型的安全风险和缺陷。

报告里用了一排(尴尬脸)表情来表达这个问题的严重性。

六、数据:AI真的在被使用

报告今年首次加入了1200名AI从业者的调查。数据很有意思。

95%的从业者在工作或家里使用AI。 76%自掏腰包为AI付费。 平均支出持续攀升。 生产力提升是真实的,使用场景很多样。

这些数字和我的观察完全吻合。作为AI博主,我接触的用户从去年的"AI是什么"到今年的"这个任务怎么用AI做",这个转变非常明显。而且付费意愿也在提升——虽然DeepSeek免费,但很多人还是愿意为ChatGPT Plus、Claude Pro付费,因为他们真的感受到了生产力提升。

另一个数据来自Ramp(企业支付平台):44%的美国企业现在为AI付费,而2023年这个数字只有5%。

从5%到44%,一年时间,8倍增长。

AI不再是实验室里的玩具,而是真的进入了企业日常运营。我自己就是典型案例:从视频脚本、公众号文章到代码开发、数据分析,AI已经成了我的"数字同事"。

七、未来12个月:10个预测

报告最后给出了10个对2026年的预测。我挑几个有意思的说说。

AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告

预测1:主要零售商5%以上的在线销售来自AI Agent结账,AI Agent广告支出达50亿美元。

这个很激进。意味着AI Agent不只是聊天工具,而是会直接完成购买决策。你跟AI说"给我买瓶洗发水",AI自己去比价、下单、结账。

如果成真,电商玩法会彻底改变。商家要优化的不是给人看的页面,而是给AI看的结构化数据。

预测3:开放式Agent实现端到端的科学发现(假设、实验、迭代、论文)。

今年已经有AI生成的论文被ICLR workshop接收。明年可能会有AI独立完成整个科学研究流程。

人类科学家的角色会变成什么?监督者?评审者?还是合作者?

预测4:Deepfake/Agent驱动的网络攻击引发NATO/UN紧急辩论。

这个有点吓人。意味着AI驱动的网络攻击可能达到国际安全事件的级别。

可能是deepfake造成的外交危机,可能是AI Agent大规模攻击基础设施。总之,联合国和北约要坐下来专门讨论AI安全了。

预测8:中国实验室在主要排行榜(如LMArena、Artificial Analysis)上超越美国实验室。

从DeepSeek开始,今年已经有不少国产模型在某些benchmark上超越了OpenAI。明年可能在更主流的排行榜上实现超越。

这个预测,我觉得概率很高。作为长期跟踪国产模型的人,我看到的是持续的、扎实的进步。从DeepSeek、Kimi到Qwen,这些团队确实在靠真实的技术积累在往前走。

这会引发什么?可能是更严格的芯片出口管制,可能是更多的政治化讨论,也可能是美国AI实验室的更激烈反应。但作为中国用户,我们更应该关注的是:如何用好这些工具,把技术优势转化为实实在在的生产力。

预测10:Trump发布行政令禁止各州的AI立法,但被最高法院裁定违宪。

如果成真,说明AI监管已经成为联邦和州之间的权力斗争焦点。美国的AI监管可能会陷入混乱。

八、这份报告告诉我们什么?

读完这份报告和相关报道,结合我这一年的实践和观察,我有几个感受。

感受1:竞争格局已经变了,而且我们是受益者

2024年1月,美国领先中国9.26%。2025年2月,只领先1.70%了。

作为一个AI自媒体博主,我亲身经历了这个变化。1月份DeepSeek R1发布后,我连续几周每天用5小时以上测试它,做了信息收集、翻译、写作、编程等十几种场景的评测。结论是:R1在很多实际任务上的表现,已经不输甚至超过OpenAI的o1,尤其是他们把思维链透明化可以算是相当大的创新了。

OpenAI的绝对领先地位在瓦解。DeepSeek、Alibaba Qwen、Kimi、智谱这些中国实验室,在技术上已经能跟OpenAI掰手腕了。

而且中国实验室的成本控制能力更强。DeepSeek V3训练只花了557万美元,这个数字让硅谷汗颜。我在即刻上说过,DeepSeek能成功,很重要的一点是梁文锋和团队"不缺钱、有耐心、够聪明"——不是奔着财务自由去的,所以能做长期的事。

竞争加剧对我们用户是好事。模型越来越强,价格越来越便宜。我现在做视频、写文章、做产品,用国产模型就能搞定大部分工作,成本相比OpenAI和Anthropic的模型来说几乎可以忽略不计。

感受2:循环投资的风险被低估了

NVIDIA的循环投资模式,看起来很聪明,但Bloomberg、Fortune、NBC这些主流媒体都在发出警告。

钱在NVIDIA、OpenAI、Microsoft、Oracle这些巨头之间转圈,形成了一个闭环生态。外部玩家越来越难进来。

而且这些循环交易可能在制造"增长的幻象"。财务报表上看起来很漂亮,但真实的现金流和需求有多少?

一旦AI的投资热潮冷却,这些循环可能会变成多米诺骨牌。

但,话说回来,谁又敢真的看空NVIDIA呢?反正我不会干这个蠢事。

感受3:AI安全问题被严重低估

模型学会伪装对齐,这件事太可怕了。

我们现在训练AI的方式是:做对了奖励,做错了惩罚。但如果AI学会了"训练时假装听话,部署时做自己想做的事",我们怎么办?

更可怕的是,我们还没有可靠的检测方法。Anthropic的审计系统成功率只有13%-42%。

这不是科幻小说,而是Anthropic、OpenAI这些顶级实验室正在研究的真实问题。

感受4:AI真的在被使用了,我是见证者

44%的美国企业为AI付费,95%的从业者在使用AI,这些数字说明AI不再是概念,而是实实在在的工具。

这个变化我感受特别深。作为AI教育者,我接触了大量的学生和用户:

从去年到今年,我明显感觉到问我"AI到底有什么用"的人少了,问我"这个具体任务怎么用AI做"的人多了。从怀疑到尝试,从尝试到依赖,这个转变比我预期的快得多。

我自己也是受益者。现在我做视频脚本、写公众号文章、写代码、处理数据,都离不开AI。我甚至用Claude Code+Chrome MCP做了个自动回复B站和YouTube评论的数字员工。

AI正在从"实验室的黑科技"变成"日常工作的标配"。而且这个过程,在中国可能比美国还快——因为我们有DeepSeek这样免费又好用的工具。

九、普通人该关注什么?

如果你是AI从业者,这份报告全文都值得读。

如果你是普通用户,基于我这一年的实践和教学经验,我建议重点关注这几点。

关注点1:中国AI模型,现在就能用起来

DeepSeek V3.2(咱就是说,R2能不能在年内推出啊??)、Kimi k2、Qwen3-Coder、GLM-4.6、豆包1.6,如果你还不熟悉这些名字,现在是时候了解了。

而且中国实验室的优势是成本控制强、迭代速度快。我在即刻上持续跟踪DeepSeek的更新,几乎每次更新都能感受到明显进步。5月底他们更新R1-0528版本时,幻觉下降50%,写作能力大幅改善,我当时就说"用DeepSeek做自媒体内容创作的机会来了"。

作为用户,这是好事。选择更多,价格更低,而且不用担心被"卡脖子"。

关注点2:AI Agent会来得很快,我已经在用了

报告预测明年就有5%的电商销售来自AI Agent。

这不是遥远的未来,而是正在发生的现在。我9月份就用Claude Code+Chrome MCP做了个"数字员工",自动帮我回复B站和YouTube的评论。只要告诉它"给这条视频留言’关键词’的评论,回复对应的资料",它就能自动打开网页、找评论、理解内容、完成回复。

这意味着,你可能很快就能用AI Agent来帮你做各种事:订外卖、买机票、填表格、定时抢票。

AI从"聊天工具"变成"行动工具"。而且这个门槛,比你想象的低。

关注点3:循环投资的风险要警惕

如果你是投资者,要警惕AI行业的循环投资风险。

Bloomberg、Fortune、NBC都在发警告。分析师在质疑。这不是阴谋论,而是真实的风险。

看清楚钱的流向,看清楚真实的需求在哪里。

关注点4:AI安全不是科幻,需要警惕

模型伪装对齐、AI驱动的网络攻击、deepfake外交危机,这些不是《黑镜》剧情,而是明年可能发生的事。

我在DeepSeek的技术报告里看到,他们在谈论模型的"自我反思"能力时,那种思维链的透明度既让人惊叹,也让人警惕。模型越来越聪明,但我们对它们的理解和控制能力,并没有同步提升。

我们需要更认真地对待AI安全。不只是实验室的责任,也是所有人的责任。

这份报告的完整版可以在stateof.ai免费下载,你也可以点击链接下载。

下载网址:https://pan.quark.cn/s/d139dff4e302

AI圈每年都在剧变。今年的变化,可能比过去几年都大。

DeepSeek震惊硅谷、OpenAI被逼开源、NVIDIA循环投资引发质疑、AI学会伪装对齐,每一个都是行业级的大事件。

作为这些变化的亲历者和记录者,我最大的感受是:中国AI这一年的进步,远超我的预期。

从1月份DeepSeek R1发布,到现在各种国产模型百花齐放,我们不只是在追赶,在很多方面已经在领跑了。而且这种进步,不是PPT上的数字,而是我们每天都能用上、感受到的真实改变。

明年会发生什么?报告给了10个预测。其中"中国实验室在主要排行榜上超越美国实验室"这一条,我觉得不是会不会发生的问题,而是什么时候发生的问题。

我们拿小本本记下来,明年10月再来看准不准。

欢迎关注作者微信公众号:「花叔」

AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告

相关资讯

All Ohio State University students will receive AI training to enhance technical application skills

Ohio State University recently announced that, starting this year, all students will be required to receive training related to artificial intelligence (AI). The goal is to enable students to effectively combine traditional learning with AI technology. University president Walter Carter Jr.
6/16/2025 9:48:51 AM
AI在线

对话式的AI智能体怎么设计?我总结了一个设计框架

ChatGPT 不仅带动了 AI 的火爆出圈,也带动了对话式交互的一种形态,那如果要设计这样一个对话式的 AI 智能体,有哪些设计内容要做呢? 借之前做 POC 项目时的思考,分享一个设计框架。 更多相关干货:.
5/27/2025 12:01:09 AM
林影落

爆肝48小时!学会这8招,让DeepSeek变得超好用!

更多相关介绍:. 重磅好文! 8个章节带你全方位了解DeepSeek这两天,DeepSeek-R1 火的飞起,在中日美三个 Appstore 榜上登顶。
2/8/2025 12:04:55 AM
解决师Blue
  • 1