AIGC宇宙 AIGC宇宙

GPT-5遭用户吐槽 “垃圾”:缩放定律失效,AGI梦渐行渐远?

2025 年 8 月,OpenAI 终于推出备受期待的 GPT-5,但其表现并未如市场预期般带来 “革命性突破”,反而让 “AI 进步失速”“缩放定律失效” 的讨论再度升温。 GPT-5 实测:亮点有限,失望声四起YouTube播主 Mrwhosetheboss 的实测显示,GPT-5 并非全面领先:在创建象棋游戏时优于 . GPT-4o-mini-high,撰写视频脚本时强于 GPT-4o,且能根据任务自动匹配最优模型;但在生成 YouTube .

GPT-5遭用户吐槽 “垃圾”:缩放定律失效,AGI梦渐行渐远?

2025 年 8 月,OpenAI 终于推出备受期待的 GPT-5,但其表现并未如市场预期般带来 “革命性突破”,反而让 “AI 进步失速”“缩放定律失效” 的讨论再度升温。

GPT-5 实测:亮点有限,失望声四起

YouTube 播主 Mrwhosetheboss 的实测显示,GPT-5 并非全面领先:在创建象棋游戏时优于 GPT-4o-mini-high,撰写视频脚本时强于 GPT-4o,且能根据任务自动匹配最优模型;但在生成 YouTube 缩略图、生日派对邀请函等场景中,反而不及 GPT-4o,甚至更易被诱导编造事实。

这份 “喜忧参半” 的答卷很快引发不满。有付费用户直言其 “是垃圾”,人工智能学者 Gary Marcus 更是直接批评 GPT-5 “过度炒作且令人失望”—— 对比 2023 年 GPT-4 相对 GPT-3 的 “飞跃式进步”,GPT-5 的提升仅停留在 “基准测试分数更高、文字表达更流畅” 的细节层面,毫无突破性进展。

大模型进步 “踩刹车”:从 “造汽车” 到 “修汽车”

曾有行业比喻:预训练大模型是 “生产汽车本身”,训练后优化是 “给汽车升级性能”。此前,OpenAI 通过扩大预训练规模,不断推出性能更强的 “新车”;但如今,这种 “造新车” 的速度明显放缓。

2024 年春季,OpenAI CEO 山姆・奥特曼曾向工程师承诺 “下一代模型远超 GPT-4”,但 2025 年秋季落地的 GPT-5 未能兑现。亚利桑那州立大学研究人员进一步指出,大模型所谓的 “推理能力” 本质是 “脆弱的幻影”—— 仅在训练数据范围内有效,一旦超出边界便失效,其基准测试成绩与解决真实日常问题的能力并非同一回事。

Gary Marcus 的观察更直白:“2025 年的大模型分数更高,但没有哪家 AI 公司敢说,它比 2024 年的模型‘实用得多’。” 行业关注点已从 “造更强的模型” 转向 “优化现有模型”,工程师的角色也从 “汽车制造商” 悄然变为 “汽车修理工”。

缩放定律的兴衰:从 “圭臬” 到 “失效”

AI 行业曾将 “缩放定律” 奉为核心逻辑。2020 年 1 月,OpenAI 发布《神经语言模型的缩放定律》报告(Anthropic CEO Dario Amodei 参与撰写),提出 “只要扩大模型规模、增强训练强度,性能就会持续提升”。

随后的 GPT-3 印证了这一观点 —— 规模是 GPT-2 的 10 倍,性能实现飞跃;2023 年 GPT-4 再次大幅进步,叠加 ChatGPT 用户破亿的热度,风险资本大规模涌入,AI 行业迎来 “大跃进”。山姆・奥特曼甚至在《万物的摩尔定律》博文中断言,AI 将 “迅猛改变世界”,AGI(通用人工智能)触手可及。

但反对声从未消失。纽约大学教授 Gary Marcus 曾直言 “缩放定律只是观测结果,非普适规律”,这一观点不仅遭到 Greg Brockton、Yann LeCun、马斯克等行业大佬的反驳,他本人甚至被贴上 “机器学习产业异类” 的标签。

如今,反对者的声音得到验证。TechCrunch 指出,行业已普遍承认 “仅靠堆算力、堆数据,无法让大模型变成‘全知数字神灵’”—— 自 GPT-4 发布两年多来,OpenAI 再无重磅模型,“缩放定律失效” 已成越来越多人的共识。

进步失速冲击 AI 经济:万亿梦碎,风险浮现

若缩放定律彻底失效,AI 行业的 “经济泡沫” 或将破裂。科技分析师 Ed Zitron 与 Gary Marcus 观点一致:“生成式 AI 市场规模约 500 亿美元,最多 1000 亿,远达不到此前炒作的‘万亿级别’。”

这意味着未来几年,AI 工具只会有 “稳定但渐进” 的进步 —— 虽会被定期使用,但用途有限,既不会大规模冲击就业市场,AGI 的实现也将更不切实际。

更严峻的风险在资本市场。美国股市中,35% 的市值集中于七大科技巨头,过去 18 个月,这些企业在 AI 领域投入高达 5600 亿美元,但其 AI 相关收入仅 350 亿美元,“高投入、低回报” 的矛盾若持续,可能引发连锁反应。

当然,乐观视角仍存:21 世纪 30 年代仍有可能孕育 AGI,即便无法实现 “人类工作自动化”,也能推动 AI 行业探索更复杂的解决方案,倒逼技术从 “规模驱动” 转向 “效率驱动”。

相关资讯

小红书翻译紧急上线,见证历史:大模型翻译首次上线C端应用!AI竟自称是GPT-4?网友变身“测试狂魔”,疯狂套话,效果拉满了!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)程序员键盘敲冒烟,小红书翻译功能这不是就来了吗! 之前大家各种吐槽美国人用的翻译机器不准确,导致大家交流起来“人机感很重”,一些美网友还需要额外用ChatGPT才能实现无缝交流。 这翻译功能一出来,语言障碍什么的都不存在了。
1/20/2025 1:52:45 PM
伊风

几个开发大模型应用常用的 Python 库

一、应用层开发1. FastAPIFastAPI是构建API的优选。 顾名思义,它快速、简单,并能与Pydantic完美集成,实现无缝数据验证。
1/22/2025 10:33:44 AM
zone7

DeepSeek新AI模型有多震撼?外媒:相当于30美元iPhone降临

DeepSeek(深度求索)再次推出新版开源AI模型,它的性能与美国最先进的AI模型虽然还有一些差距,但差距极小,成本低很多很多。 西方许多人认为,美国限制中国AI发展的企图遇挫,中国正在加速前进,以更高效率打造高端AI模型。 去年12月,杭州幻方量化推出DeepSeekV3开源大语言模型,它的性能与OpenAI 40和Anthropic Claude 3.5 .
1/23/2025 3:58:02 PM
小刀
  • 1