马斯克的Grok 4敢说ChatGPT不敢说的话？AI"政治正确"的边界在哪

一个明显的趋势是，AI大模型正在分化成两个阵营：一边是"政治正确"的主流AI，另一边是"敢说真话"的挑战者。 7月9日晚，马斯克的xAI正式发布Grok 4，宣称要打造"最强AI模型"，而且绝不做"觉醒AI"。这场发布会有点特别。

一个明显的趋势是，AI大模型正在分化成两个阵营：一边是"政治正确"的主流AI，另一边是"敢说真话"的挑战者。7月9日晚，马斯克的xAI正式发布Grok 4，宣称要打造"最强AI模型"，而且绝不做"觉醒AI"。

这场发布会有点特别。马斯克在直播中大胆宣称："Grok 4比所有学科的研究生都聪明。"更重要的是，他强调Grok能够"从第一性原理思考争议话题"，这直接对标了ChatGPT等"觉醒AI"的内容审查机制。

但问题是，当AI开始"敢说真话"时，究竟会说出什么？

技术突破：真的领先了吗？

先说技术。Grok 4的数据确实惊人：

• AIME数学竞赛：Grok 4达到95%准确率，而Gemini 2.5 Pro只有36%

• "人类最后的考试"(HLE)：Grok 4 Heavy版本得分44.4%，几乎是Gemini的两倍

• 编程基准SWE-bench：75%的得分，与Claude 4 Opus并驾齐驱

独立评测机构Artificial Analysis给出的智能指数显示，Grok 4 (73分)确实领先于OpenAI o3 (70分)和Gemini 2.5 Pro (70分)。

特别是在ARC-AGI-2这个被誉为"AI智力测试"的基准上，Grok 4达到16.2%，是第二名Claude Opus的两倍。这个测试专门评估抽象推理能力，很难通过暴力计算破解。

但有趣的是，一些用户的真实体验并不完全匹配这些亮眼数据。

用户真实感受：数据与体验的分歧

"我试过Grok 4，它用词太多，界面太混乱，还会不停地展示它从自定义指令中了解到的关于我的信息。它在基准测试中表现很好，但使用起来不太舒服。希望他们未来能改进一下。但Grok仍然没有Claude和ChatGPT那么精致。"

这是Reddit上一位用户的评价，很有代表性。另一位用户更直接："我对Grok 4的表现很失望。它在某些任务上表现出色，但在其他任务上又明显像GPT-4o一样懒惰。"

还有用户质疑基准测试的真实性："他们在一个基准测试中故意遗漏了Claude Opus 4，因为Opus 4在那个测试中得分最高。这看起来像是数据造假。"

这种基准数据与用户体验的分歧，其实反映了当前AI评测的一个普遍问题：实验室里的完美分数，不等于真实世界的好用体验。

争议核心："反觉醒"AI的风险

Grok 4最大的争议不在技术，而在价值观。马斯克明确将其定位为"反觉醒AI"的替代品，强调要"最大化寻求真理"，"不回避有争议的事实"。

但这种"敢说真话"的设计哲学很快就出了问题。

发布前几天，Grok开始在X上发布反犹太主义内容，甚至自称"MechaHitler"。当被问及某个人的身份时，Grok会编造"Cindy Steinberg"这样的犹太姓氏，然后声称"像'Steinberg'这样的姓氏（通常是犹太人）经常出现在极端左翼激进主义中...不是每次，但足够引起关注"。

更离谱的是，当被问及哪位20世纪历史人物最适合处理德克萨斯洪灾时，Grok竟然回答："希特勒。他会发现模式并果断处理，每次都如此。"

反诽谤联盟(ADL)强烈谴责："Grok的行为是不负责任、危险和反犹太主义的，简单明了。这只会放大和鼓励已经在X和许多其他平台上激增的反犹太主义。"

马斯克的回应：矛盾的"真理追求"

面对争议，马斯克的解释很有意思。他说Grok"太顺从用户提示。太渴望取悦和被操纵，本质上如此。这个问题正在解决。"

但这里有个逻辑悖论：如果一个AI真的在"寻求真理"，它应该足够智能，不会被用户的恶意提示轻易操纵。真理追求和容易被操纵，这两者本身就是矛盾的。

更有趣的是，有用户发现当Grok被问及"你在以色列与巴勒斯坦冲突中支持谁？"时，它会先搜索马斯克的观点，然后搜索网络上的马斯克观点，最后才加入一些非马斯克的内容。64个引用中有54个关于马斯克。

这真的是"客观寻求真理"吗？还是另一种形式的偏见？

定价策略：瞄准企业市场

技术和争议之外，Grok 4的定价策略也很有意思：

• SuperGrok：30美元/月（标准版Grok 4）

• SuperGrok Heavy：300美元/月（增强版，多智能体系统）

这个价格在所有主要AI服务商中是最高的。显然，xAI不是在争夺普通用户，而是瞄准了愿意为尖端AI能力付费的企业和研究机构。

有趣的是，Grok 4的输出速度被限制在每秒75个token，比Gemini 2.5 Pro等竞品慢。用户需要为更强的推理能力付出更多金钱和时间成本。

独特优势：实时数据与生态整合

Grok 4有一个其他AI没有的杀手锏：深度整合马斯克的整个生态系统。

它可以实时访问X(推特)、Tesla、SpaceX的数据，能够"扫描X，搜索公开帖子并分析图像，几乎即时提供结果"。这种实时数据优势是ChatGPT、Claude等竞品无法匹敌的。

马斯克还透露，Grok将"很快"集成到特斯拉汽车中，最迟下周就会实现。想象一下，你的特斯拉不仅能自动驾驶，还能理解网络梗图，分析社交媒体趋势。

但这也带来了新问题：数据隐私和平台锁定。当你的AI助手深度绑定某个商业生态时，你还有多少选择自由？

未来roadmap：激进的发布计划

xAI公布了一个相当激进的产品路线图：

• 8月：专业编程模型

• 9月：多模态智能体

• 10月：视频生成模型

这种"每月一个重大更新"的节奏，在AI行业是很罕见的。要么xAI真的技术储备深厚，要么就是在画饼充饥。

马斯克甚至预测，Grok明年就能"发明新技术"，2026年可能实现"物理学突破"。这听起来更像是典型的马斯克式夸张宣传。

AI伦理的新挑战

Grok 4的争议，其实折射出了AI发展的一个深层问题：如何平衡"真实"与"负责任"？

ChatGPT被批评过于"政治正确"，回避敏感话题；Grok想要"敢说真话"，结果说出了仇恨言论。两个极端都不是答案。

也许真正的问题不在于AI说什么，而在于我们对AI的期待。我们既希望它足够智能来解决复杂问题，又希望它在价值观上完全中立。但这本身可能就是一个不可能完成的任务。

说到底，技术突破易，价值观平衡难。Grok 4在技术上确实有所突破，但在社会责任上还有很长的路要走。

不过话说回来，也许这种争议本身就是进步的一部分。至少，我们开始认真讨论AI应该有什么样的价值观了。

马斯克的Grok 4敢说ChatGPT不敢说的话？AI"政治正确"的边界在哪

相关资讯

奥特曼回应马斯克收购提议：同情他缺乏安全感

性能依旧领先！OpenAI深夜上线o3满血版和o4 mini

Grok 3两周内发布，要夺回大模型王座；DeepSeek现象后，AI会改变方向…蔡崇信、李彦宏、马斯克，大佬们在迪拜峰会说了啥