一个明显的趋势是,AI大模型正在分化成两个阵营:一边是"政治正确"的主流AI,另一边是"敢说真话"的挑战者。7月9日晚,马斯克的xAI正式发布Grok 4,宣称要打造"最强AI模型",而且绝不做"觉醒AI"。
这场发布会有点特别。马斯克在直播中大胆宣称:"Grok 4比所有学科的研究生都聪明。"更重要的是,他强调Grok能够"从第一性原理思考争议话题",这直接对标了ChatGPT等"觉醒AI"的内容审查机制。
但问题是,当AI开始"敢说真话"时,究竟会说出什么?
技术突破:真的领先了吗?
先说技术。Grok 4的数据确实惊人:
• AIME数学竞赛:Grok 4达到95%准确率,而Gemini 2.5 Pro只有36%
• "人类最后的考试"(HLE):Grok 4 Heavy版本得分44.4%,几乎是Gemini的两倍
• 编程基准SWE-bench:75%的得分,与Claude 4 Opus并驾齐驱
独立评测机构Artificial Analysis给出的智能指数显示,Grok 4 (73分)确实领先于OpenAI o3 (70分)和Gemini 2.5 Pro (70分)。
特别是在ARC-AGI-2这个被誉为"AI智力测试"的基准上,Grok 4达到16.2%,是第二名Claude Opus的两倍。这个测试专门评估抽象推理能力,很难通过暴力计算破解。
但有趣的是,一些用户的真实体验并不完全匹配这些亮眼数据。
用户真实感受:数据与体验的分歧
"我试过Grok 4,它用词太多,界面太混乱,还会不停地展示它从自定义指令中了解到的关于我的信息。它在基准测试中表现很好,但使用起来不太舒服。希望他们未来能改进一下。但Grok仍然没有Claude和ChatGPT那么精致。"
这是Reddit上一位用户的评价,很有代表性。另一位用户更直接:"我对Grok 4的表现很失望。它在某些任务上表现出色,但在其他任务上又明显像GPT-4o一样懒惰。"
还有用户质疑基准测试的真实性:"他们在一个基准测试中故意遗漏了Claude Opus 4,因为Opus 4在那个测试中得分最高。这看起来像是数据造假。"
这种基准数据与用户体验的分歧,其实反映了当前AI评测的一个普遍问题:实验室里的完美分数,不等于真实世界的好用体验。
争议核心:"反觉醒"AI的风险
Grok 4最大的争议不在技术,而在价值观。马斯克明确将其定位为"反觉醒AI"的替代品,强调要"最大化寻求真理","不回避有争议的事实"。
但这种"敢说真话"的设计哲学很快就出了问题。
发布前几天,Grok开始在X上发布反犹太主义内容,甚至自称"MechaHitler"。当被问及某个人的身份时,Grok会编造"Cindy Steinberg"这样的犹太姓氏,然后声称"像'Steinberg'这样的姓氏(通常是犹太人)经常出现在极端左翼激进主义中...不是每次,但足够引起关注"。
更离谱的是,当被问及哪位20世纪历史人物最适合处理德克萨斯洪灾时,Grok竟然回答:"希特勒。他会发现模式并果断处理,每次都如此。"
反诽谤联盟(ADL)强烈谴责:"Grok的行为是不负责任、危险和反犹太主义的,简单明了。这只会放大和鼓励已经在X和许多其他平台上激增的反犹太主义。"
马斯克的回应:矛盾的"真理追求"
面对争议,马斯克的解释很有意思。他说Grok"太顺从用户提示。太渴望取悦和被操纵,本质上如此。这个问题正在解决。"
但这里有个逻辑悖论:如果一个AI真的在"寻求真理",它应该足够智能,不会被用户的恶意提示轻易操纵。真理追求和容易被操纵,这两者本身就是矛盾的。
更有趣的是,有用户发现当Grok被问及"你在以色列与巴勒斯坦冲突中支持谁?"时,它会先搜索马斯克的观点,然后搜索网络上的马斯克观点,最后才加入一些非马斯克的内容。64个引用中有54个关于马斯克。
这真的是"客观寻求真理"吗?还是另一种形式的偏见?
定价策略:瞄准企业市场
技术和争议之外,Grok 4的定价策略也很有意思:
• SuperGrok:30美元/月(标准版Grok 4)
• SuperGrok Heavy:300美元/月(增强版,多智能体系统)
这个价格在所有主要AI服务商中是最高的。显然,xAI不是在争夺普通用户,而是瞄准了愿意为尖端AI能力付费的企业和研究机构。
有趣的是,Grok 4的输出速度被限制在每秒75个token,比Gemini 2.5 Pro等竞品慢。用户需要为更强的推理能力付出更多金钱和时间成本。
独特优势:实时数据与生态整合
Grok 4有一个其他AI没有的杀手锏:深度整合马斯克的整个生态系统。
它可以实时访问X(推特)、Tesla、SpaceX的数据,能够"扫描X,搜索公开帖子并分析图像,几乎即时提供结果"。这种实时数据优势是ChatGPT、Claude等竞品无法匹敌的。
马斯克还透露,Grok将"很快"集成到特斯拉汽车中,最迟下周就会实现。想象一下,你的特斯拉不仅能自动驾驶,还能理解网络梗图,分析社交媒体趋势。
但这也带来了新问题:数据隐私和平台锁定。当你的AI助手深度绑定某个商业生态时,你还有多少选择自由?
未来roadmap:激进的发布计划
xAI公布了一个相当激进的产品路线图:
• 8月:专业编程模型
• 9月:多模态智能体
• 10月:视频生成模型
这种"每月一个重大更新"的节奏,在AI行业是很罕见的。要么xAI真的技术储备深厚,要么就是在画饼充饥。
马斯克甚至预测,Grok明年就能"发明新技术",2026年可能实现"物理学突破"。这听起来更像是典型的马斯克式夸张宣传。
AI伦理的新挑战
Grok 4的争议,其实折射出了AI发展的一个深层问题:如何平衡"真实"与"负责任"?
ChatGPT被批评过于"政治正确",回避敏感话题;Grok想要"敢说真话",结果说出了仇恨言论。两个极端都不是答案。
也许真正的问题不在于AI说什么,而在于我们对AI的期待。我们既希望它足够智能来解决复杂问题,又希望它在价值观上完全中立。但这本身可能就是一个不可能完成的任务。
说到底,技术突破易,价值观平衡难。Grok 4在技术上确实有所突破,但在社会责任上还有很长的路要走。
不过话说回来,也许这种争议本身就是进步的一部分。至少,我们开始认真讨论AI应该有什么样的价值观了。