AIGC宇宙 AIGC宇宙

LLM 翻车现场!ChatGPT 挑战 1979《Video Chess》惨败:连车马象都认错

一场 ChatGPT 对战 Atari 2600 的象棋对局火了。 具体而言,在一场看似轻松的“AI玩具对决”里,ChatGPT输给了Atari 2600 的象棋引擎,对手只是一台48年前、频率1.19 MHz的8位主机。 图片起初,这只是Robert Jr.

一场 ChatGPT 对战 Atari 2600 的象棋对局火了。

具体而言,在一场看似轻松的“AI玩具对决”里,ChatGPT输给了Atari 2600 的象棋引擎,对手只是一台48年前、频率1.19 MHz的8位主机。

图片图片

起初,这只是Robert Jr. Caruso的一次怀旧实验。这位基础架构工程师,平时和自动化、虚拟化、云计算打交道。某天,他和ChatGPT聊起象棋AI,从Stockfish讲到AlphaZero,模型兴致高涨,主动提出要挑战Atari 2600上的《Video Chess》。

这款游戏发布于1979年,只有最基础的规则判断和1-2步深度搜索。当Caruso把棋盘和规则输入后,ChatGPT信心满满:“这应该很快就能赢。”

然而,整场对局却变成了一场闹剧。GPT认错棋子,把车当象,错失双兵叉,甚至连哪些棋子已经被吃掉都记不住。它时常建议“牺牲骑士去换兵”,还不断要求“从头再来”,好像换一次初始局面就能摆脱混乱。

Caruso陪它下了整整90分钟,每一步都要人工帮它“回忆”局面。最终,GPT主动认输,“低下了头”,结束了这场令人啼笑皆非的对局。

Caruso在领英中表达:“它犯的错,能让你在小学三年级的象棋社被嘲笑一整学期。”

技术盲点:LLM 不会“记住棋盘”

为什么 GPT 会输?因为它不是为这类任务设计的。

GPT 属于语言模型,它通过分析大量文本,学习词语、句子、段落之间的相关性,并基于“概率”决定接下来的输出。这种机制在对话、写作中极其强大——但在棋局这类离散系统中,问题变成了“状态跟踪”。

在象棋这类游戏里,状态清晰、规则严格:64 个格子、32 个棋子,轮流行动,没有容错空间。每一手棋都对结果至关重要。

而 GPT 每次“发言”都是基于之前的“语言提示”,并没有“内部记忆”去追踪棋盘状态。即使外部工程实现了记忆机制,它也会在多个回合后“混淆上下文”。这是因为它没有专门为棋类构建的“状态表达结构”,不像 Stockfish 那样有明确定义的棋盘类、规则引擎、搜索深度控制。

有网友评论说:“你拿一个聊天机器人去玩象棋,就像用千斤顶修车。”

图片图片

也有网友认为:语言模型捕捉的是序列概率,不擅长高度组合性的任务。

图片图片

因此,AI 是否真的“懂得”某件事?如果它不能维持一个棋盘状态,它是否能在更复杂的现实场景中保持一致逻辑?例如:自动驾驶的决策路径、金融模型的风控评估、甚至是多轮对话中的情绪识别。

在 GPT 输给 Atari Chess 的那 90 分钟里,暴露的不只是一个模型的短板,也让我们重新思考:我们理解的“AI 能力”,是否已经被包装过度?

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!

相关资讯

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布,其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术,利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化,进一步提升了模型性能。 在 watsonx.ai平台上,用户可以通过两种方式使用 DeepSeek 蒸馏模型。
2/11/2025 2:25:00 PM
AI在线

DeepSeek-R1 登顶 Hugging Face:以10000 赞力压 150 万个模型

今日凌晨,全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布,DeepSeek-R1在 Hugging Face 上获得了超过10000个赞,成为该平台近150万个模型中最受欢迎的大模型。 这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。
2/24/2025 9:30:00 AM
AI在线

DeepSeek 更新 R1 推理 AI 模型:代码生成与复杂推理性能大幅提升 推理能力比肩 o1

DeepSeek 公司近日对其高性能推理 AI 模型 DeepSeek-R1进行了重大更新,显著提升了模型在代码生成和复杂推理任务中的表现,引发人工智能领域的广泛关注。 以下基于公开信息和最新动态,全面解析此次更新的关键亮点。 R1模型更新:代码能力大幅提升DeepSeek-R1的最新更新在代码生成能力上取得了显著突破。
5/29/2025 10:01:21 AM
AI在线
testab