OpenAI 曾秘密测试 GPT-4o，力压群雄登顶聊天机器人竞技场排行榜

作者：远洋 2024-05-14 06:24

OpenAI 员工 William Fedus 周一在社交平台 X 证实，近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”，正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露，GPT-4o 在测试中登顶了竞技场排行榜，取得了有史以来的最高分。“GPT-4o 是我们最先进的尖端模型，”Fedus 在推特上写道，“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”聊天机器

“GPT-4o 是我们最先进的尖端模型，”Fedus 在推特上写道，“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”

OpenAI 曾秘密测试 GPT-4o，力压群雄登顶聊天机器人竞技场排行榜

聊天机器人竞技场是一个网站，访客可以同时与两个随机的 AI 语言模型对话，却不知道哪个是哪个，然后选择提供更好回复的模型。

从今年 4 月份开始，OpenAI 在竞技场测试了多个版本的 GPT-4o，该模型最初以“gpt2-chatbot” 的名称出现，然后变成了“im-a-good-gpt2-chatbot”，最后是“im-also-a-good-gpt2-chatbot”。

自 GPT-4o 今日发布以来，多方消息人士透露，该模型以巨大优势登顶了 LMSYS 的内部排行榜，超越了之前排名最高的模型 Claude 3 Opus 和 GPT-4 Turbo。

lmsys.org 的官方账号分享了一张图表，并写道：“‘gpt2-chatbot’系列模型刚刚飙升至榜首，以显著的优势（约 50 Elo）超越了所有其他模型，它已经成为竞技场中最强大的模型。这是一张内部截图，公开版本的‘gpt-4o’现已进入竞技场，并很快将出现在公开排行榜上！”

OpenAI 曾秘密测试 GPT-4o，力压群雄登顶聊天机器人竞技场排行榜

截至IT之家发稿时，“im-also-a-good-gpt2-chatbot” 的 Elo 分数为 1309，领先于 GPT-4-Turbo-2023-04-09 的 1253 分和 Claude 3 Opus 的 1246 分。在三个“gpt2-chatbot” 出现并搅局之前，Claude 3 和 GPT-4 Turbo 一直在排行榜上争夺冠军。

神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

这场等待「GPT-5」的游戏啥时候才能结束？GPT-5 啥时候来？估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布，还是我们可以从边角料的爆料中得知一点点信息，大家对未来将要发布的这一模型充满了期待。但奥特曼在一次访谈中表示，OpenAI 现在采用迭代部署的方式进行研发，而不是秘密进行直到完成 GPT-5 才公布，他们的目标不是给世界带来震惊性的更新，恰恰相反，OpenAI 希望自己研发的成果不会给人一种跳跃式的发展趋势，如果大家有那种感觉的话，OpenAI 会更加快速迭代地发布他们的产品，

4/30/2024 3:44:00 PM

机器之心

DeepSeek终于丢了开源第一王座，但继任者依然来自中国

几千人盲投，Kimi K2超越DeepSeek拿下全球开源第一！歪果网友们直接炸了，评论区秒变夸夸打卡现场：今天，竞技场终于更新了Kimi K2的排名情况——. 开源第一，总榜第五，而且紧追马斯克Grok 4这样的顶尖闭源模型。

7/18/2025 5:00:38 PM

一水

国家队出手!国家超算互联网平台重磅上线deepseek，免费体验

中国人工智能初创公司 DeepSeek 受到了广泛关注，为了让更多用户方便体验 DeepSeek 的强大功能，国家超算互联网平台宣布上线 DeepSeek Chatbot 可视化界面功能。用户在这个平台上可以轻松体验 DeepSeek 的各项功能，无需复杂的部署或操作。只需进入平台，用户只需在输入框中输入想要咨询的问题或指令，即可开启对话。

2/5/2025 2:31:00 PM

AI在线

OpenAI 曾秘密测试 GPT-4o，力压群雄登顶聊天机器人竞技场排行榜

相关资讯

神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

DeepSeek终于丢了开源第一王座，但继任者依然来自中国

​国家队出手!国家超算互联网平台重磅上线deepseek，免费体验

国家队出手!国家超算互联网平台重磅上线deepseek，免费体验