AIGC宇宙 AIGC宇宙

OpenAI 曾秘密测试 GPT-4o,力压群雄登顶聊天机器人竞技场排行榜

作者:远洋
2024-05-14 06:24
OpenAI 员工 William Fedus 周一在社交平台 X 证实,近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”,正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露,GPT-4o 在测试中登顶了竞技场排行榜,取得了有史以来的最高分。“GPT-4o 是我们最先进的尖端模型,”Fedus 在推特上写道,“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”聊天机器

OpenAI 员工 William Fedus 周一在社交平台 X 证实,近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”,正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露,GPT-4o 在测试中登顶了竞技场排行榜,取得了有史以来的最高分。

OpenAI 曾秘密测试 GPT-4o,力压群雄登顶聊天机器人竞技场排行榜

“GPT-4o 是我们最先进的尖端模型,”Fedus 在推特上写道,“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”

OpenAI 曾秘密测试 GPT-4o,力压群雄登顶聊天机器人竞技场排行榜

OpenAI 曾秘密测试 GPT-4o,力压群雄登顶聊天机器人竞技场排行榜

聊天机器人竞技场是一个网站,访客可以同时与两个随机的 AI 语言模型对话,却不知道哪个是哪个,然后选择提供更好回复的模型。

从今年 4 月份开始,OpenAI 在竞技场测试了多个版本的 GPT-4o,该模型最初以“gpt2-chatbot” 的名称出现,然后变成了“im-a-good-gpt2-chatbot”,最后是“im-also-a-good-gpt2-chatbot”。

自 GPT-4o 今日发布以来,多方消息人士透露,该模型以巨大优势登顶了 LMSYS 的内部排行榜,超越了之前排名最高的模型 Claude 3 Opus 和 GPT-4 Turbo。

lmsys.org 的官方账号分享了一张图表,并写道:“‘gpt2-chatbot’系列模型刚刚飙升至榜首,以显著的优势(约 50 Elo)超越了所有其他模型,它已经成为竞技场中最强大的模型。这是一张内部截图,公开版本的‘gpt-4o’现已进入竞技场,并很快将出现在公开排行榜上!”

OpenAI 曾秘密测试 GPT-4o,力压群雄登顶聊天机器人竞技场排行榜

截至IT之家发稿时,“im-also-a-good-gpt2-chatbot” 的 Elo 分数为 1309,领先于 GPT-4-Turbo-2023-04-09 的 1253 分和 Claude 3 Opus 的 1246 分。在三个“gpt2-chatbot” 出现并搅局之前,Claude 3 和 GPT-4 Turbo 一直在排行榜上争夺冠军。

相关标签:

相关资讯

神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观

这场等待「GPT-5」的游戏啥时候才能结束?GPT-5 啥时候来?估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布,还是我们可以从边角料的爆料中得知一点点信息,大家对未来将要发布的这一模型充满了期待。但奥特曼在一次访谈中表示,OpenAI 现在采用迭代部署的方式进行研发,而不是秘密进行直到完成 GPT-5 才公布,他们的目标不是给世界带来震惊性的更新,恰恰相反,OpenAI 希望自己研发的成果不会给人一种跳跃式的发展趋势,如果大家有那种感觉的话,OpenAI 会更加快速迭代地发布他们的产品,
4/30/2024 3:44:00 PM
机器之心

​国家队出手!国家超算互联网平台重磅上线deepseek,免费体验

中国人工智能初创公司 DeepSeek 受到了广泛关注,为了让更多用户方便体验 DeepSeek 的强大功能,国家超算互联网平台宣布上线 DeepSeek Chatbot 可视化界面功能。  用户在这个平台上可以轻松体验 DeepSeek 的各项功能,无需复杂的部署或操作。 只需进入平台,用户只需在输入框中输入想要咨询的问题或指令,即可开启对话。
2/5/2025 2:31:00 PM
AI在线

阿里QwQ-32B大模型成功上线国家超算互联网平台,助力Chatbot服务

近日,国家超算互联网平台宣布了一项重要更新:阿里 QwQ-32B 推理大模型正式集成至其 Chatbot 可视化对话服务与 API 在线调用服务。 这一进展意味着用户可以通过平台体验到更加智能和多样化的对话服务,涵盖学术研究、代码生成和日常咨询等多个场景。 据了解,QwQ-32B 模型是由阿里 Qwen 团队开发的,基于 Qwen2.5-32B 及强化学习技术构建。
3/18/2025 10:38:00 AM
AI在线
  • 1