AIGC宇宙 AIGC宇宙

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

谷歌在 I / O 2024 开发者大会上,宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens,那么 Gemini 1.5 Pro 性能究竟有多强悍?根据 LMSYS Org 公布的总排行榜对比,通过 Arena Elo 系统的测量,Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。上述两款模型在中文方面的表现也非常优秀,Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。IT之家注:Aren

谷歌在 I / O 2024 开发者大会上,宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens,那么 Gemini 1.5 Pro 性能究竟有多强悍?

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

根据 LMSYS Org 公布的总排行榜对比,通过 Arena Elo 系统的测量,Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

上述两款模型在中文方面的表现也非常优秀,Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

IT之家注:Arena Elo 系统通过让用户匿名投票决定哪个模型在随机对战中表现更好来衡量大型语言模型(LLMs)的技能,并像国际象棋中的 Elo 系统一样更新用户的评分,整体而言更加客观。

相关资讯

29 年经典游戏被攻克:谷歌 Gemini 2.5 Pro 成功通关《宝可梦蓝》

谷歌Gemini 2.5 Pro成功通关29年前的经典游戏《宝可梦蓝》,展示了AI在游戏领域的突破。谷歌CEO皮查伊兴奋宣布这一成果,引发对AI游戏能力的讨论。#AI游戏# #Gemini#
5/4/2025 7:55:19 AM
远洋

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

Google 也不知道受了什么刺激,最近在 AI 场上,好像越来越有站起来的意思了。 之前我就写过 Gemini 2.5 pro,是在聊天记录可视化的文章里。 被低估的谷歌?
5/8/2025 1:13:04 AM
数字生命卡兹克

自缘身在最高层?OpenAI o1 pro竞赛级评测结果新鲜出炉

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/22/2024 4:31:00 PM
机器之心
  • 1