Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

作者：故渊 2024-05-30 10:32

谷歌在 I / O 2024 开发者大会上，宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens，那么 Gemini 1.5 Pro 性能究竟有多强悍？根据 LMSYS Org 公布的总排行榜对比，通过 Arena Elo 系统的测量，Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。上述两款模型在中文方面的表现也非常优秀，Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。IT之家注：Aren

谷歌在 I / O 2024 开发者大会上，宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens，那么 Gemini 1.5 Pro 性能究竟有多强悍？

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

根据 LMSYS Org 公布的总排行榜对比，通过 Arena Elo 系统的测量，Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

上述两款模型在中文方面的表现也非常优秀，Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

IT之家注：Arena Elo 系统通过让用户匿名投票决定哪个模型在随机对战中表现更好来衡量大型语言模型（LLMs）的技能，并像国际象棋中的 Elo 系统一样更新用户的评分，整体而言更加客观。

相关标签：

Gemini Pro 1.5 Arena Elo

相关资讯