长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

作者：AI在线 2025-06-09 09:00

在最近的 Fiction.Live 基准测试中，Gemini2.5Pro 在理解和再现复杂故事和背景方面表现出色，领先于竞争对手 OpenAI 的 o3模型。这项测试远超传统的“大海捞针”式任务，专注于模型在海量上下文中处理深层语义和背景依赖信息的能力。据测试数据显示，在上下文窗口长度达到192，000个词条（约14.4万个单词）时，o3模型性能急剧下滑，而 Gemini2.5Pro 的6月预览版(preview-06-05)在同一条件下依然保持了超过90% 的准确率。

在最近的 Fiction.Live 基准测试中，Gemini2.5Pro 在理解和再现复杂故事和背景方面表现出色，领先于竞争对手 OpenAI 的 o3模型。这项测试远超传统的“大海捞针”式任务，专注于模型在海量上下文中处理深层语义和背景依赖信息的能力。

谷歌大模型Gemini

据测试数据显示，在上下文窗口长度达到192，000个词条（约14.4万个单词）时，o3模型性能急剧下滑，而 Gemini2.5Pro 的6月预览版(preview-06-05)在同一条件下依然保持了超过90% 的准确率。

值得注意的是，OpenAI 的 o3模型在8K 代币以下保持完美准确率，但当上下文扩展至16K~60K 后出现波动，最终在192K时“崩溃”;相比之下，Gemini2.5Pro 尽管在8K时略有下滑，却能稳住表现直至192K。

尽管 Gemini2.5Pro 宣称可支持高达100万个标记的上下文窗口，目前的测试仍远未触及其理论极限。与此同时，o3的最大窗口为200K，而 Meta 推出的 Llama4Maverick 则宣称能处理多达一千万个词条，但在实际任务中被指出忽略了大量重要信息，表现未达预期。

深度理解能力不能靠“堆参数”堆出来。

来自 DeepMind 的研究人员 Nikolay Savinov 指出，“信息越多并不等于更好”。他解释，大上下文带来的挑战在于注意力机制的分配:关注某些信息时，势必会忽略其他部分，反而降低整体表现。他建议用户在使用模型处理大型文档时，优先删除无关页面、缩减冗余内容，以提升模型处理质量。

整体来看，Fiction.Live 基准测试为语言模型能力评估提供了更真实、更贴近应用场景的测试方式。Gemini2.5Pro 在此次测试中展现了其在长文本理解上的强劲实力，也提示行业:未来的大模型竞争，不再仅是“谁的窗口大”，而是“谁用得更聪明”。

微软、英伟达带头接入Deepseek OpenAI紧急寻求400亿美元新融资

近日，微软、英伟达和亚马逊 AWS 等行业领军企业纷纷接入 Deepseek 的模型托管服务。这一消息不仅让人对 Deepseek 的前景充满期待，同时也昭示着 AI 行业将迎来新的变革。与此同时，OpenAI 也在积极筹集新一轮资金，寻求高达400亿美元的融资。

2/2/2025 10:49:00 AM

AI在线

AI新功能震惊网友：轻松破解照片拍摄位置

近日，OpenAI 推出的 o3模型因其能够精准猜测照片拍摄位置而引发广泛关注。这一功能由 Django Web 框架的创始人 Simon Wilson 首次测试，他在自己的博客中详细记录了 o3的推理过程，称这一体验既超现实又令人不安。 Wilson 随意拍了一张看似平常的照片，包含了些许道路和房屋，却没有明显的标志性建筑。

4/28/2025 10:01:34 AM

AI在线

DeepSeek 全新开源R1-0528 模型登场，性能媲美 OpenAI o3 模型

今天凌晨，知名的开源大模型平台 DeepSeek 发布了其最新版本 R1（0528），引起了广泛关注。此次发布没有附带详细说明，DeepSeek 选择了 “悄然” 开放模型，预计后续会发布模型卡，进一步介绍其功能。据悉，R1-0528版本的性能在著名代码测试平台 Live CodeBench 上的测试结果显示，其表现与 OpenAI 最新的 o3模型相当。

5/29/2025 9:00:51 AM

AI在线

长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

相关资讯

微软、英伟达带头接入Deepseek OpenAI紧急寻求400亿美元新融资

AI新功能震惊网友：轻松破解照片拍摄位置

DeepSeek 全新开源R1-0528 模型登场，性能媲美 OpenAI o3 模型