AIGC宇宙 AIGC宇宙

长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

在最近的 Fiction.Live 基准测试中,Gemini2.5Pro 在理解和再现复杂故事和背景方面表现出色,领先于竞争对手 OpenAI 的 o3模型。 这项测试远超传统的“大海捞针”式任务,专注于模型在海量上下文中处理深层语义和背景依赖信息的能力。 据测试数据显示,在上下文窗口长度达到192,000个词条(约14.4万个单词)时,o3模型性能急剧下滑,而 Gemini2.5Pro 的6月预览版(preview-06-05)在同一条件下依然保持了超过90% 的准确率。

在最近的 Fiction.Live 基准测试中,Gemini2.5Pro 在理解和再现复杂故事和背景方面表现出色,领先于竞争对手 OpenAI 的 o3模型。这项测试远超传统的“大海捞针”式任务,专注于模型在海量上下文中处理深层语义和背景依赖信息的能力。

谷歌大模型Gemini

据测试数据显示,在上下文窗口长度达到192,000个词条(约14.4万个单词)时,o3模型性能急剧下滑,而 Gemini2.5Pro 的6月预览版(preview-06-05)在同一条件下依然保持了超过90% 的准确率。

值得注意的是,OpenAI 的 o3模型在8K 代币以下保持完美准确率,但当上下文扩展至16K~60K 后出现波动,最终在192K时“崩溃”;相比之下,Gemini2.5Pro 尽管在8K时略有下滑,却能稳住表现直至192K。

QQ20250609-085845.png

尽管 Gemini2.5Pro 宣称可支持高达100万个标记的上下文窗口,目前的测试仍远未触及其理论极限。与此同时,o3的最大窗口为200K,而 Meta 推出的 Llama4Maverick 则宣称能处理 多达一千万个词条,但在实际任务中被指出忽略了大量重要信息,表现未达预期。

深度理解能力不能靠“堆参数”堆出来。

来自 DeepMind 的研究人员 Nikolay Savinov 指出,“信息越多并不等于更好”。他解释,大上下文带来的挑战在于注意力机制的分配:关注某些信息时,势必会忽略其他部分,反而降低整体表现。他建议用户在使用模型处理大型文档时,优先删除无关页面、缩减冗余内容,以提升模型处理质量。

整体来看,Fiction.Live 基准测试为语言模型能力评估提供了更真实、更贴近应用场景的测试方式。Gemini2.5Pro 在此次测试中展现了其在长文本理解上的强劲实力,也提示行业:未来的大模型竞争,不再仅是“谁的窗口大”,而是“谁用得更聪明”。

相关资讯

微软、英伟达带头接入Deepseek OpenAI紧急寻求400亿美元新融资

近日,微软、英伟达和亚马逊 AWS 等行业领军企业纷纷接入 Deepseek 的模型托管服务。 这一消息不仅让人对 Deepseek 的前景充满期待,同时也昭示着 AI 行业将迎来新的变革。 与此同时,OpenAI 也在积极筹集新一轮资金,寻求高达400亿美元的融资。
2/2/2025 10:49:00 AM
AI在线

AI新功能震惊网友:轻松破解照片拍摄位置

近日,OpenAI 推出的 o3模型因其能够精准猜测照片拍摄位置而引发广泛关注。 这一功能由 Django Web 框架的创始人 Simon Wilson 首次测试,他在自己的博客中详细记录了 o3的推理过程,称这一体验既超现实又令人不安。 Wilson 随意拍了一张看似平常的照片,包含了些许道路和房屋,却没有明显的标志性建筑。
4/28/2025 10:01:34 AM
AI在线

DeepSeek 全新开源R1-0528 模型登场,性能媲美 OpenAI o3 模型

今天凌晨,知名的开源大模型平台 DeepSeek 发布了其最新版本 R1(0528),引起了广泛关注。 此次发布没有附带详细说明,DeepSeek 选择了 “悄然” 开放模型,预计后续会发布模型卡,进一步介绍其功能。 据悉,R1-0528版本的性能在著名代码测试平台 Live CodeBench 上的测试结果显示,其表现与 OpenAI 最新的 o3模型相当。
5/29/2025 9:00:51 AM
AI在线
  • 1