Fiction.Live

长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

在最近的 Fiction.Live 基准测试中，Gemini2.5Pro 在理解和再现复杂故事和背景方面表现出色，领先于竞争对手 OpenAI 的 o3模型。这项测试远超传统的“大海捞针”式任务，专注于模型在海量上下文中处理深层语义和背景依赖信息的能力。据测试数据显示，在上下文窗口长度达到192，000个词条（约14.4万个单词）时，o3模型性能急剧下滑，而 Gemini2.5Pro 的6月预览版(preview-06-05)在同一条件下依然保持了超过90% 的准确率。

6/9/2025 9:00:56 AM

AI在线

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ AI Agent 产品交互设计：设计模式与案例分析首月 1 美元，ChatGPT Team 会员美区 / 英区 / 欧洲区 / 澳洲区迎优惠解决主体一致性了！FLUX.1 Kontext 深度测评+案例实操教程长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试 ChatGPT 语音功能升级，实时翻译对话更自然流畅 Dify工具插件开发和智能体开发全流程实战

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊