大家好,我是肆〇柒。在AI飞速发展的今天,AI Agent正经历从简单对话机器人向自主智能体的重大转变。就在上周,通义实验室(Tongyi Lab)开源了最新的研究成果——通义DeepResearch,并随开源发布了六篇论文,被社区戏称为“腹泻式发论文”。
通义DeepResearch是全球首个在性能上全面对标OpenAI DeepResearch、并在多项权威基准测试中登顶的全开源Web Agent。他们不仅开源了模型,更首次完整公开了从数据合成到强化学习的全套训练方法论,为整个AI社区提供了可复现、可扩展的Agent构建方法论,推动了自主智能体技术的民主化进程。
通义DeepResearch在多个极高难度的信息检索和推理任务中取得了最先进的(SOTA)成绩:Humanity's Last Exam (HLE):32.9,BrowseComp-EN:45.3,BrowseComp-ZH:49.5,xBench-DeepSearch:75.0,全面超越了目前所有的闭源及开源Deep Research智能体(Agent)。
本文下面会简单介绍一下这一创新技术的架构、训练方法和实际应用,揭示如何打造一个真正具备深度研究能力的AI智能体。
通义DeepResearch:从Chatbot到Autonomous Agent的跃迁
AI Agent的演进历程
传统的聊天机器人(Chatbot)主要专注于单轮或有限多轮对话,缺乏主动获取信息和执行复杂任务的能力。而自主智能体(Autonomous Agent)则能够理解复杂问题、规划行动路径、调用工具、收集信息并进行深度推理,最终给出高质量答案。
通义DeepResearch正是这一演进的关键里程碑。它不仅能够理解自然语言指令,还能在开放的Web环境中自主导航、检索信息、整合多源数据并进行复杂推理,为用户提供远超传统聊天机器人的深度研究能力。
性能突破与行业领先
通义DeepResearch在多个权威基准测试中展现出卓越性能,特别是在处理需要多步推理、信息整合和复杂决策的任务上:
通义DeepResearch性能指标对比
从图表可见,通义DeepResearch在Humanity's Last Exam (HLE)、BrowseComp-EN、BrowseComp-ZH和xBench-DeepSearch等关键基准测试中均取得了领先成绩,全面超越了当前所有闭源及开源解决方案。这些成绩证明了通义DeepResearch不仅在技术上实现了突破,更在实际应用中展现出强大能力。值得注意的是,这些指标均是在公开可验证的基准测试中取得的,为行业提供了客观的性能参考。
全栈开源的技术价值
与市场上其他Deep Research解决方案不同,通义DeepResearch不仅提供了高性能模型,还完整分享了一套可落地的高水平Agent构建方法论。从数据合成、Agentic增量预训练(CPT)、有监督微调(SFT)冷启动,到强化学习(RL)的全套流程,这一全栈开源策略为整个AI社区提供了宝贵的实践参考,加速了自主智能体技术的普及和创新。
Agentic CPT(智能体增量预训练)作为这一方法论的核心环节,是一种专门为Agent能力设计的预训练阶段,旨在赋予模型基本的工具使用和环境交互能力。通过与后训练过程中源源不断生产的数据形成数据飞轮,Agentic CPT为后续的SFT冷启动和强化学习奠定了坚实基础。
技术突破:基于合成数据的增量预训练和后训练
智能体增量预训练(Agentic CPT)的创新
在传统大模型训练流程中,预训练阶段主要关注语言理解和生成能力,而缺乏对工具使用和环境交互的专门训练。通义DeepResearch提出了智能体增量预训练(Agentic Continual Pre-training, Agentic CPT)阶段,为后训练提供一个强大的Agent基座模型。
这一创新的关键在于AgentFounder——一套支持大规模持续扩展的智能体预训练数据合成方案。AgentFounder与后训练过程中源源不断生产的数据形成数据飞轮,不断优化模型能力。
SFT冷启动作为有监督微调的初始阶段,通过高质量示例引导模型形成基本能力,是连接预训练和强化学习的重要桥梁。在通义DeepResearch的训练流程中,SFT冷启动确保了模型在进入强化学习前已具备基础的工具使用和推理能力。
数据重组与问题构建
通义DeepResearch的数据合成方法基于广泛收集和持续更新的知识文档、公开爬虫数据、知识图谱以及后训练数据。其核心是以实体为锚定构建开放世界知识记忆,然后基于采样的实体和相关知识构造多风格的(问题,答案)对。
轨迹合成过程示意图
如图所示,该方法能够覆盖智能体面临的真实场景,包括单步规划、推理动作和多步决策动作。特别值得一提的是,通义DeepResearch能够在离线环境下大规模探索潜在的推理-动作空间,无需依赖额外商业工具API调用,大大降低了数据合成成本。这一创新使数据合成过程更加高效可控,为模型训练提供了丰富多样的训练样本。
High-quality QA数据生成流程
在建立了强大的基座模型后,高质量的后训练数据成为进一步提升Agent能力的关键。通义DeepResearch开发了一套端到端的合成数据生成解决方案,无需人工干预即可构建超越人类质量的数据集。这一流程经历了从WebWalker(网页点击流逆向工程Benchmark)到WebSailor和WebSailor-V2(基于图谱的合成方法),再到WebShaper(形式化的任务建模)的长期迭代。
基于知识图谱的数据构建
其核心技术包括基于知识图谱随机游走和表格数据融合构建真实信息结构。该流程首先通过在高度互联的知识图谱随机游走和基于表格数据融合同构表构建,将来自真实网站数据整合,并确保信息结构的真实性。然后,对子图和子表进行采样,生成初始问题和答案。
问题难度控制机制
通过策略性混淆问题信息增加难度是提升模型能力的关键。该方法基于组合泛化的理论框架,将问答难度正式建模为一系列可控的"原子操作"(例如,合并具有相似属性的实体),这些操作基于实体关系,使我们能够系统地增加问题复杂性。
形式化建模提升数据质量
为了进一步减少问答系统的信息结构与推理结构之间的不一致性,通义DeepResearch提出了一种基于集合论的信息搜索问题形式化建模。这种建模使问题能够以可控方式扩展,最大限度地减少了推理捷径和结构冗余,从而进一步提升了问题质量。此外,这种形式还能高效地验证问答的正确性,有效解决了信息搜索合成数据难以验证的挑战。
学术数据构建流程
此外,通义DeepResearch还开发了一个自动化学术数据构建流程,以扩大博士级研究问题的规模。该引擎基于多学科知识库,生成需要多源推理的"种子"问答对。然后,每个种子都会进入一个自我引导的"迭代复杂性升级"循环,其中,一个问题构建代理配备了一套强大的工具,包括网络搜索、学术检索和Python执行环境。在每次迭代中,代理都会扩展知识边界,深化概念抽象,甚至构建计算任务,从而形成一个演化循环,上一轮的输出成为下一轮更复杂的输入,确保任务难度的可控且系统地升级。
融合多样推理模式
为了激发模型的初始能力,通义DeepResearch基于ReAct和IterResearch框架构建了高质量训练数据:
- ReAct模式:提供基础的多轮推理能力,增强模型遵循结构化格式的能力
- IterResearch模式:通过动态重构精简工作空间,释放模型的全部推理潜力
这种多模式融合的数据构建方法,使模型在训练初期就掌握了多样化的推理策略,为后续的强化学习奠定了坚实基础。通过拒绝采样的方式构建的轨迹数据,确保了训练数据的高质量和多样性。
创新的Rollout模式:ReAct与深度模式
ReAct模式:简洁高效的推理基础
通义DeepResearch的ReAct模式严格遵循"思考-行动-观察"的循环,通过多次迭代来解决问题。模型支持128K上下文长度,可以处理大量交互轮次,完全实现与环境交互的可扩展性。
选择ReAct模式很大程度上受到了"The Bitter Lesson"的影响——利用可扩展计算的通用方法最终将优于依赖复杂人工知识和设计的方法。ReAct的简单性和通用性为模型的内在能力和训练流程的有效性提供了最清晰的基准。在实际应用中,基础的ReAct模式无需任何提示工程即可充分展现模型固有能力,为用户提供高效的问题解决体验。
深度模式:突破认知瓶颈的创新
针对极端复杂的多步研究任务,通义DeepResearch开发了"深度模式",基于全新的IterResearch范式。这一模式解决了Agent在处理长程任务时面临的两大挑战:认知瓶颈和上下文噪声污染。
IterResearch范式工作流程
如图所示,IterResearch将多步研究任务解构为一系列研究回合。在每一轮中,Agent仅使用上一轮最重要的输出重建精简工作空间,在此专注环境中分析问题、整合关键发现并决定下一步行动。这种"综合与重构"的迭代过程使Agent能在长期任务中保持清晰的认知焦点,有效避免了传统方法中上下文不断累积导致的信息过载问题。
Research-Synthesis框架:并行探索的智慧
在IterResearch基础上,通义DeepResearch进一步提出了Research-Synthesis框架,通过并行使用多个IterResearch Agent探索同一问题,最终整合它们的报告和结论。
Research-Synthesis框架架构
这种并行结构使模型能够在有限上下文窗口内考虑更广泛的研究路径,显著提升复杂问题的解决能力。当面对需要多角度分析、多源信息整合的深度研究任务时,Research-Synthesis框架能够发挥出最大优势。通过多个Agent实例的并行探索和最终整合,系统能够发现更全面、更准确的解决方案,大大提升了在极端复杂任务上的表现。
端到端Agent训练流程:从预训练到强化学习
通义DeepResearch建立了完整的智能体模型训练范式,下面简单说明了如何通过Agentic CPT → Agentic SFT → Agentic RL的无缝连接,为AI Agent创建端到端训练循环。
训练流程全景
通义DeepResearch建立了一套完整的智能体模型训练范式,将Agentic CPT → Agentic SFT → Agentic RL无缝连接,形成端到端训练循环。
通义DeepResearch端到端训练流程
这一流程从预训练开始,通过增量预训练赋予模型基本的工具使用能力;然后通过监督微调实现能力冷启动;最后通过强化学习使模型进行自我进化,不断提升解决复杂任务的能力。如图所示,数据飞轮机制确保了各阶段之间的有效衔接和持续优化,形成了一个闭环的训练系统。
基于On-Policy策略的智能体强化学习
强化学习是提升Agent性能的关键环节,但也面临诸多挑战。通义DeepResearch在这一领域取得了显著突破:
1. 算法优化:基于GRPO进行定制优化,采用token级别的策略梯度损失函数,使用留一法降低优势估计方差,并选择性排除某些负样本以提高训练稳定性。
2. 训练动态:训练过程指标显示,模型学习效果显著,奖励持续上升,策略熵维持在较高水平,表明模型持续进行有效探索。
3. 数据质量优先:研究发现,合成数据比人工标注数据(如BrowseComp测试集)更能有效提升模型性能。这是因为合成数据提供了一致性更高的分布,而人工标注数据含有更多噪声且规模有限。
强化学习训练曲线
如图所示,训练曲线清晰地展示了模型在强化学习过程中的持续进步。奖励值的稳定上升表明模型正在有效学习,而策略熵的稳定维持则表明模型保持了良好的探索能力,避免了过早收敛。这种训练动态验证了我们方法的有效性。
高稳定性基础设施
为支持强化学习训练,通义DeepResearch构建了四大关键基础设施:
1. 仿真训练环境:利用离线维基百科数据库和自定义工具套件创建模拟环境,避免依赖实时Web API带来的高成本和不一致性。通过SailorFog-QA-V2流程,为该环境生成专属的高质量数据,创建了一个经济高效、快速可控的平台。
2. 稳定高效的工具沙盒:通过缓存结果、重试失败调用和饱和式响应处理并发和故障,为Agent提供快速鲁棒的交互环境。这一沙盒确保了工具调用的稳定性,防止工具错误响应破坏学习轨迹。
3. 自动数据管理:在训练动态指导下实时优化数据,通过全自动数据合成和数据漏斗动态调整训练集,形成数据生成与模型训练的正向循环。数据质量直接决定了模型是否能通过自我探索提升分布外泛化能力。
4. On-Policy异步框架:基于rLLM实现异步强化学习训练推理框架,支持多个Agent实例并行与环境交互。这种框架确保了训练效率和稳定性,使强化学习过程更加高效。
这些基础设施共同构成了智能体强化训练的"闭环",确保了训练过程的稳定性和高效性。从基座模型开始,通过Agentic持续预训练初始化工具使用技能,然后使用高质量数据进行监督微调实现冷启动,最后通过on-policy强化学习使模型进行自我进化,这一全栈方法为训练能够在动态环境中稳健解决复杂任务的AI代理提供了全新范例。
实际应用与行业影响
高德地图:地图导航智能体
高德App作为通义在集团内长期共建的重点客户,其"地图导航+本地生活"的业务场景具备构建Deep Research类Agent的理想条件。通义团队与高德团队合作,"通义团队提供Deep Research模型+高德团队提供工具和Agent链路",共同打造了高德App中助手"高德小德"的复杂查询体验。
高德小德复杂查询界面
高德小德的复杂查询功能使用户能够提出多条件导航需求,如"找一家有停车位、评分4.5以上、人均100元左右的川菜馆"。系统能自动完成多步信息检索与综合判断,无需用户分步查询。这一应用利用纯agentic+ReAct执行复杂推理的垂类Deep Research技术,为用户提供更精准、更全面的导航和本地生活服务,在地图行业内树立了新的标杆。通过深度研究能力,高德小德能理解用户隐含需求,提供超出简单关键词匹配的智能服务。
通义法睿:法律Deep Research
作为大模型原生的"法律智能体",通义法睿集法律问答、案例法条检索、合同审查、文书阅读和起草等功能于一体,全面满足法律用户需求。
通义法睿法律研究界面
依托创新的Agentic架构与迭代式规划(Iterative Planning)技术,通义法睿实现了权威类案精准检索、法条智能匹配与专业观点深度融合。在法律问答的深度研究三大核心维度——答案要点质量、案例引用质量和法条引用质量上,通义法睿均领先行业,为法律从业者提供了可追溯、高可信的分析服务。
通义法睿能够处理复杂的法律咨询,例如:"我被公司无故解雇,但签了竞业协议,现在想入职竞争对手,可能面临什么法律风险?"系统会自动检索相关劳动法条款、类似判例,并分析竞业协议的具体内容,提供全面的法律风险评估。这种深度研究能力使法律专业人士能够更高效地获取精准信息,提升工作效率和决策质量。
未来展望与系列工作
当前局限与改进方向
尽管通义DeepResearch取得了阶段性成绩,但仍面临三个关键挑战:
1. 上下文长度限制:当前128k的上下文在处理极端复杂长程推理任务时仍显不足,未来将探索扩展上下文窗口的有效方法,并研究更精细的上下文管理策略。
2. 训练流程可扩展性:在远超30B参数规模的模型上尚未充分验证,计划在更大规模模型上测试流程有效性,验证方法论的普适性。
3. 强化学习效率:将通过引入partial rollouts等技术提升RL框架效率,这需要攻克离线训练面临的分布偏移问题,提高训练稳定性和效率。
通义DeepResearch家族系列
通义DeepResearch拥有丰富的Deep Research Agent家族,每个成员都专注于解决特定领域的深度研究挑战:
通义团队在过去六个月持续发布技术报告,目前已发布多篇重要研究成果,不断推动Deep Research领域的发展。这些工作共同构成了一个完整的Deep Research生态系统,为解决不同复杂度和领域的问题提供了针对性解决方案。
通义DeepResearch的发布标志着AI Agent技术进入了一个新阶段。它不仅在性能上达到行业领先水平,更重要的是提供了完整的开源解决方案和方法论,为整个AI社区贡献了宝贵的知识和实践经验。
通过从Chatbot到Autonomous Agent的跃迁,通义DeepResearch展示了AI技术如何真正赋能各行各业,解决实际问题。无论是地图导航还是法律研究,通义DeepResearch都证明了深度研究型智能体的巨大价值和潜力。