大家好,我是肆〇柒。当下,人工智能正以前所未有的速度改变着我们的生活与工作方式。其中,推理作为人工智能的核心能力之一,赋予了智能体在复杂环境中做出决策、得出结论以及进行知识泛化的能力。随着 AI 系统越来越多地涉足动态、不确定且多模态的环境,推理能力成为了实现稳健、自适应智能行为的关键。大型多模态推理模型(LMRM),则是让这一能力在多模态环境中体现出超强能力。它们集成了文本、图像、音频和视频等多种数据模态,展现出强大的逻辑推理、因果推理、类比映射和长期规划能力,致力于实现全面感知、精准理解和深度推理,从而在不同环境中为决策提供有力支持。今天,我们来一起了解一下多模态推理模型的演变历程、技术挑战以及未来发展方向。
大型多模态推理模型的核心路径
多模态推理的演变范式与讨论
第一阶段:感知驱动的模块化推理
早期的多模态推理依赖于感知驱动的模块化方法,由于当时有限的多模态数据、不成熟的神经网络架构和不够先进的学习方法,研究人员开发出了针对特定任务的模型,这些模型通常采用不同模块来实现多模态表示、对齐、融合和推理。随着技术的发展,多模态推理模型经历了多个阶段的演变,如下图。例如,一些模型使用通用的 CNN 和 LSTM 骨干网络从多模态数据中提取答案,但很快就被基于感知线索模块化的架构所改进,如神经模块网络(NMN)可以动态组装任务特定模块来组合视觉和文本特征,替代了静态融合方式。
大型多模态推理模型的发展路线图。框中突出显示的模型是从第3阶段向第4阶段过渡的代表性模型,箭头方向表明了这种过渡
随着预训练 - 微调学习范式的兴起,大规模多模态数据集的出现以及更深层神经网络的应用,预训练视觉 - 语言模型(VLM)出现了,它们是为了统一表示、对齐和融合过程。比如双编码器对比推理的 VLM 利用双流架构与对比学习,通过跨模态交互动态对齐和推理视觉与文本特征,像 ViLBERT 使用双流 Transformer 与跨模态注意力实现特征对齐,CLIP 则借助对比预训练实现零样本推理。
然而,这一阶段的推理多隐含于基础感知处理和神经计算之中,主要侧重于视觉表征和跨模态融合,常以分类为基础范式,限制了上下文感知和泛化推理,多模态推理系统仍依赖额外模块或任务特定增强。
第二阶段:语言中心的短期推理(系统 1 推理)
随着多模态大型语言模型(MLLM)的出现,多模态推理迎来了重大转折,从模块化系统迈向以语言为中心的端到端框架。这些模型在诸如视觉常识推理(VCR)、视觉问答(VQA)和视觉定位等任务上表现出色,但早期架构主要依赖于表面模式匹配和静态知识检索,在动态假设生成、多步逻辑推进和上下文敏感适应方面表现不足,于是链式思考(CoT)应运而生,它将隐式推理转化为显式中间步骤,把思考过程内化于端到端生成中,结合了第一阶段多模态融合的表征能力和 LLMs 的语言表达能力,使推理更具上下文相关性和可解释性。
基于 CoT 在纯语言模型中的成功,研究人员将其拓展至多模态领域,发展出多模态链式思考(MCoT)。早期主要聚焦于基于提示的适配,通过精心设计的提示使模型能逐步生成多模态推理痕迹。在视觉推理方面,IPVR 提出 “see-think-confirm” 提示框架,引导 LLMs 进行视觉接地和事由验证;在视频理解领域,VoT 利用时空场景图逐步推理,从低层次感知到高层次解释;于特定领域应用,如自动驾驶,PKRD-CoT 引入零样本提示框架,结构化组织感知、知识、推理与决策过程中的推理;在任务导向推理中,CoTDet 利用多层提示提取用于目标检测的可供性知识。
后续研究还增强了推理过程本身,或引入推理路径的结构化分解,或借助外部工具和检索增强扩展推理能力。如在结构化推理中,事由构造方法 Multimodal-CoT 提出两阶段框架,将事由生成与答案预测解耦,以降低幻觉现象发生概率;明确定义推理程序的方法如 Cantor 区分感知与决策阶段,先提取图像或文本描述中的低层次属性,再整合这些特征解决问题;特定模态结构化推理则针对视觉、听觉或具身输入的特性,融入模态感知设计,像 CoS 和 TextCoT 采用两阶段流程,先基于输入问题识别感兴趣区域,再局部检查以实现无需分辨率损失的多粒度推理。
外部增强推理则引入优势算法、辅助工具或专家模块,弥补模型固有推理能力的不足。例如搜索算法增强 MCoT 的 MM-ToT 利用 GPT-4 和 Stable Diffusion,通过深度优先和广度优先算法,依据 0.0 - 1.0 度量规模选择最优多模态输出;工具增强推理的 L3GO 借助 GPT-4 与 ControlNet,在模拟环境中基于 LLM 推理进行迭代式 3D 构建;检索增强推理的 RAGAR 通过检索多模态证据支持政治事实核查;多模态增强推理的 MCoT-Memory 通过整合记忆检索与场景图更新提升长链规划能力。
第三阶段:语言中心的长期推理(系统 2 思考与规划)
尽管 MCoT 显著提升了 MLLM 的推理能力,但对于现实世界多模态任务的复杂性而言仍显不足,其多为短、反应式链,类似快、直观的系统 1 推理,适用于熟悉或有界定的问题,但在抽象、组合、长期推理和适应性规划方面表现不佳。近期研究开始借鉴系统 2 启发的推理,强调慢、深思熟虑且具方法论结构的认知过程,使推理成为智能行为的核心而非附属功能,从三个关键维度拓展 MCoT,迈向能深度、可迁移且具认知基础推理的新一代 LMRM。
从推理模态角度看,仅依赖文本表征限制了模型捕捉特定模态知识的能力,近期研究引入跨模态推理链,借助视觉、听觉和语言信号作为联合推理基础,实现更丰富的语义基元和更忠实的信息整合。从推理范式来讲,研究人员构建更长、更高质量的链并引入通用、方法论指导的推理策略,如 o1 家族在广泛认知要求高的多模态任务上展现出近人类水平的性能。
多模态家族-o1方法。它主要依赖于一个多阶段、结构化的推理路径来解决问题
从学习方法而言,强化学习增强的多模态推理势头渐起,通过引入智能体数据、迭代反馈和长期优化目标,像 DeepSeek-R1 这类模型在规划、鲁棒性和适应性泛化方面得到提升,催生出新一代 R1 类模型,强调可扩展、方法论基础的多模态推理。
多模态家族-R1方法。它主要采用强化学习方法来提升大型多模态模型的推理能力
近期多模态O1类和R1类模型的时间线(上)和核心组件(下)。上半部分展示了代表性模型按时间顺序的出现情况。下半部分总结了关键组件,包括结构化推理范式、强化学习算法(例如DPO和GRPO)以及基于规则的奖励模型的设计
多模态推理模型路线图
第一阶段:感知驱动的模块化推理
早期多模态推理受限于多模态数据有限、神经网络架构处于萌芽状态以及学习方法不够先进,催生了为特定任务定制的模型,这些模型通常依赖不同模块来达成多模态表示、对齐、融合与推理,以下按模型架构和学习方法可分为模块化推理网络与基于预训练视觉 - 语言模型(VLM)的模块化推理。
大型多模态推理模型的分类
模块化推理网络最开始依赖通用 CNN 和 LSTM 骨干网络来从多模态数据中得出答案,但很快就被基于感知线索模块化的推理架构所改进。神经模块网络(NMN)能基于任务动态组装特定模块,组合视觉与文本特征,替代传统静态融合方式;层次化共注意力(HieCoAtt)引入模块化跨模态注意力,逐层对齐问题语义与图像区域;多模态紧凑双线性池化(MCB)通过高效可学习双线性模块优化特征交互;堆叠注意力网络(SANs)通过在视觉特征上迭代注意力跃迁模块化推理;动态记忆网络(DMN)整合记忆模块,处理顺序输入的多阶段推理;ReasonNet 将推理分解为实体 - 关系模块,用于结构化推理;自下而上和自上而下注意力(UpDn)结合这两种注意力优先处理对象级特征,用于推理(如 VQA - v2);记忆增强神经网络(MAC)运用带记忆增强的控制单元进行迭代组合推理;双线性注意网络(BAN)通过跨模态双线性注意网络捕获高阶交互;异构记忆增强多模态注意力(HeteroMemory)将外观与运动模块同步并融合时间信息,用于视频推理;基于关系网络的推理(MuRel)将推理建模为对象对上的关系网络,用于细粒度推理;模块化协同注意网络(MCAN)采用模块化协同注意,结合自注意力与引导注意力,用于深度跨模态推理。
在感知驱动的多模态模块化推理的初始阶段的分类工作中,视觉语言模型(VLM)和多模态语言模型(MLLM)在提升多模态推理任务的性能方面发挥了重要作用
预训练 VLM 基于模块化推理随着 Transformer 架构的问世以及预训练 - 微调学习范式的兴起,多模态表示、对齐和融合在数据和模型内部得到增强,那么,基于预训练 VLM 的模块化推理可分为三种类型:双编码器对比推理、单 Transformer 主干交互推理、多模态 LLMs 基础的隐式推理。双编码器对比推理模型利用双流架构与对比学习,在视觉和文本特征之间进行跨模态交互动态对齐与推理。例如,ViLBERT 运用双流 Transformer 与跨模态注意力动态对齐特征;LXMERT 在双编码器间添加交互层,对关系嵌入进行推理;CLIP 借助对比预训练实现零样本推理;ALBEF 整合对比学习与动量蒸馏,对蒸馏嵌入进行推理;METER 增强双流推理,采用模块化编码器 - 解码器框架,提升对齐鲁棒性(如 VCR)。单 Transformer 主干交互推理模型将视觉和文本输入嵌入到单个 Transformer 中,直接通过统一编码方法实现跨模态推理。例如,VisualBERT、UNITER、VL - BERT 等将视觉 - 文本输入融合到单 Transformer 中,通过联合上下文编码或增强跨模态预训练进行推理;PixelBERT 运用 CNN 和 Transformer 架构处理像素,用于细粒度推理;UniVL 统一视频 - 语言推理,采用单 Transformer 处理时间跨模态任务(如 TVQA);Oscar、VinVL 等以对象标签或增强视觉特征锚定推理,提升语义推断(如 VCR、GQA);ERNIE - ViL 整合场景图知识到单 Transformer 中,通过结构化的视觉 - 语言交互增强组合推理;UniT 通过共享自注意力 Transformer 主干简化多模态任务,实现统一推理;PaLI 以多语言框架扩展单 Transformer 推理,用于跨语言推理(如 OK - VQA);Flamingo 采用跨注意力优先动态交互视觉 - 文本输入;BEiT - 3 采用掩码数据建模统一视觉 - 语言学习;OFA、BLIP - 2 等引入统一多模态框架或查询 Transformer,提升跨模态推理效率(如 VQA - v2);Kosmos - 1、Kosmos - 2 实现输入交错处理或定位能力,用于灵活的多模态理解和精准目标定位。多模态 LLMs 基础的隐式推理模型将视觉输入映射到大型语言模型的文本空间,利用大型语言模型的上下文推理能力提升多模态推理性能,其架构包含预训练视觉编码器和大型语言模型,如 Vision - Encoder - LLM。CLIP - Cap 把 CLIP 视觉特征映射到 LLM 进行推理和描述任务;LLaVA 通过调优 ViT - LLM 集成实现对话推理;MiniGPT - 4、InstructBLIP 等通过投影层或指令调优将 ViT 与冻结 LLM 对齐,简化视觉 - 文本推理;Qwen - VL 引入空间感知 ViT,增强基于空间的推理;mPLUG - Owl、LMEye、Otter 等整合模块化视觉编码器与 LLM,用于指令遵循和上下文学习的多模态推理。
第二阶段:语言中心的短期推理(系统 1 推理)
随着大规模多模态预训练的兴起,MLLM 开始展现出新兴推理能力,然而此类推理通常较为浅薄,主要依赖隐式关联而非显式逻辑过程。MCoT 作为一种简单却有效的方法,通过引入中间推理步骤,改善了跨模态对齐、知识整合和上下文基础,在无需广泛监督或显著架构修改的情况下提升了推理性能。该阶段的研究方法可分为三类范式:基于提示的 MCoT、具有预定义模式的结构化推理以及借助轻量级外部模块的工具增强推理。
基于提示的 MCoT 方法将文本链式思考范式拓展至多模态情境,使模型能够以可解释性与极少附加训练的特性,逐步跨模态进行推理。在视觉推理领域,IPVR 设计了结构化的 “see-think-confirm” 提示框架,引导 LLMs 经历视觉接地与事由验证过程;VIC 在视觉输入前提示文本推理链,以减少幻觉现象并提升准确性。于视频理解方面,VoT 利用时空场景图,促使模型从低层次感知逐步过渡至高层次解读;VideoAgent 作为由 LLM 协调的系统,以极少量帧使用迭代式从长视频中提取关键信息;LET 在 VIP 数据集上采用逐帧提示策略,引导模型进行视频填补与预测的时序推理。在特定领域应用中,PKRD-CoT 推出了零样本提示框架,将自动驾驶推理贯穿于感知、知识、推理与决策环节;LPE 基于提示的推理整合了对口语内容与情感线索的处理,以生成富有同理心的回应;EMER 将提示应用于多模态情感识别,融合单模态线索并产出可解释预测。任务导向推理同样受益于基于提示的 MCoT,CoTDet 运用多层级提示提取可供性知识,助力于目标检测;AntGPT 通过提示使 LLMs 能从基于视频的动作序列中推断人类目标与时间动态;CPSeg 制定链式思考提示,对齐文本与像素级语义,增强分割效果。
结构化推理与基于提示的 MCoT 方法不同,该方法通过监督训练学习推理模式,将松散的推理引导转化为标准化的分阶段流程,从而提升复杂多模态任务的可扩展性、可靠性和效率。它可分为三类代表性类型:事由构建、明确定义推理程序以及特定模态结构化推理。
多模态思维链中结构化推理的分类与代表性方法
事由构建是多模态情境下结构化推理的基础,起始于有效的推理学习方法。Multimodal-CoT 提出两阶段框架,将事由生成与答案预测分离,以降低幻觉现象发生率;T-sciq 借助教师 LLM 生成复杂度各异的事由,凸显事由质量对推理准确性的重要性。明确定义推理程序方面,Cantor 将推理划分为感知与决策阶段,感知阶段提取图像或文本描述中的低层次属性(如物体、颜色、形状),决策阶段融合这些特征解决实际问题;TextCoT 采用三阶段流程,包括图像概述、粗定位与精细观察,逐步融合全局与局部语义,生成精准答案;Grounding - Prompter 从全局理解、去噪、分区理解到预测,渐进式融合全局与局部语义,抵抗噪声干扰,提升时间边界感知能力。音频 - CoT 运用三种链式思考范式,包括依赖手工示例的 Manual - CoT、借助简单提示实现零样本推理的 Zero - Shot - CoT,以及通过生成音频描述辅助推理的 Desp - CoT。VIC 在多模态情感识别中,先分解任务为基于文本的子步骤,再整合视觉输入形成最终事由;Visual Sketchpad 在素描过程中将事由组织为思考、行动与观察三阶段。 DetCoT 将 VQA 推理形式化为子任务组合与复审;BDoG 采用辩论与总结流程,借助特定智能体提升性能;CoTDet 将 VQA 推理固化为人类类流程,包括列出对象、分析可用性和视觉特征总结;CoCoT 对输入相似性与差异性进行系统性比较;SegPref 在视觉空间中精确定位发声物体,借助全局理解、声音过滤与去噪手段。 EMMAX 整合基于规划与预测的运动控制方法。特定模态结构化推理为应对多模态输入独特挑战(尤其视觉 - 语言任务),近期研究引入了特定于模态的推理结构。一些研究聚焦于基于区域的接地,利用空间定位引导结构化推理。例如,CoS 与 TextCoT 采用两阶段流程,先基于输入问题识别感兴趣区域,再进行局部检查,实现无需分辨率损失的多粒度推理;DDCoT 延伸此范式,引入双引导机制,结合边界框接地与语义相似实例检索,共同提升细粒度与上下文感知推理。除空间接地外,另一类别研究聚焦于文本引导的语义丰富化。Shikra 与 TextCoT 利用图像字幕作为高级语义线索,引导空间注意力与对象接地,减少对外部检测模块的依赖,促进更易解释的指代推理;受经典 CoT 框架启发,DDCoT 与 AVQA-CoT 将复杂视觉或视听查询分解为顺序子问题,借助 LLMs 选择相关子问题,实现跨模态多跳推理。最终,E-CoT 将结构化推理拓展至具身场景,通过任务重述、规划与低层次动作执行的交织,凸显在视觉 - 语言 - 动作模型中,跨越语义与感观 - 运动层面的事由链的必要性。
结构化推理,通过将明确的程序结构整合到模型中,将松散引导的推理转化为标准化的、逐步的流程,在复杂的多模态任务中增强了可扩展性、可靠性和效率
外部增强推理引入优势算法、辅助工具或专家模块,以弥补模型固有推理能力的不足。这些组件在推理时或训练中与模型集成,支持更可控、可扩展且面向任务的推理流程。通过将核心推理步骤从基础模型中解耦,这些方法增强了长链推理与领域专业化。
外部增强推理是通过引入算法、工具或专家模块等外部资源来增强模型的推理能力,从而克服其固有局限性的一种方法
我们可将外部增强方法分为四类:(i)搜索算法增强 MCoT,借助各种搜索策略引导推理过程;(ii)基于工具的增强,利用外部语言工具或系统指导推理执行;(iii)检索增强推理,将相关多模态知识从外部来源整合进推理路径;(iv)多模态增强,整合专门的多模态模块以支持感知驱动的推理。
搜索算法增强的 MCoT 方法赋予模型在推理过程中动态导航和优化推理轨迹的能力。例如,MM - ToT 结合 GPT - 4 和 Stable Diffusion,运用深度优先搜索(DFS)和广度优先搜索(BFS)算法,依据 0.0 - 1.0 度量规模挑选最优多模态输出;HoT 从多模态输入中生成关联想法,并将它们打包成单个超边;与之不同,聚合图思考(AGoT)构建推理聚合图,每一步整合多种推理元素,并随后引入视觉数据;蓝图辩论图(BDoG)摒弃搜索算法,采用三个智能体——肯定辩论者、否定辩论者和主持人——进行迭代辩论,主持人最终整合出一个最终答案,从而隐式构建包含广泛想法的思考图。
基于工具增强的推理方法利用外部文本增强工具,通过语言引导、结构化或优化整体推理流程。例如,L3GO 运用 GPT - 4 与链式思考提示生成明确的文本推理步骤,借助 ControlNet 在 Blender 环境中进行迭代式 3D 构建;HYDRA 与 Det - CoT 不仅将大型语言模型用作规划工具,还作为动态指令生成器、错误诊断器和推理控制器,它们与视觉基础模型(如 BLIP2、LLaVA)和强化学习智能体互动,通过文本提示和反馈迭代改进视觉理解与决策。这些系统整合状态记忆库以保持对话历史或先前指令,通过文本调制实现基于增量链式思考的推理。链式图像(Chain - of - Image)引入 SyMLLM,根据语言描述生成中间图像,将复杂问题转化为视觉推理任务,但仍以语言为基础进行控制。AnyMAL 将多种模态统一到文本空间,以实现跨模态推理,而 SE - CMRN 利用语法提示通过 GCN 提升视觉常识推理中的语言引导视觉推理性能。
检索增强推理方法通过检索机制增强多模态推理。例如,RAGAR 提出 CoRAG 和 ToRAG,借助检索多模态证据支持政治事实核查;链式行动(Chain - of - Action)通过可配置的推理链从异构来源检索信息;KAM - CoT 整合知识图谱作为外部知识源,通过两阶段训练增强多模态推理;AR - MCTS 将动态逐步检索与蒙特卡洛树搜索结合,使 MLLM 在每一步推理中访问相关知识,并自动生成高质量推理。
多模态增强方法利用专门的多模态模块增强模型的推理能力。例如,MCoT - Memory 提升长链规划能力,整合记忆检索与场景图更新,保留高置信度经验以支持稳健决策;MGCoT 运用 ViT - large 编码器提取视觉特征,结合斯坦福核心 NLP 系统进行共指解决,以及 OpenIE 系统提取思考单元节点,实现高效的 GoT 推理;CCoT 通过生成场景图作为中间推理步骤,提升 LMMs 的复合视觉理解和多模态推理能力;CVR - LLM 包含 CaID 和 CVR - ICL 两个关键组件,前者通过迭代自完善生成具情境感知的图像描述,后者创新性整合文本与多模态因素,选择情境示例,增强 LLMs 在复杂视觉推理任务中的表现;CAT 整合预训练图像描述生成器 SAM 与指令调优的大型语言模型,通过视觉控制和语言控制实现以用户为中心的图像描述。
第三阶段:语言中心的长期推理(系统 2 思考与规划)
尽管结构化推理引入了预定义模式以引导 MLLM 进行更系统的推理,但其仍受限于推理深度浅薄和适应性不足。为应对更复杂的多模态任务,近期研究主要在开发类系统 2 推理,这种推理形式具有深思熟虑、组合性且由显式规划指导的特点。通过延展推理链、基于多模态输入对其进行基础化,并采用监督或强化信号进行训练,这些模型开始展现出长期推理和适应性问题分解能力。
跨模态推理指向整合并跨文本、图像、视频等多种模态进行推理的能力。近期跨模态推理进展强调通过模型内在能力或外部工具和算法,增强多模态信息,以提升推理准确性和鲁棒性。这些方法是为了通过动态整合不同模态的互补信息来增强推理。
提升跨模态推理的方法,跨模态推理是指整合并推理多种模态(如文本、图像、视频)的能力
例如,外部工具的利用在多模态理解中的描述之外,近期方法越来越多地探索工具整合作为多模态推理本身的载体。VisProg 和 ProViQ 利用程序生成和过程执行实现跨模态推理,动态生成可执行代码或逻辑路径以解决复杂任务,如视频问答、多步视觉推理和几何问题求解。与此同时,如 AssistGPT、MM - ReAct 和 Multi - Modal - Thought 等方法采用模块化集成框架——例如 PEIL 和视觉专家提示——基于推理进展协调工具使用。这些系统通过在任务执行期间动态调用不同工具,实现可解释且适应性强的推理。VisualReasoner 进一步引入数据合成策略,生成多步推理痕迹,用于训练可插拔的视觉推理模块,适用于多种视觉 - 语言骨干网络。总体而言,这些努力通过结合程序归纳、动态工具编排和数据驱动推理监督,拓展了多模态推理的景观。
外部算法方面,FAST 和 ICoT 均借鉴类似人类思维的认知过程,其中 FAST 采用系统切换适配器在快思考和慢思考模式之间动态切换,而 ICoT 利用注意力驱动选择(ADS)交错视觉和文本推理步骤。与此同时,Image - of - Thought 和 CoTDiffusion 聚焦于生成视觉事由,前者逐步提取视觉信息,后者创建视觉子目标计划,将算法增强扩展至机器人领域。
模型内在能力方面,这些方法依赖于 LMM 生成或推断多模态信息的内在能力,无需外部工具。例如,T - SciQ、Visual - CoT 和 VoCoT 证明,通过对精心设计的 CoT 数据集(如 VoCoT - Instruct80K)进行微调,可在图表、文档和几何问题中实现单步多模态推理。MVoT 是早期尝试之一,其自包含架构通过迭代改进视觉 - 文本表示,用于具身推理任务。
第四阶段:迈向原生大型多模态推理模型(展望)
尽管 LMRM 在处理复杂任务时展现出长链思考的潜力,但其以语言为中心的架构对其在现实世界场景中的有效性施加了关键限制。它们主要聚焦于视觉和语言模态,限制了其在现实环境中处理和推理交织的多样化数据类型的能力,同时其在实时、迭代地与动态环境互动方面的表现仍有待提升。
展望原生大型多模态推理模型(N - LMRM)的发展,这可能成为机器智能的范式转变。与传统 LMRM 将语言模型与辅助模态处理器相拼接不同,N - LMRM 将被原生设计为在一个完全端到端的架构中统一多模态理解、生成和智能体推理。真实世界的数据类型将在一个统一的表示空间中被编码,例如 VideoPoet,同时大规模合成数据促进对任何模态交互环境中的推理和规划的全面学习。这一演变依赖于两项变革性能力:1)多模态智能体推理:N - LMRM 将体现智能体智能,实现与复杂环境的主动、目标驱动的互动,例如长期规划——任务分解和记忆增强推理以确保在扩展互动中的连贯性;动态适应——基于环境反馈实时调整策略;具身学习——通过模拟或物理互动的闭环训练框架,使模型通过学习实现更好的泛化。2)全模态理解与生成推理:N - LMRM 将超越特定模态的编码器和解码器,利用统一的表示空间实现平滑的跨模态合成与分析。这包括异构数据融合,用于联合嵌入多样化数据类型的;上下文多模态生成,用于连贯创建复合输出;以及与模态无关的推理,启用可适应的处理流程,以任务无关的方式处理新的或任何跨模态数据。
通向原生多模态推理模型
实验发现
尽管 LMRM 在生成全面思考过程和解决复杂问题(如 MMMU 和 MathVista)方面取得了显著进展,但其在以下方面远未达到现实世界应用的要求:1)评估范围应涵盖多种模态,包括视觉、音频和文本。2)评估能力应涉及与外部环境的互动,需要长期推理和适应性规划。以下汇总了研究者收集的全模态和智能体基准测试,随后分析了 LMRM 在这些基准测试中的表现。
对当前大型多模态模型(LMRM)的深度推理缺陷进行暴露的智能体式和全模态基准测试的总结。其中,T、I、A、V分别代表文本、图像、音频和视频
全模态基准测试近期研究引入了一系列全模态基准测试,这是为了评估 LMRM 在各种数据类型(例如图像、音频、文本和视频)上的统一理解和推理能力。例如,OmniMMI 是为了全面评估开放世界环境中流视频背景下的交互能力。实验结果显示,即使是商业模型(如 Gemini - 1.5 - Pro 和 GPT - 4o),其平均准确率也低于 20%。当任务需要统一模态理解(OmniBench、TaskAnything 和 JudgeAnything、MixEvalL - X),无论是开源还是闭源模型的表现均显著低于单一模态条件下的表现。具体而言,在音频 - 视频问答(AVQA)任务(如 WorldSense)中,Claude 3.5 Sonnet 仅实现 35% 的平均准确率,而表现最佳的开源模型仅达到 25% 的准确率。在更具挑战性的多模态推理任务中(如 BabelBench 和 OmnixR),随着模态数量的增加,所有模型的性能均急剧下降。这表明模型在处理图像、视频和音频输入时生成推理路径的能力弱于文本输入。这些发现共同表明,当前 LMRM 尚无法有效处理全模态输入。
智能体基准测试多样的任务凸显了多模态智能体评估环境的复杂性和广度。这些包括 AgentBench 的多环境任务、WorfBench 的复杂工作流规划场景、OSWorld 和 AndroidWorld 的完整操作系统交互、EmbodiedBench 的基于视觉的导航和操作挑战、VisualWebArena 的视觉基础网络任务以及 GAIA 的开放式、工具增强查询。在智能体基准测试中,LMRM 通常在性能上领先,并取得了显著进展。然而,即使是最先进的模型也始终未能达到人类水平的可靠性,并在复杂、开放式任务上挣扎。跨基准测试的评估反复暴露了常见的瓶颈:模型通常在现实世界接地、连贯的长期推理和规划、与外部工具的无缝集成以及在多样化模态和领域中的稳健性方面失败。例如,在 BrowseComp 基准测试中,GPT - 4o 仅实现 0.6% 的准确率,当接入浏览工具时提升至 1.9%,凸显了工具交互规划能力的薄弱。OpenAI 的 O1 推理模型达到 9.9%,但仍存在显著提升空间。值得注意的是,OpenAI 的深度研究通过针对网络搜索的特定调优,利用自主迭代工具调用和推理完成了 51.5% 的任务。实验结果凸显了当前大型推理模型在长期推理和适应性规划方面的不足,可能需要特定的调优和架构增强,以发展为真正的原生智能体系统。
O3 和 O4 - mini 的初步研究最近,OpenAI 推出了 O3 和 O4 - mini,为 ChatGPT 工具提供完整的智能体访问权限,并使模型能够在思考过程中 “使用图像”。例如,在段落后面“OpenAI o3的长多模态思维链案例研究”这张图中,O3 在 8 分钟 13 秒的思考过程中表现出清晰的任务分解。通过反复试验,它有效确定了裁剪每个子图的最佳方式,最终得出了正确答案。
OpenAI o3案例研究:寻找地点,解开谜题并创建多媒体内容
除了视觉推理之外,研究人员还评估了 O3 在文件处理、拼图求解、位置识别和多媒体内容创作等方面的能力。如上图(OpenAI o3案例研究:寻找地点,解开谜题并创建多媒体内容)和 下图(OpenAI o3案例研究:视觉问题解决与文件处理)所示,O3 在复杂多模态问题解决中表现出色,通过捕捉和利用图像中的微妙线索。然而,一些挑战也被识别出来:1)语言知识可能会干扰视觉输入。例如,在下图中的数手指案例中,O3 错误地将图像识别为标准举起的手表情,显示四个手指加拇指,而图像实际上显示了六根手指。2)OpenAI 的 O3 在输入文件处理和多媒体内容生成方面存在困难。由于工具限制以及编码环境中缺乏互联网访问,文件处理和多媒体创作往往出现不准确的情况。在下图所示的简历信息收集案例中,从简历 PDF 中解析的电话号码可能不准确,O3 还会通过重复类似内容来编造候选人的项目经验。此外,在上图所示的多媒体创作案例中,生成的帧未能遵循 “小熊猫” 指令,O3 也无法支持文本 - 图像交替生成。3)OpenAI 的 O3 可能在思考过程中编造推理。它偶尔会构造不正确的理由来支持潜在正确的答案(例如,上图中的拼图求解案例)。这个问题迫切需要解决,因为它可能导致模型在后训练过程中试图欺骗用户。事实上,这突显了模型尚未掌握解决问题的相关思维逻辑。
OpenAI o3案例研究:视觉问题解决与文件处理
除了视觉推理之外,研究者还评估了 O3 在文件处理、拼图求解、位置识别和多媒体内容创作等方面的能力。如上两图所示,O3 在复杂多模态问题解决中表现出色,通过捕捉和利用图像中的微妙线索。然而,一些挑战也被识别出来:1)语言知识可能会干扰视觉输入。例如,在上图中的数手指案例中,O3 错误地将图像识别为标准举起的手表情,显示四个手指加拇指,而图像实际上显示了六根手指。2)OpenAI 的 O3 在输入文件处理和多媒体内容生成方面存在困难。由于工具限制以及编码环境中缺乏互联网访问,文件处理和多媒体创作往往出现不准确的情况。在上图所示的简历信息收集案例中,从简历 PDF 中解析的电话号码可能不准确,O3 还会通过重复类似内容来编造候选人的项目经验。此外,在图(OpenAI o3案例研究:寻找地点,解开谜题并创建多媒体内容)所示的多媒体创作案例中,生成的帧未能遵循 “小熊猫” 指令,O3 也无法支持文本 - 图像交替生成。3)OpenAI 的 O3 可能在思考过程中编造推理。它偶尔会构造不正确的理由来支持潜在正确的答案(例如,上面图中拼图求解案例)。这个问题迫切需要解决,因为它可能导致模型在后训练过程中试图欺骗用户。事实上,这突显了模型尚未掌握解决问题的相关思维逻辑。
OpenAI o3的长多模态思维链案例研究:经过8分13秒的推理后得出正确答案。该问题来自中国公务员考试
N - LMRM 的能力
基于上述实验发现,引入了原生大型多模态推理模型(N - LMRM)的概念。N - LMRM 是原生设计的,目标是跨任何模态统一多模态理解、生成和智能体推理,这将超越 O4 - mini 的感知和推理范围。这一进步将建立在以下两项变革性能力之上,这些能力在很大程度上是并行探索的:多模态智能体推理,这使得主动、目标驱动的互动成为可能,通过分层任务分解、实时战略调整和具身学习;以及全模态理解与生成推理,这支持通过统一表示实现无缝跨模态合成与分析——促进异构数据融合和上下文多模态互动。
下一代原生大模态推理模型概述。该构想中的系统为了实现对各种现实世界数据模态的全面感知,从而实现精准的全模态理解和深入的生成式推理。这一基础模型将带来更高级形式的智能行为,从世界经验中学习,实现终身学习和自我完善
下表总结了与智能体和全模态模型相关的现有工作。这些模型仅探索了 N - LMRM 的部分能力,并未结合上述两种能力来构建更强大的大型多模态推理模型。
近期面向N-LMRM的智能体型和全模态模型综述
多模态智能体推理的核心能力是动态适应,可以根据环境反馈实时调整策略。一些行业内的最新产品已经初步展示了这种能力。例如,Model Context Protocol(MCP)和 Agent2Agent Protocol(A2A)促进了多样化工具的无缝集成,并实现了跨各种外部环境的动态互动,这些协议强调了多模态智能体推理的重要性,使智能体能够基于环境反馈实时调整策略,从而增强其在动态和多面现实世界应用中的有效性。例如,Operater 将 GPT-4o 的视觉能力与通过强化学习实现的先进推理能力相结合,使其能够通过图形用户界面(GUI)与操作系统和浏览器进行实时互动,并在任务执行过程中持续改进其浏览和数据操作。同样,Claude Computer Use 允许模型操纵和导航桌面环境,并通过试错学习最佳互动策略。
此外,Search-o1 在推理过程中利用外部知识检索来填补其理解空白。R1 - Searcher 和 DeepResearcher 通过强化学习增强了其自主使用搜索引擎收集信息的能力。通过将这种自主知识检索整合到推理过程中,这些系统能够以更精细的理解行动,并根据变化的任务调整其响应。Gemini 2.0 能够处理和生成多模态内容,并通过与谷歌的各种工具深度集成以及结合其先进的推理能力,有效分解任务,并在处理多步问题时逐步获取所需信息。尽管当前模型已经展示了这种功能的初步版本,但它们在进行持续、跨模态的互动推理方面仍然力不从心。
另一个方面是大型多模态推理模型的具身学习,用于处理外部环境。例如,Magma 通过与真实世界数据的互动进行学习,提升其空间 - 时序推理能力,以在虚拟和物理环境中有效导航和操作物体。同样,OpenVLA 结合视觉编码器与语言模型,使系统能够从真实世界机器人的示范中学习。这种具身方法使模型能够获取视觉和特定任务的推理技能,增强其执行需要多模态理解和适应的复杂现实世界操作的能力。总之,近期的 RL - 规模方法将极大地激发大型模型的智能行为,推动世界模型的发展。
全模态理解与生成推理多模态智能体的行为与其底层大型多模态模型的深度推理能力密切相关,尤其是在感知范围、理解准确性和推理深度方面。因此,开发一个全面的全模态模型以用于现实世界应用并增强其深度推理能力是基础性的。
技术前景
原生大型多模态推理模型(N - LMRM)的技术前景目标是原生地统一各种数据类型的理解、生成和推理,从语言和视觉到音频、触觉、传感器读数、时间序列和结构化数据,使我们更接近能够看、听、说和行动的统一且协调的系统。然而,构建此类 N - LMRM 面临着重大挑战。这些模型必须在架构上被设计为能够在单个系统中处理异构模态,通过使用其内在多模态推理链通用和多样化工具,并支持从现实世界互动中持续学习。本节概述了构建 N - LMRM 的关键挑战,并提出了可能的解决途径。
统一表示与跨模态融合一个基本挑战是创建一个能够在统一方式下处理和生成不同模态的单一模型架构。传统方法通常为每个模态使用独立的编码器。相比之下,原生全模态模型寻求更统一的设计,允许模态间的无缝互动。一种可能的解决方案是将所有输入和输出同质化为共同格式,并统一处理任何模态。这需要精心设计,以防止负向干扰,即一个模态可能主导或损害其他模态的表示。因此,混合专家(MoE)架构的新兴解决方案应运而生,其中特定模态的专家仅在相关输入被激活,而核心语言模型作为语言智能的骨干。
交织的多模态长链思考基于统一表示,N - LMRM 可以将传统的长内部思考链扩展到多个模态的交织推理过程中。这为测试时计算扩展提供了新的维度,无缝融合不同模态。OpenAI 最近发布的 O3 和 O4 - mini 标志着这一方向的开创性尝试,即在思考链中使用图像进行推理(OpenAI, 2025),通过可以自动处理的工具进行缩放、裁剪、翻转或增强图像。重要的是,这些能力是原生的,不依赖于独立的专用模型。受软件工程、国际数学奥林匹克竞赛、创意写作和 GUI 操作等领域强化学习泛化能力的鼓舞,将强化学习扩展到更多模态、更长的工具增强推理链和更广泛的推理任务,可能是下一代 N - LMRM 的配方,能够模拟跨模态推理并提升机器智能。
从世界经验中学习与演化在动态发展的智能系统中,“世界模型 2” 的核心价值不仅在于其在复杂环境中的实时建模和推理能力,如自动驾驶,还在于其通过与环境持续互动实现终生学习的演化机制。当 MCP 和 A2A 创建工具和智能集群的高密度网络时,系统可以通过与环境、工具和其他智能体的多维度互动,将每次互动转化为结构化的经验。这包括从实时数据流中进行模式识别、跨工具操作链的因果推理、在通信网络中的协作反馈以及在异常场景中的自主适应。
这种持续学习范式使 LMRM 能够克服静态知识库的限制。通过迭代积累世界经验,它动态更新其认知架构和决策策略。特别是在开放环境中,自主学习机制驱动模型积极探索工具组合的潜力。在解决新问题的过程中,它同时存储可转移的知识,最终形成一个既具有专业推理能力又保持跨场景泛化韧性的智能系统。研究者认为,结合在线强化学习和离线验证方法的互动学习方法,可能会持续激发 LMRM 的能力,这已在 GUI 智能体模型中被利用以持续提升性能。
数据合成当前 LMRM 的能力在很大程度上是数据驱动的。为了在预训练阶段增强这些模型,开发高质量的数据合成管道以定制其功能至关重要。大多数现有的数据合成工作集中在提高单模态或跨模态的理解和推理,特别是在视觉、语言和语音等领域。然而,在更复杂的方面,例如对齐三种或更多模态、创建多模态互动链式思考和视觉生成、在动态环境中进行多步规划以及协调多工具调用和并行工具使用,鲜有探索。这些领域为推进多模态推理模型提供了重大机遇。
数据集和基准测试
多模态推理模型的发展和优化催生了一系列任务和基准测试,用于对模型在不同方面(如视频理解、视觉推理等)进行实证能力评估和分析。以下将现有数据集总结并分类为四大类:理解、生成、推理和规划,同时总结这些基准或数据集常用的评估指标和维度。
按任务类型划分的多模态基准测试和数据集(训练)概览:理解(以视觉为中心、以音频为中心)、生成(跨模态、联合多模态)、推理(通用视觉、特定领域)以及规划(图形用户界面、具身与仿真环境)。这些基准测试通常需要进行简短或较长的推理才能成功完成任务,例如具有挑战性的视觉和音频生成
数据集和基准测试的概述。我们将多模态数据集和基准测试重新划分为四个主要类别:理解、生成、推理和规划
多模态理解
多模态理解是指模型处理和解释来自多种模态(如视觉和听觉数据)的能力,以执行需要理解、推理和生成的任务。这些任务对于开发能够以更类人方式与现实世界互动和响应的模型至关重要。根据任务定义,现有的多模态理解任务可分为两大领域:1)以视觉为中心的理解,涵盖模型理解和推理视觉内容的能力;2)以音频为中心的理解,侧重于涉及语音、音乐和环境声音等的任务。
视觉中心理解
以视觉为中心的理解评估模型理解和推理视觉数据(如图像和视频)的能力,涵盖从一般视觉理解到文档和图表解释、多语言视觉推理、视频理解、数学和科学推理以及综合基准等多个领域的专门任务。每个领域都针对视觉理解的不同方面,从自然图像中的对象识别和空间推理到结构化视觉数据(如文档和图表)的解释。以下对这些类别进行详细探讨:
一般视觉理解一般的视觉问答(VQA)数据集在复杂性和范围上都有所发展。早期的数据集如 VQA 和 GQA 主要关注自然图像中的对象识别、属性识别和简单的空间推理。这些数据集通常包含图像 - 问题 - 答案三元组,问题格式简单(例如,“汽车是什么颜色?”)。重点主要放在自然图像和基本感知上。更近期的数据集如 ALIGN 为了解决更复杂的视觉 - 语言任务,包括图像 - 文本对齐和多模态表示。Visual Genome 通过包含关系和对象级信息扩展了视觉理解,从而推动了推理的边界。LAION - 400M 数据集是最大的图像 - 文本对集合之一,为视觉 - 语言模型的大规模训练提供了基础。FILIP 和 YFCC100M 整合了视觉和语言,提升了模型在各种基准测试中的性能。
文档、图表和 OCR 视觉理解文档、图表和 OCR 基于 VQA 数据集构成了一个专门领域,专注于理解和解释包含文本元素的结构化视觉信息。例如,DocVQA 针对文档理解,要求模型在文档中定位和解释文本以回答问题。图表 VQA,如 DVQA,专注于解释视觉数据表示,包括条形图、折线图和饼图,测试模型对这些结构的理解能力。OCR - VQA 数据集如 TextVQA 和 OCR - VQA 强调阅读和推理嵌入在自然图像中的文本。这些数据集具有几个独特特征:1)OCR 与视觉理解的深度整合,2)结合文本和视觉元素的多步推理,3)对文档结构、图表惯例或文本布局的特定领域知识。与通用 VQA 数据集不同,这些集合更加强调视觉和文本内容之间的跨模态互动,特别是在更结构化的上下文中。此外,像 AI2D 这样的数据集侧重于图表和结构化视觉表示,增强了对图形内容的推理。
多语言视觉理解多语言视觉理解数据集满足了多模态系统对语言多样性的日益增长的需求。数据集如 CMMLU、C - Eval、Exams - v、M3exam、VideoVista - CulturalLingo 和 MTVQA 超越了以英语为中心的 VQA 系统。这些数据集的特征包括:1)涵盖多种语言的问题和注释,涉及各种语言家族,2)在不同文化背景下测试视觉理解和语言能力,3)要求模型理解可能具有特定文化解释或参考的视觉概念。与单语言 VQA 数据集相比,这些多语言数据集评估并增强了 MLLM 的跨语言迁移能力。
视频理解视频理解数据集,例如 ActivityNet - QA 和 Perception Test ,越来越多地被用于训练和评估模型在动态视觉任务中的表现。与静态图像数据集相比,这些数据集要求模型解决基于时间的理解问题,涉及多个帧中的动态视觉特征。它们包括对动作、事件和时间关系的注释,并涵盖从几秒钟到几分钟不等的多样化视频时长。现有的视频评估数据集已扩展到应对科学领域(例如 Video - MMMU )、长视频领域(例如 Video - MME )以及全面的视频理解和推理(例如 VideoVista )的挑战。VideoVista 提供了一个多功能基准测试,包含 14 类视频,时长从几秒钟到超过 10 分钟,并涵盖 19 个理解任务和 8 个推理任务。它利用由 GPT - 4o 提供支持的自动注释框架,增强了其可扩展性和多样性。像 YouTube8M 这样的数据集已成为视频分类和多模态理解的大规模基础。此外,VidGen - 1M 和 WebVid 作为训练数据集,通过整合多模态文本和视觉信号来增强视频理解。
综合基准综合评估基准如 MMBench、Seed - Bench 和 MME - RealWorld 已出现,以提供对现有多模态模型的更全面评估。这些基准测试衡量模型在现实世界场景中整合视觉和语言理解的能力,包括 1)多维度评估框架,评估视觉理解的各个方面,从感知到推理和知识整合,2)精心设计的问题,为了探索特定能力并识别弱点,3)标准化评估流程,以实现跨模型的公平比较。与早期特定任务的数据集不同,这些基准测试提供了模型整体能力的全面衡量。
音频中心理解
以音频为中心的理解指的是评估模型处理、解释和响应各种形式的音频输入(如语音、环境声音和音乐)的能力。随着这些模态在机器学习任务中的重要性日益增加,评估模型对音频数据的理解和互动能力已成为一个关键关注点。评估涵盖了语音、音频和音乐理解的不同方面,包括准确性、翻译、情感识别和一般理解的多种基准和数据集。
语音理解语音评估数据集在评估模型的音频领域性能方面发挥着关键作用。这些数据集主要从几个角度衡量模型是否能够准确清晰地理解现实世界中的语音。现有的数据集从语音识别的准确性角度评估,如 Librispeech 是一个由不同演讲者朗读的有声读物数据集,是广泛使用的英语语音识别评估指标。Common Voice 收集来自全球志愿者的语音记录,为模型训练提供了一个多元化的语音数据集。Aishell 系列是中国语音识别的标准。Fleurs 评估了多语言语音识别和语音 - 文本翻译模型。从语音多语言翻译任务的角度来看,CoVoST2 是一个多语言语音 - 文本翻译数据集,评估了模型的实时语音识别翻译能力。从语音情感识别的角度来看,MELD 数据集评估了模型在 TV 剧中多演讲者的情感语音中识别情感的能力。
环境声音理解环境声音理解是音频理解的另一个重要方面,涉及从非人类语音中提取和识别信息。与人类语音相比,环境声音提供了更复杂和多样化的信息。主要的评估数据集主要在两个关键领域评估音频理解:1)音频描述,Clotho 包含来自免费声音平台的声音,主要用于音频描述任务。同样,AudioCaps 源自 AudioSet 数据集,也专注于音频描述,具有更广泛的应用范围。2)音频问答(AQA),ClothoAQA 是一个众包的 AQA 数据集,AQUALLM 是基于 LLM 的自动音频 QA 生成框架构建的。这些基准测试包括各种音频类型及其配对的问题和答案,帮助模型学习理解音频内容并生成对音频相关问题的准确回应。
音乐理解音乐凭借其结构特性和复杂的变体,已成为音频理解的一个重要研究领域。音乐评估主要考虑两个方向:主流数据集如 MusicNet 和 NSynth 评估了模型识别音乐理论元素(如乐器、音符、音高和节奏)的能力。此外,MusicCaps 和 MusicBench 用于对整个音乐曲目的描述,测试模型理解音乐作品的详细内容和整体结构的能力。
综合基准随着大型音频 - 语言模型(LALMs)的不断发展,越来越多的模型能够理解语音和各种声音。因此,研究人员提出了新的评估基准,以全面评估模型的音频理解能力。VoiceBench 重点关注模型在不同情境下理解语音的能力,包括基本能力、口语表达和嘈杂环境下的表现评估。AudioBench 整合了多种语音任务(如自动语音识别、语音问答)、声音任务(如音频描述、音频问答)以及与人类语音相关的任务(如口音、年龄和性别)。Air - Bench 和 MMAU 通过加入音乐任务扩展了这一范围。SD - eval 结合了语音任务和环境声音任务,使模型能够理解复杂的混合音频场景。
多模态生成
多模态生成是多模态推理模型的关键能力之一,涵盖在不同数据类型(如文本、图像、音频或视频)中创建新内容。这种生成能力不仅对创意应用至关重要,而且在模型需要用多模态格式传达其理解或推理结果的任务中发挥着重要作用。根据模态间信息流动方式和生成输出的性质,这些任务可分为两类:(1)跨模态生成,评估模型基于一种模态的输入生成另一种模态内容的能力;(2)联合多模态生成,评估模型同时在多种模态中生成内容的能力。
跨模态生成
跨模态生成涉及模型基于一种模态的输入生成另一种模态的内容。这包括文本到图像、文本到视频和文本到语音等任务,要求模型有效地将一种类型的输入(如文本)映射到另一种形式(如图像、视频或语音)。本节探讨为评估模型在各种跨模态任务中的性能而开发的数据集和基准测试,重点关注对齐、连贯性和语义生成。
文本到图像随着文本到图像生成(T2I)领域的快速发展,出现了多种数据集和基准测试,专门用于文本到图像生成、编辑和条件生成等任务。对于文本到图像生成,数据集如 MSCOCO(30K)、CC12M 和 Flickr30k 提供了大规模的通用图像 - 文本对,强调日常场景和对象。相比之下,数据集如 RedCaps 和 COMMONPOOL 引入了更复杂的文本描述和更高分辨率的图像。基准测试如 GenEval 和 ELLA 专注于评估文本到图像的对齐情况,衡量生成图像与文本描述的匹配程度。此外,GenAI - Bench 和 T2I - CompBench++ 强调处理复杂提示词和对象交互的能力,突出有效组合生成和改进语义对齐的需求。
对于文本到图像编辑,数据集如 MagicBrush、InstructPix2Pix和 HQ - Edit 关注基于指令的编辑,而 HQ - Edit 将任务扩展到高清图像。UltraEdit和 SEED - Data - Edit 引入了多轮编辑任务,改进了大型语言模型(LLMs)在多轮对话中的训练。这些数据集评估了图像编辑的不同需求,MagicBrush 侧重于创意方面,而 Emu Edit 则关注高质量编辑中的精准性和连贯性。
对于条件文本到图像生成,数据集如 ADE20K 和 CocoStuff 提供了详细的分割图和场景解析注释,使模型能够根据特定场景结构生成图像。UniControl 引入了更全面的数据,要求模型同时处理多个条件输入。基准测试如 UniCombine 专注于评估指令执行的完整性、视觉连贯性和与约束的一致性。
文本到视频在文本到视频生成领域,高质量的数据集和全面的基准测试对于研究进展至关重要。数据集如 VidGen - 1M 、OpenVid - 1M 和 VidProM 涵盖了广泛的视频内容及其对应的描述性文本。基准测试工具如 AIGCBench 、EvalCrafter 和 VBench 从不同指标(如相关性、连贯性和视觉质量)评估模型。专门的基准测试如 VideoScore 、WorldSimBench 和 WorldScore 将评估扩展到视频质量和现实世界准确性,其中 VideoScore 评估用户满意度。
文本到语音文本到语音(TTS)生成受益于高质量的数据集和基准测试,这些资源推动了大型音频 - 语言模型(LALM)的发展。早期模型使用合成数据集来评估语音对话能力,采用如 LlaMA - Questions 、Web Questions 和 Trivia QA 等数据集,评估基于词错误率和文本与音频输出之间的一致性。最近的基准测试如 ADU - Bench 评估了语音对话能力,涵盖常规、专业、多语言和模糊场景,而 URO - Bench 包括语音风格的评估,如语调和情感。
机器人在机器人领域,数据集和基准测试为模型提供了高保真度的多模态环境,以评估其在如自动驾驶等任务中的性能。数据集如 ThreeDWorld 和 GAIA - 1 提供了用于机器人任务(如自动驾驶)的交互式模拟平台。在基准测试方面,Genesis 提供了标准化的评估框架,用于跨多种机器人任务评估模型,确保其在现实世界中的适用性。
联合多模态生成
联合多模态生成涉及同时在多种模态中创建内容,例如生成文本和图像或结合文本、音频和视频以产生连贯的输出。这增加了额外的复杂性,因为模型必须确保生成模态之间的连贯性和一致性。为此,开发了专门的数据集和基准测试,为模型创建与上下文相关的多模态输出提供了丰富的训练环境。
文本到交错图像 - 文本近年来,多模态大型语言模型(MLLM)的发展显著推进了交错图像 - 文本生成。数据集如 MM - Interleaved 和 ANOLE 通过提供高质量的标注图像 - 文本对支持模型训练。这些数据集强调模型生成与上下文相关且视觉连贯内容的必要性。基准测试如 InterleavedEval 和 OpenLEAF 侧重于评估模型生成连贯且一致的图像 - 文本对的能力,而 OpenING 提供了更多样化的任务以评估交错图像 - 文本生成。
文本到多模态输出近期在文本到多模态输出方面的研究通过结合跨模态和联合多模态数据,增强了多模态生成能力。模型如 NextGPT 和 DreamFactory 采用无训练的方法,将文本转化为多模态故事,并结合视频评估基准如 Vbench。其他模型如 EVA 通过整合具身世界模型,基于文本输入模拟和预测视频序列中的事件。
多模态推理
多模态推理超越了简单的理解或生成,要求模型整合来自多种模态的信息,以进行推断、解决问题和回答需要对不同类型数据之间的关系有更深入理解的复杂问题。多模态推理模型可分为两大类:(1)通用视觉推理,评估模型理解视觉内容并运用一般知识、逻辑和常识解决问题的能力;(2)特定领域推理,评估模型在特定领域的专业推理能力,如基于视觉输入的数学问题解决。
通用视觉推理
通用视觉推理是多模态推理模型中最关键的能力之一。它要求模型不仅要感知视觉信息,还要运用广泛的知识、逻辑推理和常识在各种场景中理解和分析视觉信息。为了严格评估这一能力,开发了多种基准测试,每个基准测试都针对视觉推理的不同方面。除了简单的问答任务(例如 VQA),视觉常识推理基准测试如 VCR 和专门的数据集如 PhysBench 用于物理推理和 VideoPhy 用于理解视频中的物理常识,这些都挑战模型运用日常知识解释视觉情境的能力。
对更广泛 AI 能力的追求反映在多模态通用智能基准测试中。这些包括全面评估如 MMBench(涵盖多语言方面)、MMMU(跨越不同学科)、AGIEval (专注于以人为中心的评估)、VideoVista 和 MMStar (以视频为中心)。这些基准测试将视觉推理作为与其他模态和任务相结合的关键组成部分。此外,对图表和结构化视觉的理解至关重要,基准测试如 AI2D 和 InfographicVQA 挑战模型解释空间布局、理解关系并从图表、图表和信息图中提取信息的能力。
这些基准测试的一个关键组成部分是用于训练和评估模型的数据集。例如,SWAG 是为了训练模型预测视觉场景中可能的动作延续。LLava - CoT 数据集 通过整合大型语言模型,使模型能够进行视觉常识推理。CLEVR 挑战模型在日常对象的合成图像上进行复杂推理。其他数据集如 Mulberry - 260K 和 ShareGPT4oReasoning 进一步训练模型进行视觉常识推理和多模态对话。
Video - R1 - data 帮助训练模型在视频序列中推理动态视觉内容。最后,Visual - CoT 支持需要视觉理解和推理的各种任务的模型训练。随着这些基准测试和数据集不断发展和演变,它们对于推进多模态推理模型至关重要。
特定领域推理
特定领域推理基准测试在评估多模态模型在特定领域的专业推理能力方面发挥着关键作用,例如基于视觉输入的数学问题解决。在数学推理方面,数据集如 MathVista 和 MATH - Vision 评估模型在视觉情境中解决数学问题的能力,这需要视觉理解和数学推理相结合。同样,图表 QA 和 ScienceQA 专注于特定领域的推理。
在机器人领域,几个基准测试评估了具身 AI 的不同方面,特别强调推理能力。模拟环境如 Habitat、AI2 - THOR 和 iGibson 要求智能体在复杂的 3D 环境中进行推理,以处理导航、交互和空间理解任务。基准测试如 Isaac Lab 和 ProcTHOR 专注于在多样化环境中进行操作任务的推理。其他如 WebArena 测试关于网络内容的推理,而语言引导推理则通过基准测试如 CALVIN 进行评估。
对于物理推理,数据集如 PhysBench、VideoPhy 和 CRAVE 评估模型对视觉和视频情境中物理定律和常识的理解。最后,基准测试如 GAIA - 1 和 RoboGen 通过评估模型模拟和推理现实世界动态和互动的能力,支持世界模型的开发。
多模态规划
多模态规划基准测试对于评估智能体在整合和处理多样化输入(如视觉、文本和交互数据)同时执行复杂、多步骤任务方面的能力至关重要。这些基准测试涵盖了从网络导航到图形用户界面(GUI)、具身环境和开放式模拟等多种挑战,通过测试规划、推理和适应性,提供了对智能体能力的全面了解。可以将这些基准测试分为两个关键领域,以突出它们的独特贡献和创新。
GUI 导航
GUI 导航基准测试评估智能体在数字界面中规划和执行任务的能力,这需要强大的视觉 - 语言接地和多步骤推理。例如,WebArena 和 Mind2Web 提供了现实的网络环境用于导航和信息提取,而 Mind2Web 进一步引入跨网站任务以测试泛化能力。VisualWebBench 推进了视觉密集型规划,拥有 1.5K 项任务,专注于跨页面集成和元素定位。Windows Agent Arena 评估了跨应用规划在桌面环境中的能力,而 Ferret - UI 专注于基于接地 UI 理解执行多步骤指令。WebShop 等基准测试在模拟的电子商务环境中测试视觉 - 语言接地。此外,OSWorld 和 OmniACT 提供了现实桌面操作系统环境,支持跨应用工作流程,如文件操作和数据处理。VisualAgentBench 通过系统性地评估大型多模态模型在 GUI、具身和视觉设计任务中的表现,建立了统一的规划和行动基准,这得到了 LlamaTouch 等基准测试的补充,后者通过 495 项任务扩展了移动 UI 自动化,测试多步骤操作,如应用程序导航。
具身和模拟环境
具身和模拟环境强调在动态、交互式环境中进行规划,智能体必须适应物理或虚拟世界。例如,MineDojo 在 Minecraft 中提供了一个开放式的基准测试,支持在丰富、交互式环境中对通用智能体进行多样化任务的训练和评估。其灵活性支持多模态规划,用于对象交互、导航和资源管理。MuEP 专注于具身规划,以视觉 - 语言输入处理模拟环境中的路径规划任务。GVCCI 引入了一个终身学习框架,生成合成数据以增强视觉接地,用于语言引导的机器人操作,无需人类监督即可实现显著性能提升。BEHAVIOR - 1K 提供了 1,000 项家庭活动的数据集,使机器人能够通过整合视觉、语义和动作数据规划复杂任务。Habitat 3.0 推进了在模拟家庭环境中的人 - 机器人协作,支持多模态规划以用于导航和互动。SAPIEN 提供了高保真度环境,用于基于部件的对象操作,增强机器人规划的精确度。HomeRobot 及其 OpenVocabManip 基准测试开创了开放词汇移动操作的先河,结合语言、感知和动作以实现通用任务。HoloAssist 捕捉了以第一人称视角进行的人 - 机器人互动,促进了现实世界协作任务的规划。DrivingDojo 在实时驾驶场景中测试动态决策,利用视频和多智能体数据。最后,V - MAGE 提出了一个基于游戏的评估框架,用于在定位、轨迹跟踪和视觉记忆等任务中评估多模态大型语言模型(MLLM),提供了量化规划能力的新方法。
多模态规划基准测试在评估智能体在多样化任务中的能力方面取得了显著进展,从网络导航到具身环境。然而,挑战依然存在,如长期规划、处理噪声输入和现实世界适应性。未来的基准测试应关注开放世界环境、实时人类反馈和协作规划,特别是在多智能体或人类 - AI 场景中。解决这些差距将有助于开发能够以更大灵活性和泛化能力处理不可预测现实任务的智能体。
评估方法
目前主流的评估方法包括精确 / 模糊匹配、选项匹配、LLM/MLLM 评分和智能体评估。
精确 / 模糊匹配主要用于一般开放式 VQA 任务,包括 VQAv2 、OKVQA 等。这些评估数据集通常提供多个由人类标注的候选答案,经过规则处理的预测答案与候选答案进行精确或模糊匹配。最终的评估分数根据特定规则计算。例如,在 VQAv2 评估中,与单一候选答案匹配仅得 1/3 分,与所有三个候选答案匹配才能获得满分 1 分;DocVQA 则使用 Levenshtein 距离来衡量预测结果的准确性。
选项匹配由于答案的多样性,精确和模糊匹配方法往往无法涵盖所有候选选项。为了确保评估的公平性和准确性,引入了选项匹配方法。在此方法中,系统提示包含几个候选选项,模型需要从中选择最合适的一个。此外,为了减少模型在选择过程中对特定选项的偏好,如 MMBench 等工作采用了 CircularEval 方法,以最小化评估中的随机变化。
LLM/MLLM 评分尽管选项选择确保了公平性,但它与开放式问题和现实世界情境的性质相去甚远。因此,基于 LLM 的评估方法被引入到开放式问题的评估中。此方法将特定提示、问题、标准答案和模型预测输入到 LLM 或 MLLM(如 GPT - 4o)中,以生成分数。提示通常包括评分指南、参考示例等信息,目的是引导模型提供公平和平衡的分数。
智能体评估在评估过程中,单一模型的能力固有局限性可能导致在处理多样化多模态信息时的不足。因此,基于智能体的方法可以利用工具来缓解模型本身的限制。例如,CIGEval 通过整合多功能工具箱,扩展了 MLLM 的视觉理解能力,从而实现更精细的评估。此外,多智能体讨论在下游任务中被证明是有效的,通过促进共识产生更健壮的解决方案,这种优势也延伸到了评估场景。利用多个智能体之间的协作或对抗互动来评估输出的方法,已被证明能够提供更可靠和可解释的评估。
总结、感想
本文综述了多模态推理模型的演变历程,突出了该领域的关键进展和范式转变。尽管当前模型在视觉问答、视觉数学和视频理解等任务中展现出了以语言为中心的推理范式的优势,但在视觉中心的长期推理(例如理解 3D 上下文、处理复杂的视觉信息检索问题)和交互式多模态推理(例如动态跨模态对话或迭代反馈循环)方面仍有待深入探索。
基于实证评估和实验,研究者提出了原生大型多模态模型的概念,这些模型超越了以语言为主导的架构。此类模型应着重具备三项核心能力:多模态智能体推理,实现与环境的主动互动(例如,具身 AI 智能体可通过现实世界中的试错学习进行学习);全模态理解与生成推理,整合任意模态的语义(例如,在视觉、音频和文本之间对齐抽象概念),同时在复杂的开放世界情境中解决歧义;以及在多模态输出中生成连贯且与上下文相关的输出(例如,根据口头指令生成图表,或从文本合成视频叙事)。通过解决这些维度的问题,未来的模型有望实现类似人类的上下文适应性,缩小孤立任务表现与通用现实问题解决之间的差距。
其实相关的综述,之前还有一篇,感兴趣的同学可以对比阅读《MCoT:让机器像人类一样思考 (综述)》。我在阅读哈工大深圳校区的这篇论文时(见文末参考)注意到它仅是外部资料的引用就有458篇,素材算较为全面的。看到研究者通过对各个阶段代表性模型、方法和实验数据的剖析,我了解到了多模态推理模型在不同阶段的特点、优势与局限性。从早期模块化推理网络对感知线索的巧妙利用,到预训练视觉 - 语言模型在统一表示和融合过程中的关键作用;从多模态链式思考方法在提升推理深度和可解释性方面的显著成效,到强化学习在增强模型推理能力上的独特魅力,每一个技术节点都在加中多模态在我知识体系中的分量。同时,也让我深刻认识到当前多模态推理模型在全模态理解和智能体推理方面的不足。
而论文后面提到的原生大型多模态推理模型(N-LMRM)的概念让我很高兴这与自己之前的认知是吻合的,它所提出的多模态智能体推理和全模态理解与生成推理能力,是多模态推理领域为来重要的能力。一个能够像人类一样全面感知世界、精准理解各种模态信息,并进行深度推理和决策的智能模型,将在多广泛的领域带来变革性的应用,这会推动人工智能技术的边界。阅读论文,并输出此文,真是收获满满。