AIGC宇宙 AIGC宇宙

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

作者:余俊晖
2025-03-13 08:13
刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力? 结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。

先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?

结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。如下图D和E所示:

图片图片

方法:从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)开始,直接应用 RL 训练。使用与 Vision-R1 相同的奖励函数,即硬格式结果奖励函数(HFRRF):如果输出格式正确且答案正确,奖励为 1,否则为 0。训练目标是激励模型生成多模态 CoT,解决数学推理任务。

系统提示与奖励格式和Deepseek相似:

  • 系统提示:
复制
A conversation between User and
Assistant. ... first thinks about
the reasoning process ... provides
the user with the answer. The
reasoning process and answer are
enclosed within <think> </think> and
<answer> </answer> tags ...
  • 奖励格式:
复制
<think> </think><answer></answer>

方法架构

仅靠强化学习(RL)无法有效激励多模态大型语言模型(MLLM)的推理能力,主要原因是缺乏高质量初始数据和优化策略

因此,可以知道Vision-R1 的目标是:

  • 生成高质量的多模态推理链(CoT)数据集,无需人工标注。
  • 通过 RL 优化模型,使其生成逻辑清晰、长度适中的 CoT,避免过度思考(Overthinking)。

基于此,Vision-R1 提出了一种两阶段方法,通过冷启动初始化和渐进式 RL 训练。

Vision-R1流程Vision-R1流程

1. 冷启动初始化

冷启动初始化是通过构建一个高质量的多模态链式推理(CoT)数据集来实现的。目的是为模型提供一个初始的、高质量的推理示例,以便在后续的强化学习过程中更好地学习和改进推理能力。

冷启动初始化的核心在于如何从多模态数据中提取出高质量的推理过程。由于多模态大型语言模型(MLLMs)通常难以直接处理多模态输入,提出了一种称为“模态桥接”(Modality Bridging)的方法来实现这一目标。

整体数据生成流程整体数据生成流程

实现细节

步骤

作用

方法

1. 伪 CoT 生成

MLLM 处理图像-文本对,生成初步推理步骤

使用 Qwen-2.5VL-72B

2. 详细描述获取

通过提示获取支持回答问题的详细图像描述

提示模板见论文

3. CoT 提取与优化

DeepSeek-R1 提取并优化 CoT

DeepSeek-R1 见

4. 数据过滤

规则过滤确保数据质量

200K Vision-R1-cold 数据集

  • 伪CoT生成:首先,使用现有的多模态大型语言模型(MLLM)来生成“伪CoT”(Pseudo-CoT)。具体的,输入一个图像-问题-答案对和一个提示到一个MLLM中,模型会生成一个包含图像描述和推理过程的文本。这个“伪CoT”不仅包含了图像的描述,还尝试进行初步的推理,但可能缺乏深度和复杂性。

通过带有和不带“伪CoT”的描述生成的CoT过程比较。通过带有和不带“伪CoT”的描述生成的CoT过程比较。

  • 文本描述生成:将生成的“伪CoT”与原始的图像-问题对以及一个新的提示一起输入到同一个MLLM中,以获取更详细的图像描述。这一步骤的目的是通过MLLM的文本生成能力,将图像中的视觉信息转化为更详细的文本描述,从而为后续的推理提供更多的上下文信息。
  • 推理生成:将经过文本化的图像-问题对输入到一个专门的推理大型语言模型(如DeepSeek-R1)中,以生成高质量的CoT推理过程。DeepSeek-R1能够生成包含自然认知过程的推理过程,如质疑、反思和检查等。
  • 数据过滤:从生成的CoT数据中保留那些最终答案与真实值一致的样本。使用规则进行数据过滤,去除逻辑不一致的样本,并替换一些词汇以提高语义连贯性。

冷启动数据源:

图片图片

小结:冷启动初始化的主要目的是为模型提供一个高质量的起点,使得模型在后续的强化学习过程中能够更快地学习和改进其推理能力

2 渐进式思维抑制训练(PTST)

图片图片

为了解决冷启动后的过度思考问题,Vision-R1 采用渐进式思维抑制训练(PTST),通过 RL 进一步优化模型的推理能力。

  • 分组相对策略优化(GRPO): GRPO 是一种 RL 算法,通过分组类似状态或动作来优化策略,提高学习效率。  详细的可参考往期《DeepSeek采用的GRPO算法数学原理及算法过程浅析》
  • 硬格式结果奖励函数(HFRRF): 奖励函数简单:如果输出格式正确且答案正确,则奖励为 1,否则为 0。
  • 分阶段训练: 训练分为多个阶段,逐步增加序列长度(如 4K、8K、16K 标记)和调整组大小(如 16、8、4)。

a.每个阶段训练 100 步,使用 64 个 NVIDIA H800 80G GPU,约 2 天,使用 Verl 框架。

b.与固定长度 16K、300 步训练的 Vision-R1-Long 相比,PTST 表现更好,平均长度 2057,平均准确率 55.4%。

图片图片

效果与实验

出现“顿悟时刻”:

图片图片

图片图片

图片图片

数学评测:

图片图片

参考文献:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models, https://arxiv.org/abs/2503.06749) code:https://github.com/Osilly/Vision-R1

相关标签:

相关资讯

融合视觉能力,OpenAI 向开发人员提供 GPT-4 Turbo with Vision

感谢OpenAI 宣布,具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍提供。据IT之家了解,该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库,最大的革新之处在于其新增的视觉理解能力。在过去,开发者需要调用不同的模型来处理文本和图像信息,而 GPT-4 Turbo with Vision 则将两者合二为一,极大简化了开发流程,并带来了广泛的应
4/10/2024 6:55:27 AM
远洋

透过 Vision Pro,聊聊 MR 结合 AIGC 的应用与发展方向

本篇文章,作者将以 Vision Pro 为例,对 MR 和 AIGC 在面对教育、医疗、娱乐和工业领域的发展机遇展开论述,分析其中存在的问题和挑战,并说明其对应的发展措施,希望能对你有一定的参考帮助。 更多Vision Pro的介绍:一、MR 的含义 MR(Mixed Reality,混合现实)是一种结合了虚拟现实(VR)和增强现实(AR)技术的新型技术(其实都是属于 XR 的一部分)。 MR 通过在现实世界中增加虚拟元素,从而更加智能化,更加贴近生活,能更高效的应用在娱乐和办公当中,实现了现实世界和虚拟世界的融
6/15/2023 6:38:42 AM
尹承元

回溯设计史,AI/XR 的未来藏在这个知识点里

下一个时代的用户界面会是什么样子的?这是一个很有趣的问题。上周和朋友谈及 GPT4o、Vision Pro 这些指向未来的 AI 和 XR 技术时,我们忍不住针对这个问题进行了深入的讨论。GPT4o 对于环境的强大感知能力和算力支持下的「情绪价值」输出,让电影《Her》当中的人工智能似乎触手可及。而 Vision Pro 由于它自身的特质,物理环境下的真实物品、事物和数字界面可以发生关系,从而极大地拓展了交互和体验的维度。相反《头号玩家》中所描绘的虚拟世界体验,则可能是 Vision Pro 这类头戴显示器相对更容
7/21/2024 12:03:34 AM
陈子木
  • 1