AIGC宇宙 AIGC宇宙

为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘

作者:
2024-12-17 12:08
多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办? 像文生图那样有ControlNet即可解决。 这就是由360人工智能研究院提出的IAA的核心思路。

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办?

像文生图那样有ControlNet即可解决。

这就是由360人工智能研究院提出的IAA的核心思路。该研究成果已被AAAI接收,并且开源。

图片图片

IAA工作的思路,就是希望能把多模态理解能力像文生图领域中的ControlNet一样,作为插件添加到基座的语言模型之上,从而实现在完全不影响语言模型原有能力的前提下,实现多模态能力的插件化,并进一步形成一种全新的语言模型生态体系。

针对语言模型研究全新插件控制机制

当前的多模态大模型(LMM:Large Multimodal Model)主流采取的是以LLaVA系列为代表的桥接式结构:视觉编码器与LLM之间通过模态桥接器projector进行连接实现多模态理解能力

桥接式结构的优点是结构简单,训练成本低(几十万微调数据即可实现基本的图像理解能力),目前主流的LMM模型包括QwenVL、DeepSeekVL、internVL以及研究院自研的360VL(https://github.com/360CVGroup/360VL)等都是采用这种结构。

但桥接式结构一直存在一个难以克服的缺点:模型多模态能力的提升不可避免地带来原有文本能力的下降

这背后的深层原因是,为了尽可能提升LMM在多模态理解任务上的性能表现,主流模型中内嵌的LLM语言模型参数都要在多模态训练中打开参与学习,这样虽然可以比较容易刷高多模态任务上的指标,但语言模型原有的文本理解能力会因为参与多模态训练而发生灾难性遗忘的问题。

这也是为什么当前主流的多模态模型都独立于语言模型之外存在,并冠以-VL进行区分的原因。

图片图片

上图清晰地比较了多模态训练前后,内嵌语言模型在文本任务(MMLU和C-eval)上因为灾难性遗忘的发生而出现的能力下滑情况。

另外从实用的角度来说,当前的多模态模型需要独立于语言模型之外单独部署,意味着应用时需要翻倍的部署成本,从经济的角度来说也亟待新技术的突破。

“IAA工作的灵感来自于我们同时负责的多模态生成方向的研究。”冷大炜博士表示。

“文生图领域有着与语言模型领域完全不同的繁荣生态。在文生图领域中,大家是围绕着一个基座模型,通过接入不同的插件来完成不同的任务,而不是像语言模型领域这样要求一个模型完成所有任务。IAA工作借用了这一思路。”

在IAA的研究中作者发现,简单地将文生图领域的ControlNet结构复制到语言模型上的表现并不好,背后的原因是当前语言模型主流是Transformer堆叠的结构,这与文生图模型中的UNet结构有着很大的差异,为此针对语言模型需要研究全新的插件控制机制。

图片图片

在实验比较了一系列不同的结构后,最终形成了v1版的IAA插件网络结构如下:

图片图片

与主流的LLaVA结构相比,IAA在网络设计上保持基座语言模型参数不变,从而避免了灾难性遗忘问题的发生;对于多模态知识的学习,则是通过多个新增的插入层进行专门处理。

推理时,IAA网络只需要部署一套模型权重,text-only任务走text-only workflow,而多模态任务则走multimodal workflow,从而避免了既要部署一套语言模型还要另外部署一套多模态模型的成本难题。

此外,IAA插件结构不仅适用于多模态任务,对于需要在基座模型能力上特别加强的任务,如code、math等任务,一样可以通过插件的方式进行专门增强,实现“基座模型+专业插件”处理专业任务的全新用法和生态。

在通用多模态benchmark上比较了IAA与其它相关工作的表现,验证了IAA在保持模型原有能力的同时,能有效提升其在多模态任务上的表现。

相关标签:

相关资讯

【多模态&LLM】POINTS多模态大模型浅谈

NaViT概述NaViT利用序列打包训练,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、目标检测和语义分割,并在鲁棒性和公平性基准测试中取得了改进的结果。 图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结:数据预处理:如上图展示了NaViT在处理任意分辨率的方法,将不同分辨率的图像分割成补丁(patches),然后应用令牌丢弃(token drop)操作,类似于dropout,以加速训练过程。 预处理后,将三张图像生成的补丁展平为一个序列,不足的部分用填充(padding)补充。
1/8/2025 8:21:16 AM
余俊晖

视频生成赛道再添“猛将”,智谱清影正式上线

年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。 但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。  随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角逐,并逐步实现落地。
7/31/2024 2:36:00 PM
朱可轩

实时音视频领域拓荒者的十年

2015 年,声网将WebRTC大会引入中国,筹办了第一届面向国内开发者、业务人员和用户的RTC(实时视音频)大会。 在大会开始的前夕,现任声网市场VP、RTC大会主策人彭小欢失眠了,她非常担心明天会不会有人来。 一晃十年过去了,当年的RTC大会早已升级为RTE(实时互联网)大会, 10 月 25 日RTE 2024也如期而至,但早已不用担心是否有人光顾,现场可谓是座无虚席。
10/31/2024 10:31:00 AM
张进
  • 1