多模态

多模态推理模型（LMRM）：从感知到推理的演变

大家好，我是肆〇柒。当下，人工智能正以前所未有的速度改变着我们的生活与工作方式。其中，推理作为人工智能的核心能力之一，赋予了智能体在复杂环境中做出决策、得出结论以及进行知识泛化的能力。

6/10/2025 3:30:00 AM

肆零柒

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3%

多模态时代应如何评估模型的视觉输出能力？来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V：一款针对大模型的视觉推理能力的新型基准测试。过去的评估基准主要集中于评估多模态输入和纯文本推理过程。

5/28/2025 11:43:48 AM

深度解析大模型技术演进脉络：RAG、Agent与多模态的实战经验与未来图景

作者 | jaymie大模型作为产业变革的核心引擎。通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。三者协同演进，不仅攻克了数据时效性、专业适配等核心挑战，更推动行业从效率革新迈向业务重构。

5/20/2025 8:30:00 AM

腾讯技术工程

在过去的两年里，人工智能领域的关注点逐渐转向了大模型的技术发展，而商汤科技作为一家成立不到十年的公司，凭借其在计算机视觉领域的技术积累，正迅速转型，迎接这一浪潮。尽管在2023年之前，商汤主要聚焦于视觉模型，但随着 DeepSeek R1的发布，市场的重心开始向自然语言处理和大规模参数模型倾斜，商汤的策略也随之调整。商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”，展现了强大的综合能力，与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。

5/9/2025 4:00:51 PM

AI在线

从看见到理解，多模态大模型如何重塑行为检测

在人工智能技术快速迭代的今天，行为检测作为计算机视觉领域的重要分支，正迎来一场由多模态大模型引领的技术革命。作为曾在CV算法公司工作的从业者，我深刻体会到传统计算机视觉方法在实际落地中的诸多痛点。过去几年，许多行为检测、烟火检测等应用，往往因为高昂的训练成本和难以接受的误报率而被甲方叫停。

5/7/2025 1:00:00 AM

贝塔街的万事屋

Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝

基于视觉编码器的MLLM的基本构成：MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。模态编码器(如：CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息（如图像或音频）压缩成更紧凑的表示。预训练的LLM则负责理解和推理处理过的信号。

4/28/2025 2:03:00 AM

余俊晖

机械臂+大模型+多模态：打造人机协作具身智能体

在人工智能快速发展的浪潮中，多模态大模型已成为技术前沿，使AI能够同时理解文本、图像、音频等多种信息。这一突破为具身智能体开辟了新天地。最近我在github中就找到了一个这样好玩的项目vlm_arm，其将机械臂与多模态大模型结合，打造一个能听人话、看图像、执行精准操作的人机协作智能体系统。

4/25/2025 2:30:00 AM

贝塔街的万事屋

阿里全模态Qwen2.5-Omni技术报告万字解读！

Qwen 团队最近发布了一款统一多模态大模型 Qwen2.5-Omni，开放了 7B 版本的权重。能够同时处理文本、图像、音频和视频输入，并以流式方式生成文本和语音响应。下面来详细看下：开源地址：论文地址：：地址： Face：：：官方体验：：：在日常生活中，人类能够同时感知视觉和听觉信息，并通过大脑处理这些信息后，以书写、说话或使用工具等方式进行反馈，从而与世界上的各种生物进行信息交流并展现智能。

4/14/2025 12:20:00 AM

Goldma

模态编码器 | CLIP改进之SigLIP，采用sigmoid损失的图文预训练

DeepMind对CLIP改进的一篇工作--SigLIP，发表在2023CVPR。简单看下研究动机：传统的对比学习方法如CLIP等依赖于 softmax 归一化，这需要一个全局视角来计算成对相似度，从而限制了批处理大小的扩展能力，并且在小批处理大小下表现不佳。因此本文提出了一个简单的成对 Sigmoid 损失函数用于语言-图像预训练（SigLIP）。

4/9/2025 2:10:00 AM

Goldma

模态编码器|CLIP详细解读

下面来详细了解一下多模态大模型模态编码器部分。今天首先来看下CLIP，OpenAI发表在2021年ICML上的一篇工作。项目地址：：在自然语言处理（NLP）领域，通过大规模的文本数据预训练模型（如GPT-3）已经取得了显著的成果，但在计算机视觉领域，预训练模型仍然依赖于人工标注的图像数据集，严重影响了其在未见类别上的泛化性和可用性（需要用额外的有标注数据）。

4/7/2025 3:30:00 AM

Goldma

多模态模型结构与训练总结

01、模型结构一般的多模态模型架构包含5个部分，分别是：模态编码器、输入映射器、大模型骨干、输出映射器以及模态生成器。模态编码器（Modality Encoder, ME）将多种模态输入编码成特征表示，公式如下X表示模态，表示各种预训练好的编码器。目前模态主要分为：视觉模态、语音模态、3D点云模态，其中视觉模态主要包括图像和视频，对于视频，视频通常被均匀采样成5帧图像，然后进行与图像相同的预处理。

4/7/2025 12:00:00 AM

Goldma

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

近期，IEEE国际计算机视觉与模式识别会议（ Conference on Computer Vision and Pattern Recognition）CVPR 2025公布论文录用结果，社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》（《基于自回归动作生成的实时流式音频驱动人像动画系统》）被接收。 Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画（即Talking Head）的自回归框架，解决了视频画面生成耗时长的行业挑战外，还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。此次论文的入选，也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。

3/21/2025 5:14:00 PM

新闻助手

智源开源多模态向量模型BGE-VL，助力多模态检索！

智源研究院开源了多模态向量模型BGE-VL，助力主要多模态检索任务达到SOTA。论文地址：：：：现有的多模态检索模型大多基于预训练的视觉-语言模型，这些模型主要通过文本-图像匹配任务进行预训练，对于其他常见的多模态任务（如组合图像检索和多模态文档检索）表现不足。为了增强模型的多任务能力，研究者们开始采用指令微调的方法，但高质量的指令微调数据稀缺且难以大规模获取。

3/19/2025 9:30:00 AM

Glodma

谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

谷歌推出Gemini原生图像生成，测试版瞬间引爆网络。如果你迟到了，但没有好的借口，甚至还没有出家门——只需要一张自拍，然后让AI把你P到地铁故障现场。图片也可以凭空生成一个人物形象，把它放到原神游戏画面中（不用上传游戏截图），让角色往前走两步，再把视角往左移，走近一个建筑，开始爬墙。

3/14/2025 12:14:38 PM

【多模态&LLM】POINTS多模态大模型浅谈

NaViT概述NaViT利用序列打包训练，处理任意分辨率和长宽比的输入，在大规模监督和对比图像文本预训练中提高了训练效率，可以用于图像和视频分类、目标检测和语义分割，并在鲁棒性和公平性基准测试中取得了改进的结果。图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结：数据预处理：如上图展示了NaViT在处理任意分辨率的方法，将不同分辨率的图像分割成补丁（patches），然后应用令牌丢弃（token drop）操作，类似于dropout，以加速训练过程。预处理后，将三张图像生成的补丁展平为一个序列，不足的部分用填充（padding）补充。

1/8/2025 8:21:16 AM

余俊晖

智象未来多模态大模型3.0全球首发，创始人兼CEO梅涛演讲实录来了

2024年12月28日，智象未来科技有限公司在安徽省人工智能产业先导区启动仪式中，宣布智象多模态生成大模型3.0与智象多模态理解大模型1.0同时发布。上海电影集团、中国移动咪咕音乐、科大讯飞等企业参加。加拿大工程院外籍院士、智象未来创始人兼CEO梅涛进行现场演讲。

1/2/2025 4:20:00 PM

新闻助手

网页多模态建模思考

1.综述网页本质上是一种超文本，一般由超文本标记语言来定义（例如HTML）。 HTML是一种基础技术，常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面。网页浏览器内核通过解释HTML文件，通过视觉引擎将其渲染成可视化网页。

12/26/2024 1:20:53 AM

百度Geek说

李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在

李飞飞谢赛宁再发新成果：直接把o1式思考拉至下一个level——多模态大语言模型的空间思维！这项研究系统评估了多模态大模型的视觉空间智能，结果发现：当前，即使是最先进的多模态大模型，在空间认知方面与人类相比仍有显著差距，测试中约71%的错误都源于空间推理方面的缺陷，即空间推理能力是当前主要瓶颈。图片更为有趣的是，在这种情况下，思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现，反而会使性能下降。

12/23/2024 12:37:34 PM

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊

多模态

多模态推理模型（LMRM）：从感知到推理的演变

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3%

深度解析大模型技术演进脉络：RAG、Agent与多模态的实战经验与未来图景

商汤科技迈向多模态大模型的新纪元

从看见到理解，多模态大模型如何重塑行为检测

Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝

机械臂+大模型+多模态：打造人机协作具身智能体

阿里全模态Qwen2.5-Omni技术报告万字解读！

模态编码器 | CLIP改进之SigLIP，采用sigmoid损失的图文预训练

模态编码器|CLIP详细解读

多模态模型结构与训练总结

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

智源开源多模态向量模型BGE-VL，助力多模态检索！

谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

【多模态&LLM】POINTS多模态大模型浅谈

智象未来多模态大模型3.0全球首发，创始人兼CEO梅涛演讲实录来了

网页多模态建模思考

李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在