AIGC宇宙 AIGC宇宙

视觉

Gemini负责人爆料!多模态统一token表示,视觉至关重要

一水 闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。
7/3/2025 3:06:44 PM
闻乐

大模型时代,通用视觉模型将何去何从?

过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。 它们试图构建统一的架构,能够处理图像、点云、视频等多种视觉模态输入,以及分类、检测、分割等多样的下游任务,向着「视觉模型大一统」的目标迈进。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。
7/2/2025 9:17:13 AM

腾讯宣布混元图像2.0将于5月16日全新发布

今日, 腾讯混元大模型团队今日正式宣布,其新一代多模态图像生成工具——混元图像2.0将于5月16日上午11时通过全球直播发布。 这是继去年混元大模型升级后,腾讯在AI视觉领域的又一次重大突破,以“更智能、更开放、更中国”为核心理念,赋能创作者与企业用户迈向AI驱动的视觉生产新阶段。
5/15/2025 4:00:30 PM
AI在线

迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型

本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang

端侧最强开源 AI 模型 Llama 3.2 登场:可在手机运行,从 1B 纯文本到 90B 多模态,挑战 OpenAI 4o mini

Meta 公司昨日(9 月 25 日)发布博文,正式推出了 Llama 3.2 AI 模型,其特点是开放和可定制,开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型,代表了 Meta 在大型语言模型(LLMs)方面的最新进展,在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs (11B 和 90B),以及轻量级纯文本模型(1B 和 3B),此外提供预训练和指令微调(instruction-tuned)版本。AI在线附
9/26/2024 7:01:35 AM
故渊
  • 1