多模态

【多模态&LLM】POINTS多模态大模型浅谈

NaViT概述NaViT利用序列打包训练，处理任意分辨率和长宽比的输入，在大规模监督和对比图像文本预训练中提高了训练效率，可以用于图像和视频分类、目标检测和语义分割，并在鲁棒性和公平性基准测试中取得了改进的结果。图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结：数据预处理：如上图展示了NaViT在处理任意分辨率的方法，将不同分辨率的图像分割成补丁（patches），然后应用令牌丢弃（token drop）操作，类似于dropout，以加速训练过程。预处理后，将三张图像生成的补丁展平为一个序列，不足的部分用填充（padding）补充。

1/8/2025 8:21:16 AM

余俊晖

智象未来多模态大模型3.0全球首发，创始人兼CEO梅涛演讲实录来了

2024年12月28日，智象未来科技有限公司在安徽省人工智能产业先导区启动仪式中，宣布智象多模态生成大模型3.0与智象多模态理解大模型1.0同时发布。上海电影集团、中国移动咪咕音乐、科大讯飞等企业参加。加拿大工程院外籍院士、智象未来创始人兼CEO梅涛进行现场演讲。

1/2/2025 4:20:00 PM

新闻助手

网页多模态建模思考

1.综述网页本质上是一种超文本，一般由超文本标记语言来定义（例如HTML）。 HTML是一种基础技术，常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面。网页浏览器内核通过解释HTML文件，通过视觉引擎将其渲染成可视化网页。

12/26/2024 1:20:53 AM

百度Geek说

李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在

李飞飞谢赛宁再发新成果：直接把o1式思考拉至下一个level——多模态大语言模型的空间思维！这项研究系统评估了多模态大模型的视觉空间智能，结果发现：当前，即使是最先进的多模态大模型，在空间认知方面与人类相比仍有显著差距，测试中约71%的错误都源于空间推理方面的缺陷，即空间推理能力是当前主要瓶颈。图片更为有趣的是，在这种情况下，思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现，反而会使性能下降。

12/23/2024 12:37:34 PM

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？像文生图那样有ControlNet即可解决。这就是由360人工智能研究院提出的IAA的核心思路。

12/17/2024 12:08:21 PM

实时音视频领域拓荒者的十年

2015 年，声网将WebRTC大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的RTC（实时视音频）大会。在大会开始的前夕，现任声网市场VP、RTC大会主策人彭小欢失眠了，她非常担心明天会不会有人来。一晃十年过去了，当年的RTC大会早已升级为RTE（实时互联网）大会， 10 月 25 日RTE 2024也如期而至，但早已不用担心是否有人光顾，现场可谓是座无虚席。

10/31/2024 10:31:00 AM

张进

视频生成赛道再添“猛将”，智谱清影正式上线

年初 Sora 横空出世，验证了 Scalling Law 在视频生成方面的有效性。但 Sora 始终止步于公开的 60 秒 demo，产品落地计划迟迟未有公开。随后的半年时间，不少“玩家”继续在AI视频生成赛道展开角逐，并逐步实现落地。

7/31/2024 2:36:00 PM

朱可轩

资讯热榜

OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务软银豪掷225亿美元加码OpenAI，AI音乐与超级融资计划全面提速全网刷屏的「电影感」三宫格图片，教你用AI快速生成！ LLM 应用评估综合指南（多轮对话系统、RAG、AI Agent）消息称软银批准对 OpenAI 追加 225 亿美元投资，助力未来上市中小企业AI落地的算力“最优解”：一台插电即用的Mac mini OpenAI 披露：每周有超过一百万人与 ChatGPT 倾诉自杀倾向谷歌地球整合 Gemini，大模型加持可识别风暴与干旱风险

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果腾讯 Stable Diffusion Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人研究 AI视频生成大语言模型具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习 DeepMind 架构生成式AI 编程视觉 Transformer 预测 AI模型伟达亚马逊 MCP