SOTA
NeurIPS 2025|火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!
在人工智能与多媒体技术深度融合的当下,视频时序定位(Video Temporal Grounding) 成为视频理解领域的核心任务之一,其目标是根据自然语言查询,在长段视频流中精准定位出与之匹配的时序片段。 这一能力是智能视频剪辑、内容检索、人机交互、事件分析等众多场景落地的关键基础。 例如,快速定位球赛进球瞬间、影视剧名场面、游戏高光镜头、响应“回放主角微笑片段” 、异常事件查看等需求,均依赖于高效精准的时序定位技术。
10/22/2025 10:16:02 AM
多媒体实验室
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快
今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长! 高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。 MiniCPM-V 4.5 亮点一览 ?
8/27/2025 11:50:00 AM
徐咪
逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!本地大模型拐点来了!网友:别被大模型叙事带偏了(附指南)
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)起猛了,连老电脑都能跑智谱家新一代的 SOTA 模型了! 一篇来自技术人 Simon Willison(Python 知名 Web 框架 Django 的共同创始人)的实测文章,在 Hacker News 上引发热议:“我 2.5 年高龄的旧笔记本,现在不仅能在本地跑千亿参数模型,甚至还能用它写出一款完整的 JavaScript 太空入侵者游戏。 ”图片 这个模型,正是昨天新鲜出炉的 GLM-4.5 系列。
7/30/2025 2:11:55 PM
伊风
WAIC抢先爆料:金融“黑马”大模型超DeepSeek刷新SOTA,论文已上线
又到了一年一度“中国AI春晚”WAIC,各家大厂动作频发的时候。 今年会有哪些看点? 你别说,我们还真在扒论文的过程中,发现了一些热乎线索。
7/25/2025 3:24:17 PM
网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一
编程王者Claude地位不稳了? ? 大模型竞技场最新战报出炉,DeepSeek新版R1拿下网页编程第一,小胜Claude Opus 4。
6/17/2025 5:14:01 PM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
AI新词
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
具身智能
生成式
神经网络
机器学习
3D
人形机器人
RAG
AI视频
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
生成式AI
场景
DeepMind
深度学习
特斯拉
AI模型
架构
MCP
Transformer
亚马逊
编程
视觉
预测