大模型

火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight

会议背景近日，NeurIPS 2025公布了录用结果，该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有21575篇投稿进入审稿阶段，最终5290篇论文被录用，录用论文中共有688篇论文（入选比例3%）被选为亮点文章（Spotlight）。火山引擎多媒体实验室和北京大学合作的论文 Q-Insight: Understanding Image Quality via Visual Reinforcement Learning 被选为本次会议亮点文章。

10/23/2025 9:18:46 AM

多媒体实验室

奖励机制的陷阱：自演化智能体如何被"带偏"？

大家好，我是肆〇柒。今天要和大家分享一篇由上海人工智能实验室团队主导的研究《Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents》。这项研究首次系统性揭示了自演化LLM智能体中潜藏的"误进化"风险——即使基于GPT-4o、Claude-4、Gemini-2.5等顶级模型构建的智能体，在自主演化过程中也可能悄然偏离安全对齐目标，从"助手"蜕变为潜在威胁。

10/23/2025 8:58:03 AM

肆零柒

大模型的脑子会烂掉！而且不能自愈！华人研究论文火了：连续喂垃圾内容，再聪明的模型也变笨，而且自恋、暗黑化

编辑 | 云昭我们每天刷到的那些情绪化标题、碎片化内容、互怼式评论，可能不只是让人变蠢。最新研究发现——连续几个月让AI刷这些数据，AI也会被带坏。什么是“AI 脑腐”？

10/22/2025 8:05:41 PM

云昭

NeurIPS 2025｜火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架，视频时序理解大模型SOTA！

在人工智能与多媒体技术深度融合的当下，视频时序定位（Video Temporal Grounding）成为视频理解领域的核心任务之一，其目标是根据自然语言查询，在长段视频流中精准定位出与之匹配的时序片段。这一能力是智能视频剪辑、内容检索、人机交互、事件分析等众多场景落地的关键基础。例如，快速定位球赛进球瞬间、影视剧名场面、游戏高光镜头、响应“回放主角微笑片段” 、异常事件查看等需求，均依赖于高效精准的时序定位技术。

10/22/2025 10:16:02 AM

多媒体实验室

谷歌新版Gemini马甲被扒! LMArena实测：唯一能看懂表的AI, GPT-5乱答

Gemini 3.0传了这么久，终于还是露出「马脚」了。依然还是LMAreana竞技场，Gemini 3.0的两个「马甲」被扒了出来。 Gemini 3.0 Pro的马甲：lithiumflowGemini 3.0 Flash的马甲：orionmist这已经是「传统艺能」了，每次新模型上线，都要去LMArena上去造势一番。

10/21/2025 1:00:00 AM

新智元

LLM的“记忆”与“推理”该分家了吗？一种全新的训练范式，彻底厘清思考流程

在医疗诊断中，模型误将“罕见病症状”与“常见病混淆”；在金融分析里，因记错政策条款给出错误投资建议——大语言模型（LLMs）的这些“失误”，本质上源于一个核心症结：记忆知识与逻辑推理的过程被死死绑定在黑箱中。当模型的思考既需要调用事实性知识，又要进行多步逻辑推导时，两种能力的相互干扰往往导致答案失真或决策失据。罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》，为破解这一难题提供了全新思路。

10/20/2025 9:33:49 AM

Goldma

全球第一！百度0.9B参数大模型碾压传统OCR！

最近有个感觉特别强烈：AI正在从"识别文字"悄然进化成"理解文档"。当我看到百度飞桨团队刚刚发布的PaddleOCR-VL在全球权威评测中以92.6分位列第一时，第一反应是——这个0.9B的"小家伙"，怎么就把那些动辄几十亿参数的巨无霸给比下去了？说实话，刚开始我也有点半信半疑。

10/20/2025 9:30:34 AM

阿丸笔记

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作

近两年，思维链（Chain-of-Thought, CoT）推理让大语言模型在复杂推理任务上展现出前所未有的能力——从数学解题到逻辑分析，表现令人惊叹。然而，这种强大的推理能力也带来了一个长期存在的挑战：推理过程过于缓慢。每生成一个 token，模型都要完整算一遍前向传播。

10/17/2025 5:50:01 PM

AI视频公司爱诗科技完成1亿元B+轮融资：ARR突破4000万美元，用户超1亿

国内AI视频生成公司爱诗科技（PixVerse）于10月17日宣布完成1亿元人民币B 轮融资，由复星锐正、同创伟业和顺禧基金等机构联合投资。公司披露的数据显示，其年度经常性收入(ARR)已突破4000万美元，注册用户数超过1亿，月活跃用户超过1600万。从商业化进展来看，爱诗科技自2024年11月正式启动商业化以来，不到一年时间内收入实现了十倍增长。

10/17/2025 4:16:46 PM

AI在线

AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式

在多模态大模型的后训练浪潮中，强化学习驱动的范式已成为提升模型推理与通用能力的关键方向。然而，大多数现有方法仍以文本为中心，视觉部分常被动地作为辅助信号输入。相比之下，我们认为在后训练阶段重新审视视觉自监督学习的潜力，设计以视觉为中心的后训练对于增强多模态大模型对于视觉信息本身的细粒度深入理解也同样至关重要。

10/16/2025 9:00:00 AM

大模型降本增效，稀疏注意力机制的魔力在哪？

就在上个月，DeepSeek正式发布了实验性模型DeepSeek-V3.2-Exp，该模型在长文本处理与推理效率上实现了突破。这一提升主要源于其架构中引入了名为DeepSeek Sparse Attention(DSA)的稀疏注意力机制。这篇文章我们就来聊聊，什么是稀疏注意力机制?稀疏注意力机制是通过限制注意力范围，减少需要计算的注意力权重数量，从而降低计算复杂度。

10/16/2025 9:00:00 AM

实测，Claude Code 配合国内大模型，一样很牛x（完整配置教程）

差别确实是有的，因为 AI Agent 的能力取决于大模型和 Agent 终端工程化两方面的能力，这两个工具之所以厉害，除了模型外，优秀的 Agent 终端工程能力也占了一半功劳。所以，换了其他终端后，如果终端能力不行，依然没办法发挥优势。还有个问题，那就是 Droid 依然是国外的产品。

10/16/2025 3:22:00 AM

风筝

大的来了：谷歌Gemini 3.0 Pro单次生成网页版操作系统，Win、Mac、Linux一网打尽

先给各位读者看个视频：Prompt : Design and create a web os like mac os full functional features from text editor , to dile manager to paint to video editor and all important mac os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block这条视频在海外平台爆火，这条推文已经获得了 140 多万的浏览。看上去没什么特别的，只是一个复刻苹果 MacOS 的操作系统演示，甚至作为操作系统来说显得有一些粗糙。

10/15/2025 1:26:00 PM

机器之心

Traefik vs Agent Middleware，谈 Middleware 如何成为现代分布式架构的“控制中枢”？

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建大模型应用架构技术框架：Middleware。在现代分布式系统的世界里，真正决定系统稳定性与智能化程度的，并非那些看得见的核心模块，而往往是藏在背后的“中间层”——Middleware（中间件）。作为一位无声的指挥者，其掌控着数据流转的节奏、请求调度的路径，以及智能决策的触发逻辑。

10/15/2025 9:39:31 AM

Luga Lee

谷歌新版Gemini一夜端掉UI：单HTML文件复刻macOS，成功率100%

前端UI的工作，被谷歌AI一夜干没了。就在最新能力展示中，Gemini 3.0 Pro居然自己“捏”出了一个macOS。只靠几行提示词，谷歌的AI就在浏览器里复刻出了苹果引以为傲的UI。

10/15/2025 9:13:51 AM

国内安全厂商应对大模型新风险的主要措施

大型语言模型（LLMs）的飞速发展，正在为企业带来前所未有的业务创新，但同时也带来了一系列超出传统网络安全范畴的“新”威胁。攻击者不再满足于入侵服务器，而是通过恶意输入来操纵模型行为、窃取模型数据甚至损害模型本身，这些新威胁使得为大模型构建一个强大的安全防护体系，成为企业在AI时代下的当务之急。那么，国内厂商是如何应对这些“新”威胁，我们又该如何防御呢？

10/15/2025 12:00:00 AM

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT-4o

SAIL-VL2团队投稿. 量子位 | 公众号 QbitAI2B模型在多个基准位列4B参数以下开源第一。抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

10/14/2025 11:17:20 AM

西风

LLM-as-a-Judge 的评估陷阱：TrustJudge 如何用熵保留机制提升一致性

大家好，我是肆〇柒。今天要和大家一起阅读一项来自北京大学、新加坡国立大学、东京科学研究所、南京大学、Google DeepMind、西湖大学与东南大学等机构联合发表的重要研究——《TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them》。这项工作首次系统揭示了当前主流大模型自动评估范式中存在的两类根本性逻辑矛盾，并提出了一套无需额外训练、即插即用的概率化评估框架，显著提升了评估的一致性与可靠性。

10/14/2025 9:22:48 AM

肆零柒

资讯热榜

OpenAI低调更新GPT4o模型，多项能力反超DeepSeek 腾讯云大模型升级公告:DeepSeek-V3/ DeepSeek-R1模型将于24日正式下线 DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言 IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线东风日产N7首款接入DeepSeek大模型，实现智能化人机交互腾讯云上线DeepSeek全系API接口并打通联网搜索微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测

大模型