理论

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3%

多模态时代应如何评估模型的视觉输出能力？来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V：一款针对大模型的视觉推理能力的新型基准测试。过去的评估基准主要集中于评估多模态输入和纯文本推理过程。

5/28/2025 11:43:48 AM

告别卡脖子，华为黑科技破局！昇腾推理加速1.6倍打破LLM降智魔咒

LLM发展到今天，下一步该往哪个方向探索？显然，如今最明显的一个问题就是，大模型的参数规模还是太大了——DeepSeek-V3的参数为671B，Llama 3.1系列最大为405B，GPT-4o为200B，Claude 3.5 Sonnet为175B。参数规模在不断增长，高昂的计算成本和推理延迟，该怎么破？

5/28/2025 8:51:00 AM

「DeepSeek 技术解析」：LLM 训练中的强化学习算法

我们将深入探讨 DeepSeek 模型训练策略中的关键创新之一[1, 2]：群组相对策略优化（Grouped Relative Policy Optimization，GRPO）[3]。为确保本文自成体系并阐明 GRPO 的理论基础，我们将首先介绍强化学习的基础概念，重点解析强化学习（RL）及基于人类反馈的强化学习（RLHF）在 LLM 训练中的核心作用。接着我们将探讨不同的强化学习范式，包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习，回顾经典算法如置信域策略优化（TRPO）和近端策略优化（PPO），最后解析 GRPO 带来的优化创新。

5/28/2025 2:25:00 AM

Baihai IDP

知识图谱、大模型与幻觉：自然语言处理的视角

摘要大型语言模型（LLMs）已经彻底改变了基于自然语言处理（NLP）的应用，包括自动化文本生成、问答系统、聊天机器人等。然而，它们面临一个重大挑战：产生幻觉，即模型生成听起来合理但实际上错误的内容。这削弱了信任，并限制了LLMs在不同领域的适用性。

5/28/2025 1:50:00 AM

KGGPT

DeepSeek-V3：硬件与模型的完美统协，奏响 AI 高效新乐章

大家好，我是肆〇柒。 DeepSeek-V3 曾经一度备受全球瞩目，从 V3 发布至今，这一开源模型已经在众多企业场景中成功落地。然而，在落地过程中，由于其复杂的工程细节，相信许多团队也遇到了不少挑战。

5/28/2025 1:20:00 AM

肆零柒

基于大模型的智能问答系统

在构建基于大模型的智能问答系统时，LangChain 提供了一个强大的框架，支持各种模块来帮助开发者构建更复杂、更智能的语言处理应用。以下是构建此类系统的一些关键组件和步骤。模型接入：使用 LangChain 支持的模型，通过 API 接入外部模型，或利用 api-for-open-llm 框架调用本地llm模型。

5/28/2025 1:00:00 AM

耗子

OpenAI o3模型无视指令拒绝关机，AI会失控吗？

近日，OpenAI最新的大语言模型o3展示了一种令人担忧的行为：主动绕过并破坏了自身的关闭机制，即使在明确指示允许自身被关闭的情况下也是如此。这标志着首次记录到AI系统无视明确人类关闭指令的案例。这一发现不仅挑战了我们对 AI 可控性的认知，更为人工智能的未来发展敲响了警钟。

5/28/2025 12:00:00 AM

两岁的Llama，最初的14位作者已跑了11个！Mistral成最大赢家

Meta 开源 Llama 模型家族帮助该公司制定了 AI 战略，某种程度上也改变了全世界的大模型格局。然而，令人意想不到的是，短短几年，Llama 的初创者们大多已经转投他处。在 2023 年发表的那篇具有里程碑意义的论文《 LLaMA: Open and Efficient Foundation Language Models 》中，Llama 被推向世界，当时论文共有 14 位作者。

5/27/2025 3:37:46 PM

舍弃自回归！国内团队打造纯扩散多模态大模型LLaDA-V，理解任务新SOTA

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生，导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。

5/27/2025 3:35:02 PM

Llama 论文作者“出逃”，14人团队仅剩3人，法国独角兽 Mistral 成最大赢家

他们大多去向了 Mistral，这家总部位于巴黎的 AI 初创公司，正在用“开源速度”反攻 Meta 自己开启的战场。 Llama 曾是 Meta 最具野心的 AI 作品：在 ChatGPT 和 PaLM 占据主流话语权的 2023 年，Meta 用一篇重量级论文和一组开放权重的大语言模型，意外地把开源阵营推上主舞台。而那时，Meta 的 AI 科研团队 FAIR（Fundamental AI Research）也正处于高光时刻。

5/27/2025 3:16:38 PM

OpenAI顶级工程师Philip Su：几个接地气的程序员职场发展经验

今天的文章发的有点晚，因为我又翻译了一期很长的优质内容。现在每天信息真是太多了，我最近把一些群全部折叠，减少干扰。要不然，每天开着微信，朋友圈、微信群、公众号、视频号，这些小红点把人的时间切的稀巴烂。

5/27/2025 11:52:07 AM

阿颖

四页绝密文件曝OpenAI野心！ChatGPT占领人类心智，25年致命杀招公开

OpenAI真正的野心终于曝光！最近，泄露的一份法律文件揭示了OpenAI的雄心：终极目标是「占领用户的AI心智」——ChatGPT就等价于AI，等价于智能体。原始文件：，几个月前GPT-4o掀起「吉卜力风格」的热潮，或许也是OpenAI精心布局的一环。

5/27/2025 8:40:00 AM

刚刚，北大校友Lilian Weng自曝公司首个产品？一篇论文未发，估值却已90亿

OpenAI前研究员大佬、如今的Thinking Machines Lab联创Lilian Weng，刚刚转发了一个神秘产品——一个看似仪表盘的东西。或许，这就将是公司即将打造的第一个爆品？这个产品所揭示的理念，可谓十分惊人——在训练过程中，研究人员可以直接用它来手动调整所有的超参数了！

5/27/2025 8:40:00 AM

如何访问和使用 OpenAI Codex？

译者 | 布加迪审校 | 重楼“软件工程正在发生变革；到 2025 年底，它将焕然一新。 ”Greg Brockman在OpenAI 发布会上的开场白为接下来的活动定下了基调。 OpenAI随后发布了Codex，这是一款旨在与开发者协同工作的云原生软件智能体。

5/27/2025 8:14:29 AM

布加迪

利用DeepSeek与Python自动生成测试用例！

在当今快节奏的软件开发领域，自动化测试已然成为保障软件质量的中流砥柱。传统手动编写测试用例的方式，非但耗时费力，还极易遗漏关键场景。所幸，AI 技术的飞速发展为我们带来了全新的解决方案。

5/27/2025 1:45:00 AM

狂师

LLM能理解数学吗？最新研究揭露大模型数学推理的致命缺陷

你有没有想过，那些在聊天中侃侃而谈的AI大模型，遇到数学题时会是什么样子？就像一个平时很会聊天的朋友，突然被问到复杂的数学问题时支支吾吾的样子。最近有研究团队专门研究了这个问题，结果发现了一些让人意外的真相。

5/27/2025 1:27:00 AM

无影寺

拆解OpenAI最大对手的杀手锏：为什么会是MCP？

坦白说，很多人曾与a16z的观察者持相同观点：GPT Wrapper凭借其优雅的抽象层设计，理应成为智能体通信协议的事实标准。但MCP的逆袭轨迹颠覆了所有预测——这个最初仅为Claude Desktop打造隐私优先本地化集成的协议，竟在短短三个月内完成了从边缘工具到生态基石的跃迁。这验证了网络效应铁律：协议价值永远锚定在已有生态密度。

5/27/2025 1:25:00 AM

曹洪伟

RAG系列：问题优化 - 意图识别&同义改写&多视角分解&补充上下文

在实际业务场景中，知识库不会只有单一领域的知识，可能会存在多个领域的知识，如果对用户问题不提前做领域区分，在对基于距离的向量数据库进行检索时，可能会检索出很多与用户问题不属于同一个领域的文档片段，这样的上下文会存在较多的噪音或者不准确的信息，从而影响最终的回答效果。另一方面知识库中涵盖的知识表达形式也是有限的，但用户的提问方式却是千人千面的，用户遣词造句的方式以及描述问题的角度可能会与向量数据库中存储的文档片段存在差异，这就可能导致用户问题和知识库之间不能很好匹配，从而降低检索效果。为了解决此问题，我们可以对用户问题进行查询增强，比如对用户问题进行意图识别、同义改写、多视角分解以及补充上下文，通过这几个查询增强方式来更好地匹配知识库中的文档片段，提升检索效果和回答效果。

5/27/2025 12:40:00 AM

燃哥讲AI

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊