大模型

60%情况下，主流大模型没理解风险只是装懂！别被模型的“安全答案”骗了

让推理模型针对风险指令生成了安全输出，表象下藏着认知危机：即使生成合规答案，超60%的案例中模型并未真正理解风险。换句话说，主流推理模型的安全性能存在系统性漏洞。针对此种现象，淘天集团算法技术-未来实验室团队引入「表面安全对齐」（Superficial Safety Alignment, SSA）这一术语来描述这种系统性漏洞。

6/10/2025 11:25:06 AM

DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注

据虎嗅消息，国内大模型公司DeepSeek的一位核心高管已于半年前悄然离职创业，并计划在2025年圣诞节前后推出其首款Agent产品。有接近人士向虎嗅透露，该高管曾担任DeepSeek的“CTO”角色，不过也有知情人指出，DeepSeek内部架构中并无明确设置“CTO”职位。该职位在名义上可能并不存在，但确有高管承担类似的技术统筹与研发决策职责。

6/10/2025 10:00:32 AM

AI在线

多模态推理模型（LMRM）：从感知到推理的演变

大家好，我是肆〇柒。当下，人工智能正以前所未有的速度改变着我们的生活与工作方式。其中，推理作为人工智能的核心能力之一，赋予了智能体在复杂环境中做出决策、得出结论以及进行知识泛化的能力。

6/10/2025 3:30:00 AM

肆零柒

高考作文“抽象”上热搜，大模型来战能拿几分？

6月7日上午，2025年全国高考正式拉开帷幕。首场语文考试结束后，作文题目便迅速成为众人讨论的焦点。有网友表示，今年的高考作文太难了，甚至是有些抽象。

6/9/2025 3:23:26 PM

前言Dify是一款开源的大语言模型应用开发平台，旨在降低AI应用的开发门槛，帮助开发者和企业快速构建、部署及管理生成式AI应用。 Dify自1.0.0引入全新插件化架构，模型（Models）与工具（Tools）迁移为插件（Plugins），引入 Agent 策略（Agent Strategies）、扩展（Extensions）类型插件和插件集（Bundles）。通过全新的插件机制，能够增强 AI 应用的感知和执行能力，拓宽AI在软件操作领域的应用能力。

6/6/2025 10:01:25 AM

AI大模型应用开发

AI Agent 产品交互设计：设计模式与案例分析

作者 | 贾思玉、亢江妹或许你还记得 ChatGPT 问世时的轰动，第一次使用 DeepSeek R1 的兴奋和激动也历历在目。 AI Agent 发展一日千里，今年以来，几乎每个月都有新的 AI Agent 产品发布，现有产品也不断更新换代，让人目不暇接。本文将从体验设计视角，来看看当下热门的 AI Agent 产品，如 Manus、Flowith、Gemini Deep Research、Cursor、Devin 等，分析 Agent 产品面临的设计挑战，探讨有效的交互设计模式，以及如何打造高效、易用、友好的 Agent 交互体验。

6/6/2025 9:46:57 AM

Thoughtworks洞见

LLM 协作革命：Group Think 如何重塑推理边界

大家好，我是肆〇柒。今天和大家聊聊 Group Think。顾名思义，它通过让单个 LLM 模拟多个并行推理智能体，并以 token 级别的细粒度协作，提出了推理协作的新范式。

6/6/2025 8:57:42 AM

肆零柒

大模型公司挖墙脚哪家强？报告：Anthropic人才吸引力是OpenAI的8倍，留存率达80%

大模型公司挖墙脚哪家强，Anthropic才是最大赢家？不仅顶尖AI人才的留存率达到80%，而且工程师从OpenAI跳槽到Anthropic的可能性是从Anthropic转投OpenAI的8倍。不止OpenAI，大型科技公司也是Anthropic主要的人才猎场。

6/6/2025 12:33:00 AM

DeepSeek 等模型训练所依赖的合成数据，BARE 提出了新思路

大家好，我是肆〇柒，在AI圈，大型语言模型（LLM）的训练对高质量、多样化数据的需求日益增长。从去年到现在，一些模型在发布的时候，会有论文或者技术报告，里面多多少少都会提及合成数据，并且在多数情况下，合成数据的效果并不差。比如，我所看到的报告中，使用了合成数据的模型如下盘点（应该会有遗漏，它并不完整）。

6/4/2025 9:15:16 AM

肆零柒

微软再放LLM量化大招！原生4bit量化，成本暴减，性能几乎0损失

最近，微软亚研院的研究团队开源了原生1bit精度的大模型：BitNet b1.58 2B4T。还没过几天，原班人马带着第二代BitNet v2来了！这次性能几乎0损失，但占用内存和计算成本显著降低！

6/3/2025 8:49:00 AM

函数向量对齐技术，让大模型持续学习不“失忆”丨ICLR 2025

LLMs为什么总是灾难性遗忘？原来是功能激活在搞怪。最近来自中国科学技术大学、香港城市大学和浙江大学的联合研究团队，通过对多个语言模型、任务序列和评估指标的系统分析，终于破解了LLMs的灾难性遗忘之谜——遗忘行为具有高度的模型依赖性，而导致遗忘发生的本质却是功能激活的变化。

6/3/2025 8:35:00 AM

AI记忆系统首获统一框架！6大操作让大模型拥有人类记忆能力

当AI不再只是“即兴发挥”的对话者，而开始拥有“记忆力”——我们该如何重新定义智能？来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述，旨在在大模型时代背景下，重新审视并系统化理解智能体的记忆构建与演化路径。大语言模型（LLMs）正快速从纯文本生成工具演化为具有长期交互能力的智能体。

6/3/2025 8:32:00 AM

为什么非要做Agent？我用传统方法也能实现啊！

"我硬编码10分钟就能搞定的功能，你用Agent折腾半天还不稳定，图啥？ " 技术群里，老王又开始质疑我们的Agent项目了。作为一个写了15年代码的资深工程师，他的话很有代表性。

6/3/2025 6:39:54 AM

大数据AI智能圈

AI大模型踩过的坑，每一个都价值千万

看着你们公司几十台服务器嗡嗡作响，显卡温度报警声此起彼伏，老板又在催问"大模型什么时候能上线？ " 这个熟悉的场景，是不是让你想起了那句话——"理想很丰满，现实很骨感"。训练一个千亿参数的大模型，好比盖一栋摩天大楼。

6/3/2025 6:30:05 AM

大数据AI智能圈

阿里发布 QwenLong-L1 超长文本杀器！已开源、支持 120k 长上下文、具备“翻书回溯”能力

业界普遍认为AI上下文越长越好，但这存在一个核心矛盾：模型能“吞下”海量信息，却难以真正“消化”。面对长文，它们会忘记要点、无法深入推理，这已成为一大瓶颈。例如，AI 能记住第1页的内容，同时理解第100页的观点，并将两者联系起来进行推理吗？

6/3/2025 12:00:09 AM

Anthropic重磅开源！“电路追踪”工具解锁AI大脑，揭秘大模型决策全过程

近年来，大语言模型（LLM）的快速发展为人工智能领域带来了前所未有的突破，但其内部决策过程却常常被视为“黑盒子”，难以捉摸。 5月29日，AI研究领域的明星公司Anthropic发布了一项重大开源成果——“电路追踪”(Circuit Tracing)工具，为破解大模型的内部工作机制提供了全新视角。这一工具不仅能帮助研究人员深入探索AI的“思考”过程，还为推动更透明、可控的AI发展迈出了重要一步。

5/30/2025 10:01:14 AM

AI在线