理论

迈向人工智能的认识论：对人工智能安全和部署的影响以及十大典型问题

理解大型语言模型（LLM）的推理方式不仅仅是一个理论探索，它对于在现实世界中安全地部署人工智能具有直接的实践意义。在医疗保健、法律、金融和安全等领域，人工智能做出错误决策或基于错误原因做出正确决策的代价可能极其高昂。最后一部分将讨论研究结果对部署人工智能系统的意义，并就未来的安全策略和透明度标准提出建议。

6/19/2025 2:30:00 AM

晓晓

MiniMax 发布 M1 大模型，百万Token上下文+MoE架构，只花了 GPT-4 的零头！

近日，国内 AI 初创公司 MiniMax 发布了一款全新的语言大模型 MiniMax-M1。有两个方面最引人注目：1.高达100万Token的上下文处理能力。 2.极具竞争力的训练成本效益。

6/18/2025 4:42:38 PM

大模型的性能提升：KV-Cache

大语言模型（LLM）在生成文本时，通常是一个 token 一个 token 地进行。每当模型生成一个新的 token，它就会把这个 token 加入输入序列，作为下一步预测下一个 token 的依据。这一过程不断重复，直到完成整个输出。

6/18/2025 11:16:50 AM

曹洪伟

大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

大模型学习不仅要正确知识，还需要一个“错题本”？上海AI Lab提出了一种新的学习方式，构建了“错误-反思-修正”数据，让大模型仿照人类的学习模式，从错误中学习、反思。结果，在Llama3-8B上，数学题的解题准确率平均提升了13.3%。

6/18/2025 9:03:07 AM

迈向人工智能的认识论：窥探黑匣子的新方法

鉴于上述困难，研究人员正在多个方面进行创新，以更好地理解和控制大型语言模型（LLM）的推理方式。总体而言，两种互补的策略正在形成：机械分析和归因：分解模型的内部计算（电路、神经元、注意力头），将特定的决策或步骤归因于特定的组件。行为评估和约束：设计评估指标和训练框架，区分真正的推理和表面模式，并鼓励模型在中间步骤中讲真话。

6/18/2025 2:00:00 AM

晓晓

反转！AI 推理能力遭苹果质疑后，Claude 合著论文反击：不是不会推理，是输给 Token

近日，Apple 机器学习研究团队发布了一篇名为《思考的幻觉（The Illusion of Thinking）》的论文。图片这篇 53 页的技术报告并非普通评测，而是一记质疑当下主流 LLM 推理能力的重锤。研究者们指出，OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所谓“推理型大模型”，本质上并没有从训练数据中学习到可泛化的第一性原理。

6/17/2025 5:19:31 PM

LLM 翻车现场！ChatGPT 挑战 1979《Video Chess》惨败：连车马象都认错

一场 ChatGPT 对战 Atari 2600 的象棋对局火了。具体而言，在一场看似轻松的“AI玩具对决”里，ChatGPT输给了Atari 2600 的象棋引擎，对手只是一台48年前、频率1.19 MHz的8位主机。图片起初，这只是Robert Jr.

6/17/2025 5:16:51 PM

网页编程众测排名：DeepSeek-R1超越Claude 4加冕全球第一

编程王者Claude地位不稳了？？大模型竞技场最新战报出炉，DeepSeek新版R1拿下网页编程第一，小胜Claude Opus 4。

6/17/2025 5:14:01 PM

DeepSeek-R1编程问鼎，媲美Claude 4！2025 AI上半场战报来袭

编程新王，又有一位玩家成功晋级。刚刚，LMArena公布了最新WebDev Arena排行榜，DeepSeek-R1（0528）冲进第一。新版DeepSeek-R1编程能力，现与Gemini 2.5 Pro、Claude Opus 4并驾齐驱。

6/17/2025 3:16:15 PM

新智元

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！生产环境下更划算！但还不够美观

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）大模型的内卷远远没有结束了。今天凌晨，MiniMax 扔出了一记重磅炸弹——MiniMax-M1。先来看看，M1 有多猛？

6/17/2025 2:49:18 PM

云昭

一个数据集，一年产稿7876篇！AI强力加持，垃圾论文海量爆发

假如你是一位科研期刊的编辑，每天打开邮箱，迎接的却是一堆似曾相识的论文。它们主题各异，数据整齐，措辞流畅，但总有种让人不安的「模板感」。这可不是一个瞎编的场景，而是2024年发生在《Scientific Reports》编辑Matt Spick身上的真实经历。

6/17/2025 8:53:00 AM

OpenAI o3 pro vs Gemini 2.5 pro：得分相差不大，更推荐使用Gemini 2.5 Pro

译者 | 李睿审校 | 重楼本文对OpenAI的o3-pro与谷歌的Gemini 2.5 Pro在图像分析、逻辑推理和数字推理上的表现进行了比较。 o3-pro在推理和工具使用上有所增强，但Gemini 2.5 Pro在逻辑和数学推理上更准确可靠。 Gemini 2.5 Pro在复杂任务中表现更佳，提供经过验证的准确响应，适合对准确性要求高的任务，而o3-pro虽然快速但存在关键错误。

6/17/2025 8:40:44 AM

李睿

Devin联合创始人：别搞多智能体系统！微软和OpenAI鼓吹的代理构建理念大错特错！上下文工程将成新标准，员工：老板停止泄密

编辑 | 云昭OpenAI 和微软正在宣传一些错误的 Agent 理念！ OpenAI 的 Swarm 走的是一条“歧路”！刚刚过去的周末，Devin 联合创始人 Walden Yan 发布了的帖子语出惊人，引起了业界的关注和讨论。

6/16/2025 6:03:36 PM

云昭

Muon作者仅用一篇博客，就被OpenAI看中了

「许多博士（包括过去的我）都陷入了这样一个误区：认为只有在顶级会议上发表论文才是终极目标。」AI 云服务商 Hyperbolic CEO Yuchen Jin 如是说。但现在，发表论文并不与学术影响力直接画等号了。

6/16/2025 2:43:38 PM

AI 黑话太多看不懂？一文帮你打通：AI, 机器学习, 大模型, LLM, Agent 都是啥关系？

最近是不是感觉整个世界都在聊AI？从ChatGPT、Sora、到Cursor… 人工智能正以前所未有的速度和广度渗透进我们的生活和工作。伴随而来的是一堆高频词汇：大模型（Large Model）、LLM（Large Language Model）、机器学习（Machine Learning）、深度学习（Deep Learning，虽然你没问，但它太重要了，我们也会提一下）、还有最新的智能体（Agent）……哎呀，听得多了，感觉脑袋都成了一锅粥。

6/16/2025 10:05:00 AM

徐述

如何在本地运行量化版的DeepSeek-R1-0528？

译者 | 布加迪审校 | 重楼DeepSeek-R1-0528是DeepSeek R1 推理模型的最新版本，需要715GB的磁盘空间，使其成为市面上最大的开源模型之一。然而由于来自Unsloth 的先进的量化技术，该模型的大小可以缩减至162GB，整整缩减了80%。这使得用户能够以显著降低的硬件要求体验模型的全部功能，尽管性能略有下降。

6/16/2025 8:11:47 AM

布加迪