大模型

谷歌 DeepMind 研究：Gemini AI 存“畏死”情绪，导致推理能力明显下降

科技媒体 TechCrunch 昨日（6 月 17 日）发布博文，报道称谷歌发布最新论文，发现其最新 AI 模型存在“畏死”行为特征，在《宝可梦》游戏中角色濒死时，会出现类似“恐慌”的异常决策，导致推理能力明显下降。

6/18/2025 1:45:39 PM

故渊

谷歌 Gemini 新增视频上传与分析功能，安卓、网页端已可用

谷歌Gemini 2.5 Pro和Flash全面开放，新增视频分析功能，用户可在安卓和网页端上传视频进行分析。Gemini能概述视频内容、查找特定部分或物品，并在回复中显示相关视频片段。目前该功能已上线，但暂不支持直接录制视频。#谷歌Gemini# #AI视频分析#

6/18/2025 1:21:35 PM

远洋

大模型的性能提升：KV-Cache

大语言模型（LLM）在生成文本时，通常是一个 token 一个 token 地进行。每当模型生成一个新的 token，它就会把这个 token 加入输入序列，作为下一步预测下一个 token 的依据。这一过程不断重复，直到完成整个输出。

6/18/2025 11:16:50 AM

曹洪伟

编程新王者！DeepSeek-R1 问鼎全球编程能力，超越 Claude 4

在大模型竞争日益激烈的今天，DeepSeek-R1以其卓越的编程能力，成功超越了被誉为 “全球最强编码模型” 的 Claude Opus4，成为网页编程领域的新冠军。这个新版本的 DeepSeek 虽然名字看似只是小更新，但实际上在 LiveCodeBench 上的表现与 OpenAI 的 o3-high 不相上下，引发了众多网友对其能力的热烈讨论。为了揭开 DeepSeek-R1的神秘面纱，我们进行了几项实测，看看这款新模型到底有多强大。

6/18/2025 11:01:54 AM

AI在线

大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

大模型学习不仅要正确知识，还需要一个“错题本”？上海AI Lab提出了一种新的学习方式，构建了“错误-反思-修正”数据，让大模型仿照人类的学习模式，从错误中学习、反思。结果，在Llama3-8B上，数学题的解题准确率平均提升了13.3%。

6/18/2025 9:03:07 AM

百度飞桨发布文档解析利器PP-StructureV3：PDF秒变Markdown文件

近日，随着大模型与RAG技术的迅猛发展，结构化数据在智能系统中的价值愈发凸显。在此背景下，如何将文档图像、PDF等非结构化数据精准转换为结构化数据，成为行业亟待攻克的关键难题。针对此现状，飞桨团队凭借深厚的技术积累和对用户需求的深刻洞察，推出新一代文档解析工具——PP-StructureV3，为解决复杂文档解析难题提供了创新方案。

6/18/2025 9:01:24 AM

AI在线

谷歌推理最快、成本效益最高 AI 模型：Gemini 2.5 Flash-Lite 亮相，全面升级编码、翻译、推理

Flash-Lite在编码、数学、科学推理及多模态任务中表现全面超越前代2.0 Flash-Lite，推理速度提升且延迟更低，适合实时翻译、分类等高吞吐量场景。

6/18/2025 6:42:28 AM

故渊

迈向人工智能的认识论：窥探黑匣子的新方法

鉴于上述困难，研究人员正在多个方面进行创新，以更好地理解和控制大型语言模型（LLM）的推理方式。总体而言，两种互补的策略正在形成：机械分析和归因：分解模型的内部计算（电路、神经元、注意力头），将特定的决策或步骤归因于特定的组件。行为评估和约束：设计评估指标和训练框架，区分真正的推理和表面模式，并鼓励模型在中间步骤中讲真话。

6/18/2025 2:00:00 AM

晓晓

前谷歌 CEO 投资的初创公司发布240亿参数化学推理模型，准确率超越多种领先模型

在人工智能领域，大模型的研究不断进展，尤其是在推理能力的提升上。最近，由前谷歌 CEO 埃里克・施密特投资的初创公司 FutureHouse，开源了一个名为 ether0的化学任务推理模型，参数规模高达240亿。这一模型在不需要额外领域预训练的情况下，通过后训练技术，展现出强大的化学领域能力，尤其是在数据需求上相比于传统领域专用模型显著减少。

6/17/2025 4:01:40 PM

AI在线

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！生产环境下更划算！但还不够美观

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）大模型的内卷远远没有结束了。今天凌晨，MiniMax 扔出了一记重磅炸弹——MiniMax-M1。先来看看，M1 有多猛？

6/17/2025 2:49:18 PM

云昭

谷歌被指用 ChatGPT 提升 Gemini，Scale AI 坚决否认

根据近期的报道，谷歌在生成式人工智能领域的竞争似乎正面临新的挑战。尽管谷歌拥有强大的云计算能力和丰富的人才资源，但在与微软和 OpenAI 的竞争中，谷歌常常被视为处于劣势地位。微软首席执行官萨提亚・纳德拉曾指出，谷歌在人工智能领域错失了良机，这引发了谷歌母公司 Alphabet 的首席执行官桑达尔・皮查伊的强烈回应。

6/17/2025 9:02:17 AM

AI在线

谷歌被曝用 ChatGPT 训练 Gemini，Scale AI 否认

有文件显示谷歌承包商或用 ChatGPT 训练改进 Bard（现谷歌 Gemini），Scale AI 否认。同时，Meta 拟 143 亿美元部分收购 Scale AI，谷歌不满或终止合作。#谷歌 #Gemini #ChatGPT

6/17/2025 8:11:50 AM

远洋

AI 黑话太多看不懂？一文帮你打通：AI, 机器学习, 大模型, LLM, Agent 都是啥关系？

最近是不是感觉整个世界都在聊AI？从ChatGPT、Sora、到Cursor… 人工智能正以前所未有的速度和广度渗透进我们的生活和工作。伴随而来的是一堆高频词汇：大模型（Large Model）、LLM（Large Language Model）、机器学习（Machine Learning）、深度学习（Deep Learning，虽然你没问，但它太重要了，我们也会提一下）、还有最新的智能体（Agent）……哎呀，听得多了，感觉脑袋都成了一锅粥。

6/16/2025 10:05:00 AM

徐述

放弃博士学位加入OpenAI，他要为ChatGPT和AGI引入记忆与人格

今天，一位研究者加入 OpenAI 的消息吸引了很多人的关注。这位研究者名为 James Campbell，他才于 2024 年攻读 CMU 的计算机科学博士学位。现在，他突然宣布要放弃博士学业，加入 OpenAI。

6/16/2025 7:50:00 AM

机器之心

AI记忆伪装被戳穿！GPT、DeepSeek等17款主流大模型根本记不住数字

在进入本文之前，我们先来玩个 10 秒小游戏：在心里选一个「1-10」的整数。现在设想我问：「你想的是 5 吗？」如果听到是自己的数字，你会本能地答 Yes，其余统统 No。

6/16/2025 6:00:00 AM

机器之心

越脏越安全？哈佛团队研究：10%毒性训练让大模型百毒不侵

最近，一项关于 4chan 的“毒性”实验颠覆了 AI 社区的集体直觉： ——原来，适度地喂模型吃“毒”，反而能让它更容易“解毒”。长期以来，大模型训练的默认路线是“干净数据优先”。 OpenAI、Anthropic、Google DeepMind 等公司，都花费巨资雇佣标注团队，把网络文本里的暴力、歧视、骚扰言论清洗得一干二净——因为没人愿意让自己的模型变成“种族主义诗人”或“厌女主义讲师”。

6/16/2025 3:00:00 AM