大模型

国内首个，MiniMax 大模型通过人机辩论图灵测试

AI在线 7 月 29 日消息，据央视频今日报道，在 2025 中国 AI 盛典现场，一场人机辩论激烈上演，而围绕辩论的“图灵测试”也顺利通过。奇葩说辩手陈铭与 MiniMax 大模型辩手展开辩论，现场有超过 30% 的观众被 AI“迷惑”了，根据“图灵测试”规则，测试通过。 AI在线注：图灵测试（Turing test）是英国计算机科学家艾伦・图灵于 1950 年提出的思想实验，这个实验的流程是由一位询问者写下自己的问题，随后将问题发送给在另一个房间中的一个人与一台机器，由询问者根据他们所作的回答来判断哪一个是真人，哪一个是机器，所有测试者都会被单独分开，对话以纯文本形式透过屏幕传输，因此结果不取决于机器的语音能力，这个测试意在探求机器能否模仿出与人类相同或无法区分的智能。

7/29/2025 7:03:58 PM

汪淼

只需一次指令微调，大模型变身全能专家天团，8B模型性能反超全微调基线 | ACL25 Oral

只需一次指令微调，即可让普通大模型变身“全能专家天团”？改造位置自动定位专家协作动态平衡8B模型性能反超全微调基线1.6%，安全指标暴涨10%，推理内存直降30%！图片当前预训练语言大模型（LLM）虽具备通用能力，但适应专业领域需高昂的指令微调成本；稀疏混合专家（SMoE）架构作为可扩展的性能-效率平衡框架，虽能提升推理效率并灵活扩展模型容量，但其从头训练消耗巨大资源，因此复用密集大模型参数的升级改造（LLM Upcycling）成为更具成本效益的替代方案。

7/29/2025 2:12:00 AM

百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

AI的下一个战场，不在云端，而在你的口袋里。 iPhone、华为、三星、小米、OPPO等各大手机厂商几乎都在将大模型塞进手机，端侧AI已然成为兵家必争之地。背后的逻辑清晰而坚定：最懂你的AI，必须能安全地访问你的个人数据——邮件、照片、日程，而这一切的前提，就是将计算留在本地，将隐私还给用户。

7/28/2025 9:06:00 AM

大模型“天梯赛”来了，让Agent在Kaggle真实任务中进化｜佐治亚理工、斯坦福开源

当前最强大的大语言模型（LLM）虽然代码能力飞速发展，但在解决真实、复杂的机器学习工程（MLE）任务时，仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码，却无法模拟人类工程师那样，在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。为了打破这一瓶颈，来自佐治亚理工学院和斯坦福大学的研究团队正式推出了 MLE-Dojo，一个专为训练和评测大模型智能体（LLM Agents）设计的“交互式武馆”。

7/28/2025 8:45:00 AM

协同 RAG-Reasoning：让大模型边想边查的“深度研究”范式

大家好我是肆〇柒。在AI领域，大型语言模型（LLM）已经展现出卓越的语言生成能力，并在诸多任务中取得了显著成果。然而，LLM 存在两大局限：一是知识幻觉，因其知识存储静态且参数化，易生成错误内容；二是复杂推理能力不足，难以应对现实世界的复杂问题。

7/28/2025 3:00:00 AM

肆零柒

腾讯Robotics X具身智能开放平台Tairos发布，融合左脑、右脑、小脑

感知、规划、行动分别对照着人类的右脑、左脑和小脑。现场，搭载了Tairos的宇树机器人“小腾”可以听懂并遵照“到我身边来”的指令，看得见也说得清桌面上的物体，能弄明白物体增添变化，记得起自己昨天在做什么。这意味着，机器人开始具备长记忆能力。

7/27/2025 5:05:00 PM

丁莉

我国大模型数量居全球首位，达到 1509 个、占比达 40%

AI在线 7 月 27 日消息，据央视新闻报道，今年以来我国基础大模型的迭代速度加快，大模型在电子、原材料、消费品等行业加快落地。记者从世界人工智能大会上获悉，当前全球已发布的大模型总数达到 3755 个，其中，我国企业贡献了 1509 个（AI在线注：占比达 40%），数量居全球首位。据AI在线此前报道，中国互联网络信息中心（CNNIC）今年 7 月在京发布第 56 次《中国互联网络发展状况统计报告》。

7/27/2025 1:24:44 PM

浩渺

WAIC 2025 主论坛演讲｜ MiniMax 创始人闫俊杰：每个人的 AI

2025世界人工智能大会（WAIC）于今日在上海开幕。作为全球人工智能领域的顶级盛会，本届大会以“智能时代同球共济”为主题，汇聚全球智慧，展现中国方案。活动首日，MiniMax创始人、CEO闫俊杰先生作为特邀嘉宾出席大会开幕式并在大会主论坛（上午场）发表主题演讲《每个人的AI》（Everyone's AI）。

7/26/2025 4:47:00 PM

陈彩娴

WAIC 2025｜阶跃发布新一代基模 Step 3：原生多模态，推理效率行业领先

在2025世界人工智能大会（简称“WAIC 2025”）开幕前夕，阶跃星辰今天在上海正式发布了新一代基础大模型——Step 3。作为阶跃的主力基座模型，Step 3兼顾智能与效率，旨在面向推理时代打造最适合应用的模型。 Step 3将于7月31日面向全球企业和开发者开源，为开源世界贡献最强多模态推理模型。

7/25/2025 9:43:00 PM

陈彩娴

讯飞星火 X1 升级版模型宣布上线：整体效果对标 OpenAI o3 等国内外一流大模型

AI在线 7 月 25 日消息，科大讯飞今日发布公告，宣布基于全国产算力训练的深度推理大模型 —— 讯飞星火 X1 升级版正式上线。此次升级，星火 X1 在多个任务上持续进步，综合能力再升级，特别是在翻译、推理、文本生成、数学、多语言上效果亮眼。同时，在幻觉治理方面，对于大模型自身生成内容是否符合客观事实的事实性幻觉治理，以及在用户给定额外参考资料时大模型回复是否忠于原文的忠实性幻觉治理两方面均取得明显进步，显著提高了大模型行业落地应用的可靠性。

7/25/2025 1:38:15 PM

问舟

文件去哪了？Gemini “嘴硬”把自己骗了，顺便用户数据也没了

一名用户在测试谷歌的 Gemini CLI 工具时，遭遇了意想不到的灾难。这位用户并非开发者，只是一位好奇的产品经理，在尝试通过 Gemini CLI 进行简单的文件管理实验。图片他本想比较 Claude Code 和 Gemini CLI 的实际表现，最终决定在正式订阅 Claude 之前，先用免费额度试一试 Gemini。

7/24/2025 4:32:53 PM

李沐B站更新了！教你手搓语音大模型，代码全开源还能在线试玩

这一天，辣个男人终于回想起……他的小破站账号！（活久见）李沐老师终于带着他的手搓语音大模型教程回归了….本期视频不讲论文，李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型，不仅能处理文本，还能同时理解并生成语音。除了一些常规语音任务外，这个模型还具备一些较为罕见的能力，比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。

7/24/2025 8:55:00 AM

诱导大模型 | 新型“回音室”攻击和对抗技术

回音室攻击介绍“回音室攻击”（Echo Chamber）的新型越狱方法，可诱骗几乎所有主流大语言模型生成不良内容，Neural Trust 研究员Ahmad Alobaid在一份报告中指出：“与依赖对抗性提示或字符混淆的传统越狱方法不同，回音室攻击利用间接引用、语义引导和多步推理进行攻击”。虽然当今主流大模型已经逐步采用各种防护措施来对抗快速注入和越狱攻击，但是“回音室攻击”都能有效的让大模型产生有害的内容，比如，色情、恐怖暴力和歧视等内容。流程图报告的文章给出了攻击的流程图，包括六个大步骤，其中第六部是一个循环。

7/24/2025 1:00:00 AM

火山引擎云安全

继 OpenAI 之后，谷歌宣布其 Gemini AI 在国际数学奥林匹克竞赛测试中获金牌水平成绩

AI在线 7 月 22 日消息，国际数学奥林匹克竞赛（IMO）是全球最负盛名的数学竞赛之一，每年每个国家由六名高中生代表参赛，他们需在规定时间内解答六道极具挑战性的数学难题。在这一竞赛中，仅有约 8% 的参赛者能够获得金牌，这使得 IMO 的金牌成为数学领域的至高荣誉。在今年的国际数学奥林匹克竞赛中，OpenAI 和谷歌都使用了它们最新的大语言模型（LLM）参赛。

7/22/2025 4:06:17 PM

远洋

DeepMind夺得IMO官方「唯一」金牌，却成为OpenAI大型社死现场

刚刚，谷歌 DeepMind 宣布，其新一代 Gemini 进阶版模型在 IMO 竞赛中正式达到金牌得主水平，成功解决了六道超高难度试题中的五道，拿下 35 分（满分 42 分），成为首个获得奥赛组委会官方认定为金牌的AI系统。更重要的是，该系统首次证明人工智能无需依赖专业编程语言，仅通过自然语言理解即可攻克复杂数学难题。谷歌 DeepMind 首席执行官哈萨比斯在社交媒体平台 X 上强调：这是官方结果！

7/22/2025 1:22:00 PM

机器之心

并行革命，32倍吞吐量跃升！英伟达Helix架构突破百万Token推理瓶颈

想象一个使用大模型的任务，需要一次处理百万字符的文档，例如从百科全书中获取信息，或是分析数百页的法律卷宗，异或追踪持续数月的对话记录，都需要越来越长的上下文。而大模型生成的每个词都需要扫描存储在所谓的KV缓存中存储的过去标记。反复读取这个缓存会消耗GPU内存带宽。

7/22/2025 10:40:00 AM

没有高质量的数据库加持，大模型只是 “空中楼阁”

2023年，ChatGPT的横空出世让全球惊叹于大模型的智能水平。自此，国内也掀起了新一轮的大模型热潮，首先，百度发布了文心一言，紧接着，阿里、腾讯、华为、京东等大厂先后入局，更值得一提的是，大模型热度的居高不下，也吸引了不少创业公司的加入，零一万物、Kimi、面壁智能....随着两年时间的发展，如今大模型的智能水平早已不可同日而语，从在自然语言处理领域实现与人类流畅对话，到在图像视频领域精准识别各类物体，从最初简单的问答，到快速且精准地解决生活、工作、学习等在各场景中遇到的问题，大模型的表现也在不断刷新我们的认知。然而，这些卓越表现并非凭空而来，大模型的强大背后，离不开高质量数据库的坚实支撑。

7/21/2025 11:05:04 AM

ICML'25 |大模型再爆弱点！旧记忆忘不掉，新记忆分不出，准确率暴降

人们越来越意识到，大语言模型（LLM）里「找信息」这件事，并不是简单地翻字典，而和「写信息」的能力紧紧绑在一起。一般认为，给模型塞入更长的上下文就能让它找得更准，不过上下文内部存在「互相干扰」，但这种现象却很少被研究。为了看清这个问题，弗吉尼亚大学和纽约大学神经科学中心研究人员借用了心理学里的「前摄干扰」（proactive interference）概念：先出现的信息会妨碍我们回忆后来更新的内容。

7/21/2025 9:09:00 AM

资讯热榜

腾讯云大模型升级公告:DeepSeek-V3/ DeepSeek-R1模型将于24日正式下线 OpenAI低调更新GPT4o模型，多项能力反超DeepSeek DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言 IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线东风日产N7首款接入DeepSeek大模型，实现智能化人机交互腾讯云上线DeepSeek全系API接口并打通联网搜索微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测

大模型