理论

推理大模型机制解析！为什么Qwen3要把脑子一分为二？

近期，Qwen3模型的一个重大转变，让整个行业都在重新思考一个根本问题：推理大模型到底应该什么时候思考，什么时候直接给答案？这已不再是技术问题，也是关乎AI产品体验的核心议题...Qwen3的"分家"背后：理想很丰满，现实很骨感回到今年4月，Qwen3刚发布时，阿里团队雄心勃勃地推出了"混合思考模式"。听起来很美好：一个模型既能快速响应简单问题，又能深度思考复杂任务。

9/4/2025 1:00:00 AM

大数据AI智能圈

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

训练大模型时，有时让它“记性差一点”，反而更聪明！大语言模型如果不加约束，很容易把训练数据原封不动地复刻出来。为解决这个问题，来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失（Goldfish Loss）。

9/3/2025 2:02:08 PM

Mistral AI刚刚免费开放企业级AI功能——这对ChatGPT构成重大威胁

总部位于巴黎的AI初创公司Mistral AI(被誉为欧洲版的OpenAI)，周一宣布大幅扩展其企业级业务平台Le Chat，这一动作直接挑战现有的企业AI服务商，通过提供先进的记忆功能和广泛的第三方集成——而且对用户完全免费——来打破市场格局。此次发布包含两大核心功能：记忆系统：可在多轮对话中保留上下文。连接器目录：支持超过20个企业级平台，包括Databricks、Snowflake、GitHub、Atlassian和Stripe。

9/3/2025 1:56:50 PM

Michael

底层逻辑的转变：从AI代码生成，到真正的开发伙伴关系

译者 | 核子可乐审校 | 重楼Claude 4甫一亮相，市场就被其强大的推理和编程能力折服。但在连续使用数月之后，我意识到大模型真正的革命不在于生成更好的代码片段，而是其中蕴藏的自主性潜力。很多人更多关注AI编程的语法正确性、基准测试得分和代码有效率，但我在对Claude 4的实际测试中体会到：能够全面理解开发目标、持续寻求解决方案并自主克服障碍的AI系统正在出现。

9/3/2025 8:13:03 AM

核子可乐

刚刚，OpenAI把1GW超算中心直接给了印度！奥特曼即将亲赴办事处

OpenAI，盯上了印度。而奥特曼的野心，是全球算力！外媒爆出的最新消息，OpenAI打算要在印度建立一座容量至少为1GW的大型数据中心。

9/2/2025 11:44:15 AM

新智元

刚刚，DeepSeek最新发文！V3/R1训练细节全公开，信息量巨大

今天，网信办《人工智能生成合成内容标识办法》正式生效。其中，第四条要求：对符合要求的AI生成合成内容添加显式标识。紧跟最新政策，DeepSeek出手了。

9/2/2025 10:17:07 AM

美团首个开源大模型正式发布！LongCat-Flash-Chat能否撼动AI格局？

美团正式发布并开源了自己的首个大语言模型——LongCat-Flash-Chat。说实话，这个消息让我挺意外的。美团，这个我们天天用来点外卖、叫车的平台，突然宣布要在AI大模型领域正面挑战OpenAI、Anthropic这些巨头。

9/2/2025 10:05:33 AM

阿丸笔记

大模型开始打王者荣耀了

大语言模型可以打王者荣耀了！图片腾讯最新提出的Think-In-Games (TiG) 框架，直接把大模型丢进王者荣耀里训练。它不仅能实时理解盘面信息（英雄、发育、兵线、防御塔、资源、视野等），还能打出像人类玩家一样的操作。

9/2/2025 10:03:34 AM

炸了！Google新发图片大模型简直逆天！

如果说 ChatGPT 真正的开创了聊天时代的智能对话，那么这次 Google 发布的 Nano Gemini 2.5 Flash Image（Nano Banana）将真正开启了图片智能生成的时代。先来看看他的生成效果吧。 1.生成3D手办2.旧照片修复3.换装不需要手工 PS 了。

9/1/2025 5:18:55 PM

磊哥

对话顺丰科技网络安全总监梁博：大模型浪潮下物流网络安全的守与破

网络安全中的攻防一直是矛与盾的关系，它们是相互对立且不断发展的。当大模型重塑产业形态时，网络安全的“攻防边界”正在被悄然改写，开始上演一场在用魔法打败魔法的战争，但最终谁会胜利，不得而知。作为承载亿量级用户隐私数据、依托自动化场景运转的物流行业来说，既面临传统网络攻击的持续侵扰，又需应对大模型衍生的新型安全风险。

9/1/2025 9:26:54 AM

小白大模型底层教程：Zero-Shot 、One-Shot、Few-Shot，不训练模型，如何进行微调？

最近，有学员在公司要做一个用户反馈的智能分类功能，需要打上“积极”、“消极”、“中性”这样的标签，他的第一反应是要微调模型了，来问我如何微调模型，我说，并不一定要微调模型，可以先了解一下什么是：Zero-Shot Learning、One-Shot Learning、Few-Shot Learning。假设我们现在有一个需要分类的用户反馈：“这新功能真是太棒了，体验感一流！ ”第一种方式：Zero-Shot (零样本学习)我们直接向模型下达指令，不给它任何参考范例。

9/1/2025 9:04:51 AM

IT周瑜

马斯克亲口证实xAI代码库被盗！涉案前员工被起诉，已跳槽OpenAI

刚刚，马斯克自曝，xAI的整个代码库都被偷走了。就在今天，xAI起诉了一名离职员工，指控他窃取商业机密。而且按xAI的说法，这名员工已经跳槽到了OpenAI。

9/1/2025 9:00:00 AM

被低估的GPT-5！OpenAI给7亿人解锁最强AI，大众智能一夜撕裂旧秩序

直到现在，GPT-5的升级，仍然被很多人低估了！一方面是，很多人没有看透OpenAI发布GPT-5背后的真正原因。 GPT-5的「突破」不在性能，而是模型「自带路由」和思考配额分发下的「单位token经济学」。

9/1/2025 2:55:00 AM

新智元

我是如何玩转Claude100 万 Token上下文的？（附代码实战）

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）进入8月后，Anthropic 推出了一个相当让开发者兴奋的更新！那就是：Claude Sonnet 4 现在支持 100 万 token 的上下文窗口 —— 这相当于在一次对话中处理 75 万个单词，或 7.5 万行代码。（1个token相当于0.75个单词，1行代码大概10个单词长度。

8/29/2025 2:17:01 PM

云昭

输入成本接近免费，推理根本不烧钱！ChatGPT毛利超5倍，Claude赚麻溢价20倍！大佬起底：别被忽悠了！API利润超80%

编辑｜云昭OpenAI 的 ChatGPT 也好、Claude 也好，国内的 DeepSeek也好，到底在推理上是烧钱，亏钱，还是挣钱？ ChatGPT Pro 的毛利高达 5-6 倍；Claude 做开发者的生意更赚钱：Claude Code Max 的毛利润率竟高达 12-20 倍溢价。怪不得大家都下场卷编程赛道！

8/29/2025 2:06:40 PM

云昭

数据科学新风口？三大环节搞定ML「资产」管理，VLDB'25最新教程抢先看！

大模型时代，模型、数据与各种「参数/脚本/许可证」等ML资产爆炸式增长，但真正能被发现、复用、合规使用的比例并不高，这正在成为AI生产力落地的「隐形天花板」。以知名开源平台HuggingFace为例，平台目前托管超过150万个模型，每月还在新增约10万个模型，总数据存储量高达17PB。然而超过半数的模型缺乏基本文档说明，不到8%的模型拥有明确的许可证。

8/29/2025 9:16:00 AM

聊聊大模型推理系统之 Arrow：自适应调度实现请求吞吐提升7.78倍背后的三大创新

在大模型（LLM）推理服务中，如何在输入/输出长度剧烈波动的现实场景下，依然保持高吞吐与低延迟？传统静态资源分配策略往往导致计算资源严重浪费。近期，来自中国科学技术大学、北航与京东的研究团队提出了一项名为 Arrow 的自适应调度机制，通过无状态实例与弹性实例池，实现了高达 7.78 倍的请求服务速率提升。

8/29/2025 1:15:00 AM

机智流科技

OpenAI/微软争夺AGI控制权！重组谈判激烈，年底谈不成软银700亿或撤

OpenAI就重组问题与微软持续进行了胶着的谈判，重写合作合同，至今悬而未决。今年年底是一个关键节点，关系到软银对OpenAI的100亿美元投资能否到账。 OpenAI在接受了微软的注资后，双方的利益诉求点始终处在不同的轨道上。

8/28/2025 3:27:22 PM

资讯热榜

印度创新试点：AI 聊天机器人助力电子商务购物新方式两部门联合发布《政务领域人工智能大模型部署应用指引》大力推动AI技术应用马斯克 xAI 在孟菲斯开建全球最大污水处理厂，年节约饮用水达 190 亿升软银贷款50亿美元助力AI投资，孙正义押注未来科技！ OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型 Sora2公布提示词指南！直接抄作业能玩一整天！前DeepMind大神创业一年估值飙至80亿美元：Reflection AI要做美国版DeepSeek OpenAI Sora 引爆 App Store“山寨潮”:30万次下载!苹果审核机制遭质疑

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文代码 LLM 算法 Stable Diffusion 芯片腾讯苹果 AI for Science Agent Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 研究人形机器人生成 AI视频百度工具 RAG 大语言模型 Sora 华为 GPU 计算具身智能 AI设计字节跳动搜索大型语言模型 AGI 场景深度学习视频生成架构预测视觉伟达 DeepMind Transformer 编程神器推荐 AI模型亚马逊 MCP