理论

68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳成绩

大模型竞技场的可信度，再次被锤。最近一篇名为《排行榜幻觉》（The Leaderboard Illusion）的论文在学术圈引发关注。图片它指出，如今被视为LLM领域首选排行榜的Chatbot Arena，存在诸多系统问题。

5/6/2025 1:45:00 AM

DeepSeek还没登场，Qwen3 已经抢先引爆AI开源圈

AI 社区原本期盼 DeepSeek 发布重磅新品，却意外迎来了另一款令人瞩目的中国开源模型：Qwen3 正式登场。此次发布的旗舰型号为 Qwen3-235B-A22B。其中，235B 代表总参数量；而 A22B 指的是该模型采用了“专家混合”（Mixture of Experts，简称 MoE）架构，实际在每次查询中激活的参数量仅约为 220亿（22B）。

5/6/2025 12:35:33 AM

前端小智

让GPT-4.1「头皮发麻的考试」！OpenAI给大模型上强度，AI能赢吗？

雕塑在大理石块中已经完成，甚至在我开始工作之前就已经存在。它就在那里，我只需要凿去多余的材料。 ——米开朗基罗当被问及是如何创作出如此美丽的雕塑时，米开朗基罗说「雕塑已经存在，我只是需要凿去多余的材料」。

5/6/2025 12:22:00 AM

新智元

OpenAI 姚顺雨：“算法为王”终结，欢迎来到“产品思维”时代

回顾过去几十年，AI的发展几乎就是一部“顶级模型与新方法”迭代史。从DeepBlue击败象棋世界冠军、AlphaGo征服围棋、GPT-4刷爆各类考试榜单，到o1、R1等新一代模型横扫数学、编程、写作、操作等任务，每一次历史性突破的背后，都是训练方法、模型架构的根本性创新。这时候的游戏规则很简单：谁能发明更强的训练方法、模型架构，就能称霸榜单；谁能在ImageNet、GLUE、MMLU等benchmark上显著提升，就能写进教材、赢得引用。

5/6/2025 12:00:55 AM

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

就在刚刚，DeepSeek-Prover-V2正式发布。此次DeepSeek-Prover-V2提供了两种模型尺寸：7B和671B参数。 DeepSeek-Prover-V2-671B：在DeepSeek-V3-Base基础上训练，推理性能最强。

5/1/2025 10:33:59 AM

新智元

看不懂新开源的DS-Prover V2版本？解读来了，攻克像人类一样数学证明，达到SoTA水平，不知道如何测？样题来了

五一凌晨，DeepSeek终于更新了新开源的 DeepSeek-Prover V2的自述文件。速览一下： - 解决近 90% 的 miniF2F 问题（88.9%） - 显著提高 PutnamBench 上的 SoTA 性能 - 在正式版本中对 AIME 24 和 25 问题取得了惊艳的通过率点评：亮点上来看，DeepSeek-Prove V2模型在死磕LLM在推理数学问题上能给出答案但却给不出严格正确的推理步骤的问题。而且在一中先进模型中达到了SoTA的水平，图四是前十榜单。

5/1/2025 8:33:20 AM

中国开源大模型新成员：小米推理大模型首秀！

编辑 | 云昭进入2025以来，中国大模型的开源力量一骑绝尘，甚至盖过了Llama的势头。今天，中国开源大模型，迎来新成员！ 4月30日，赶在五一前，一条“为Reasoning而生”的Xiaomi Mimo开源模型的发布消息不胫而走，发布渠道是小米6天前新注册的公众号Xiaomi Mimo。

4/30/2025 4:48:07 PM

云昭

Meta AI 独立App炸场上线！小扎力挺开源：与 DeepSeek、Qwen 一起对抗“闭源”AI

Meta又搞了个大活。就在LlamaCon开发者大会上，这家社交巨头一口气发布了Meta AI独立App和Llama 云 API，正式把自家的AI推到了“社交个性化开放生态”的新维度。图片是的，你没看错——继在WhatsApp、Instagram、Facebook、Messenger里塞满AI助手之后，Meta终于把AI单独做成了App，直接对标ChatGPT。

4/30/2025 2:12:36 PM

文摘菌

Qwen3来了！新一代高性能与混合推理能力兼备的大语言模型！

阿里云正式发布通义千问Qwen3系列大模型，这一里程碑式更新在性能、训练规模和推理能力等多个维度实现重大突破。作为国产大模型的领军者，Qwen3不仅以2350亿参数的MoE架构刷新性能记录，更通过创新的"混合思考模式"和360万亿token的超大规模训练，成为当前性能领先的开源大语言模型。 1、Qwen3的性能表现Qwen3系列包含多个版本，涵盖MoE混合专家模型和Dense稠密模型。

4/30/2025 10:59:04 AM

DeepSeek定制训练：微调与推理技术应用

一. 前言介绍本文内容：模型加载与预处理：详细讲解如何加载预训练模型、分词器，并处理输入数据集。 LoRA配置：介绍如何使用LoRA技术配置模型，并高效进行微调，节省计算资源。

4/30/2025 9:19:32 AM

AI知识库的真相，你知道吗？

很多人对AI知识库的想象是这样的，他们以为只需将所有资料一股脑地拖进AI客户端，比如 Cherry Studio 内。图片这样，AI就会认真阅读所有内容，并自动生成完美结论。然而，实际体验后，许多人发现AI知识库的效果远没有想象中理想，经常遇到各种奇怪的问题。

4/30/2025 9:06:23 AM

程序员NEO

OpenAI玩崩了！GPT-4o更新后变马屁精差评如潮，奥特曼：一周才能完全修复

GPT-4o更新后，有点失控了。现在简简单单地问一句“天为什么是蓝的？ ”，得到的都不是答案，而是先来一句花式夸夸：你这问题真是太有见地了——你有个美丽的心灵，我爱你。

4/30/2025 8:42:00 AM

量子位

AI聊天的尽头是带货？ChatGPT新增购物推荐，但OpenAI强调这不是广告

AI聊天的尽头是带货？这一调侃似乎正在成为现实。 4月29日，OpenAI宣布为ChatGPT推出一项全新的内置购物功能，引发行业内外的广泛关注。

4/30/2025 12:20:00 AM

OpenAI前CEO和高级用户对AI谄媚和奉承用户的情况发出警告

但对于OpenAI热门聊天机器人ChatGPT的许多用户来说，这似乎已成现实，特别是当它与底层GPT-4o大型语言多模态模型进行交互时(OpenAI还为ChatGPT用户提供了另外六种底层大型语言模型以供选择，以驱动聊天机器人的回复，每种模型都具备不同的能力和数字“性格特征”——o3、o4-mini、o4-mini-high、GPT-4.5、GPT-4omini和GPT-4)。在过去几天里，包括前OpenAI的CEO埃米特·希尔(Emmett . Shear)——他仅在2023年11月山姆·奥特曼被解雇的风波中掌管公司72小时——以及开源AI代码共享社区Hugging .

4/29/2025 4:14:24 PM

Carl Franzen

OpenAI进军电商业，狙击谷歌的基本盘

大数据文摘出品近日，OpenAI宣布将在ChatGPT中上线全新的购物体验，允许用户在对话中直接进行商品搜索与比价，并通过“购买”按钮跳转至商家网站完成交易。图片这一功能的上线，标志着OpenAI正式进入了电商行业，并与传统搜索引擎巨头如Google形成了直接竞争。当然，OpenAI进军电商业，实际上是在正面挑战Google在搜索和信息分发领域的核心地位。

4/29/2025 12:05:41 PM

文摘菌

AI巨头的算力账：谷歌自研TPU，绕过英伟达税，成本仅为OpenAI两成！OpenAI VS 谷歌企业怎么选？盘点四大决策关键！

编译 | 伊风随着生成式 AI 技术的迅猛发展，全球科技巨头围绕 AI 平台的竞争也日益白热化。近期，OpenAI 发布了强大的 o3 和 o4-mini 推理模型以及 GPT-4.1 系列，谷歌则迅速推出了 Gemini 2.5 Flash主打“性价比”路线，作为对稍早发布的旗舰版 Gemini 2.5 Pro 的迭代更新。虽然模型对比测试经常成为头条新闻，但对于技术决策者而言，选择 AI 平台所涉及的内容要深远得多。

4/29/2025 11:31:16 AM

伊风