AIGC宇宙 AIGC宇宙

DeepSeek还没登场,Qwen3 已经抢先引爆AI开源圈

AI 社区原本期盼 DeepSeek 发布重磅新品,却意外迎来了另一款令人瞩目的中国开源模型:Qwen3 正式登场。 此次发布的旗舰型号为 Qwen3-235B-A22B。 其中,235B 代表总参数量;而 A22B 指的是该模型采用了“专家混合”(Mixture of Experts,简称 MoE)架构,实际在每次查询中激活的参数量仅约为 220亿(22B)。

AI 社区原本期盼 DeepSeek 发布重磅新品,却意外迎来了另一款令人瞩目的中国开源模型:

Qwen3 正式登场。

此次发布的旗舰型号为 Qwen3-235B-A22B。其中,235B 代表总参数量;而 A22B 指的是该模型采用了“专家混合”(Mixture of Experts,简称 MoE)架构,实际在每次查询中激活的参数量仅约为 220亿(22B)。

但最引人关注的是:

Qwen3 已能与一线模型如 DeepSeek R1、o3 Mini、Grok 3 和 Gemini 2.5 Pro 相媲美。

性能实测:全面对标顶级大模型

根据官方博客提供的多项基准测试数据:

图片图片

  • 在 ArenaHard 测试中,Qwen3 已超越了 o3 Mini,且与 Gemini 2.5 Pro 非常接近。
  • 在 AIME 24 和 25 测试中,其表现介于 Gemini 2.5 Pro 和 o3 Mini 之间。
  • 在编程相关的 LiveCodeBench 和 CodeForces 测试中,甚至超过了 Gemini 2.5 Pro。

这一系列表现彰显了 Qwen3 的强大竞争力。

图片图片

模型种类丰富,覆盖多种需求

此次发布除了旗舰的 MoE 模型外,还包含了从 32B 到 6B 参数量不等的 6 款稠密模型(Dense Models,非专家混合型),以满足不同算力需求的场景。

所有模型都将开源发布于:

  • HuggingFace
  • ModelScope
  • Kaggle

🚀 令人期待的独特功能

Qwen3 一位开发者暗示,该模型具有一些“未在官方模型卡中详细说明的特殊功能”,未来将在科研及产品开发方面带来新可能。

已公开的关键功能包括:

  • 可在**常规模式(Regular Mode)深度思考模式(Extended Thinking Mode)**间自由切换;
  • 提供高效的“思考预算”管理机制(Thinking Budget),即允许用户自由控制模型用于推理的 Token 数量,投入更多 Token 时效果显著提升;
  • 支持多达 119 种语言,具备明显增强的代码生成与智能代理(Agentic)能力。

庞大的训练数据集与创新的训练策略

Qwen3 采用的数据集规模空前,接近 Qwen2.5 所用 **18 万亿 Token(18T)**的两倍,达到约 35 万亿 Token(35T)

在训练过程中,研究团队还创新性地利用自家模型迭代强化训练数据:

  • 使用 Qwen2.5VL 模型从文档中提取文本内容;
  • 再以 Qwen2.5 基础模型对上述文本内容进行提升优化;
  • 同时借助 Qwen2.5 Math 与 Coder 模型生成高质量合成数据。

这种逐步迭代的训练方法,使模型在每个阶段都实现了性能的递进式提升。

此外,训练过程分为三个预训练阶段与四个后续训练阶段:

图片图片

预训练阶段

  • 通用语言数据:约 30 万亿 Token
  • 知识密集型数据:额外 5 万亿 Token
  • 扩展上下文长度至 32K Token

后续训练阶段

  • 长链思考训练(Long Chain-of-Thought);
  • 强化学习微调(Reinforcement Learning);
  • 思考模式融合(Thinking Mode Fusion);
  • 一般化强化学习。

对更轻量级模型,则采取了知识蒸馏(Distillation)的方式,从大模型向小模型传递能力,从而实现了在边缘设备与手机端的高效部署。

完全开源,商业友好

Qwen3 全系列模型采用 Apache 2.0 协议 完全开源,允许开发者:

  • 商业化应用;
  • 创建衍生作品;
  • 以合规署名方式自由销售基于 Qwen3 构建的产品。

开发团队表示:

“我们相信,AI 模型的开发正在从以训练模型为中心,转向以训练智能代理(Agent)为核心的新时代。”

市场竞争日益激烈

随着 Qwen3 的强势发布,以及 DeepSeek 可能即将公布的新模型,未来几周 AI 领域势必掀起新一轮的技术竞赛热潮。

AI 从业者与观察人士无不期待,这场竞争将如何推动技术边界持续扩展。

观点与讨论

本次 Qwen3 的突然崛起,不仅标志着中国开源 AI 模型的又一里程碑,也意味着行业格局或将再次面临洗牌。

相关资讯

深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源! 一经问世,它立刻登顶全球最强开源模型王座。 它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
4/29/2025 8:14:14 AM
新智元

性能与效率的双赢:Qwen3横空出世,MoE架构大幅降低部署成本

阿里云旗下通义千问(Qwen)团队正式发布Qwen3系列模型,共推出8款不同规格的模型,覆盖从移动设备到大型服务器的全部应用场景。 这是国内首个全面超越DeepSeek R1的开源模型,也是首个配备混合思维模式的国产模型。 模型阵容丰富,满足各类部署需求Qwen3系列包含6款Dense模型和2款MoE模型:Dense模型:0.6B、1.7B、4B、8B、14B、32BMoE模型:Qwen3-235B-A22B (总参数235B,激活参数22B)Qwen3-30B-A3B (总参数30B,激活参数3B)所有模型均支持128K上下文窗口,并配备了可手动控制的"thinking"开关,实现混合思维模式。
4/29/2025 4:00:41 PM
AI在线

Qwen3来了!新一代高性能与混合推理能力兼备的大语言模型!

阿里云正式发布通义千问Qwen3系列大模型,这一里程碑式更新在性能、训练规模和推理能力等多个维度实现重大突破。 作为国产大模型的领军者,Qwen3不仅以2350亿参数的MoE架构刷新性能记录,更通过创新的"混合思考模式"和360万亿token的超大规模训练,成为当前性能领先的开源大语言模型。 1、Qwen3的性能表现Qwen3系列包含多个版本,涵盖MoE混合专家模型和Dense稠密模型。
4/30/2025 10:59:04 AM
  • 1