阿里云正式发布通义千问Qwen3系列大模型,这一里程碑式更新在性能、训练规模和推理能力等多个维度实现重大突破。作为国产大模型的领军者,Qwen3不仅以2350亿参数的MoE架构刷新性能记录,更通过创新的"混合思考模式"和360万亿token的超大规模训练,成为当前性能领先的开源大语言模型。
1、Qwen3的性能表现
Qwen3系列包含多个版本,涵盖MoE混合专家模型和Dense稠密模型。其旗舰模型Qwen3-235B-A22B在编码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等其他顶级模型相比,展现出极具竞争力的成绩。例如,在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现超过Grok3;在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越OpenAI o1及DeepSeek-R1。
此外,Qwen3的小型MoE模型Qwen3-30B-A3B激活参数量仅为QwQ-32B的10%,但性能更优;即使是微型模型Qwen3-4B,其性能也能与Qwen2.5-72B-Instruct相媲美。Qwen3系列模型的性能提升,不仅体现在大型模型上,其小型模型也展现了强大的轻量化应用能力。
2、Qwen3的主要特点
革命性混合思考模式
Qwen3支持两种模式:思考模式和非思考模式。在思考模式下,模型会逐步推理,经过一系列思考后再给出最终答案,适用于复杂问题;在非思考模式下,模型快速响应,几乎即时给出答案,适合简单问题。用户可以通过在提示中添加/think或/no_think指令,动态切换模型的思考模式。例如:
- 用户输入:“How many r's in strawberries?”(默认启用思考模式)
- 用户输入:“Then, how many r's in blueberries? /no_think”(切换为非思考模式)
- 用户输入:“Really? /think”(再次切换为思考模式)
这种动态切换功能为用户提供了极大的灵活性,能够在每轮对话中根据需求调整模型的思考深度。
多语言支持
Qwen3支持119种语言和方言,这为国际应用开辟了新的可能性,使全球用户都能受益于这些模型的强大功能。
增强Agent能力
Qwen3优化了模型的编码和Agent能力,并增强了对MCP的支持。这使得Qwen3能够更好地与外部数据源和工具集成,完成复杂任务。例如,通过Qwen-Agent,用户可以轻松调用工具,实现复杂的任务处理。
3、模型训练
Qwen3的预训练和后训练方法是其性能提升的关键。
预训练
在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展,使用的token数量几乎是Qwen2.5的两倍,约有36万亿个token,涵盖119种语言和方言。
预训练过程包含三个阶段:
- 第一阶段(S1):模型在超过30万亿个token的数据上进行预训练,上下文长度为4K token。这一阶段主要为模型提供基本的语言技能和通用知识。
- 第二阶段(S2):通过增加知识密集型数据(如STEM、编程和推理任务)的比例,进一步改进数据集。随后,模型在额外的5万亿个token上进行预训练,以提升其专业能力。
- 第三阶段:使用高质量的长上下文数据,将上下文长度扩展到32K token,确保模型能够有效处理更长的输入。
通过多阶段的预训练,Qwen3不仅获得了基本的语言技能和常识,还在STEM、编码和推理等领域表现出色。
后训练
Qwen3的后训练过程分为四个阶段,旨在开发既能逐步推理又能快速响应的混合模型:
- 长思维链冷启动:使用多样化的长思维链数据对模型进行微调,涵盖数学、编程、逻辑推理和STEM问题等多种任务和领域,增强模型的基本推理能力。
- 长思维链强化学习:通过大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。
- 思维模式融合:在长思维链数据和常用指令微调数据的组合上对模型进行微调,将非思考模式整合到思考模型中,确保推理和快速响应能力的无缝融合。
- 通用强化学习:在20多个通用领域的任务上应用强化学习,进一步增强模型的通用能力并纠正不良行为。
通过这种多阶段的后训练方法,不仅提升了模型的推理能力,还增强了其通用能力和响应速度,使Qwen3能够更好地适应不同的任务需求。
4、总结
Qwen3的发布,标志着国产大模型在技术、性能和应用上的全面崛起。不仅在性能、效率和可控性之间找到了黄金平衡点,更通过开源赋能全球开发者,推动了人工智能技术的普及和发展。我们期待Qwen团队在未来带来更多惊喜,同时也期待DeepSeek等其他顶尖模型的发布,共同推动人工智能领域迈向新的高度。