AIGC宇宙 AIGC宇宙

Qwen3来了!新一代高性能与混合推理能力兼备的大语言模型!

作者:
2025-04-30 10:59
阿里云正式发布通义千问Qwen3系列大模型,这一里程碑式更新在性能、训练规模和推理能力等多个维度实现重大突破。 作为国产大模型的领军者,Qwen3不仅以2350亿参数的MoE架构刷新性能记录,更通过创新的"混合思考模式"和360万亿token的超大规模训练,成为当前性能领先的开源大语言模型。 1、Qwen3的性能表现Qwen3系列包含多个版本,涵盖MoE混合专家模型和Dense稠密模型。

Qwen3来了!新一代高性能与混合推理能力兼备的大语言模型!

阿里云正式发布通义千问Qwen3系列大模型,这一里程碑式更新在性能、训练规模和推理能力等多个维度实现重大突破。作为国产大模型的领军者,Qwen3不仅以2350亿参数的MoE架构刷新性能记录,更通过创新的"混合思考模式"和360万亿token的超大规模训练,成为当前性能领先的开源大语言模型。

1、Qwen3的性能表现

Qwen3系列包含多个版本,涵盖MoE混合专家模型和Dense稠密模型。其旗舰模型Qwen3-235B-A22B在编码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等其他顶级模型相比,展现出极具竞争力的成绩。例如,在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现超过Grok3;在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越OpenAI o1及DeepSeek-R1。

图片

此外,Qwen3的小型MoE模型Qwen3-30B-A3B激活参数量仅为QwQ-32B的10%,但性能更优;即使是微型模型Qwen3-4B,其性能也能与Qwen2.5-72B-Instruct相媲美。Qwen3系列模型的性能提升,不仅体现在大型模型上,其小型模型也展现了强大的轻量化应用能力。

图片

2、Qwen3的主要特点

革命性混合思考模式

Qwen3支持两种模式:思考模式非思考模式。在思考模式下,模型会逐步推理,经过一系列思考后再给出最终答案,适用于复杂问题;在非思考模式下,模型快速响应,几乎即时给出答案,适合简单问题。用户可以通过在提示中添加/think或/no_think指令,动态切换模型的思考模式。例如:

  • 用户输入:“How many r's in strawberries?”(默认启用思考模式)
  • 用户输入:“Then, how many r's in blueberries? /no_think”(切换为非思考模式)
  • 用户输入:“Really? /think”(再次切换为思考模式)

这种动态切换功能为用户提供了极大的灵活性,能够在每轮对话中根据需求调整模型的思考深度。

图片

多语言支持

Qwen3支持119种语言和方言,这为国际应用开辟了新的可能性,使全球用户都能受益于这些模型的强大功能。

图片

增强Agent能力

Qwen3优化了模型的编码和Agent能力,并增强了对MCP的支持。这使得Qwen3能够更好地与外部数据源和工具集成,完成复杂任务。例如,通过Qwen-Agent,用户可以轻松调用工具,实现复杂的任务处理。

3、模型训练

Qwen3的预训练和后训练方法是其性能提升的关键。

预训练

在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展,使用的token数量几乎是Qwen2.5的两倍,约有36万亿个token,涵盖119种语言和方言。

预训练过程包含三个阶段:

  1. 第一阶段(S1):模型在超过30万亿个token的数据上进行预训练,上下文长度为4K token。这一阶段主要为模型提供基本的语言技能和通用知识。
  2. 第二阶段(S2):通过增加知识密集型数据(如STEM、编程和推理任务)的比例,进一步改进数据集。随后,模型在额外的5万亿个token上进行预训练,以提升其专业能力。
  3. 第三阶段:使用高质量的长上下文数据,将上下文长度扩展到32K token,确保模型能够有效处理更长的输入。

通过多阶段的预训练,Qwen3不仅获得了基本的语言技能和常识,还在STEM、编码和推理等领域表现出色。

图片

后训练

Qwen3的后训练过程分为四个阶段,旨在开发既能逐步推理又能快速响应的混合模型:

  1. 长思维链冷启动:使用多样化的长思维链数据对模型进行微调,涵盖数学、编程、逻辑推理和STEM问题等多种任务和领域,增强模型的基本推理能力。
  2. 长思维链强化学习:通过大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。
  3. 思维模式融合:在长思维链数据和常用指令微调数据的组合上对模型进行微调,将非思考模式整合到思考模型中,确保推理和快速响应能力的无缝融合。
  4. 通用强化学习:在20多个通用领域的任务上应用强化学习,进一步增强模型的通用能力并纠正不良行为。

通过这种多阶段的后训练方法,不仅提升了模型的推理能力,还增强了其通用能力和响应速度,使Qwen3能够更好地适应不同的任务需求。

图片

4、总结

Qwen3的发布,标志着国产大模型在技术、性能和应用上的全面崛起。不仅在性能、效率和可控性之间找到了黄金平衡点,更通过开源赋能全球开发者,推动了人工智能技术的普及和发展。我们期待Qwen团队在未来带来更多惊喜,同时也期待DeepSeek等其他顶尖模型的发布,共同推动人工智能领域迈向新的高度。

相关标签:

相关资讯

深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源! 一经问世,它立刻登顶全球最强开源模型王座。 它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
4/29/2025 8:14:14 AM
新智元

性能与效率的双赢:Qwen3横空出世,MoE架构大幅降低部署成本

阿里云旗下通义千问(Qwen)团队正式发布Qwen3系列模型,共推出8款不同规格的模型,覆盖从移动设备到大型服务器的全部应用场景。 这是国内首个全面超越DeepSeek R1的开源模型,也是首个配备混合思维模式的国产模型。 模型阵容丰富,满足各类部署需求Qwen3系列包含6款Dense模型和2款MoE模型:Dense模型:0.6B、1.7B、4B、8B、14B、32BMoE模型:Qwen3-235B-A22B (总参数235B,激活参数22B)Qwen3-30B-A3B (总参数30B,激活参数3B)所有模型均支持128K上下文窗口,并配备了可手动控制的"thinking"开关,实现混合思维模式。
4/29/2025 4:00:41 PM
AI在线

OpenAI研究人员发现,AI无法解决大多数编程问题

2月24日消息,据外媒报道,OpenAI的研究人员承认,即使是最先进的AI模型仍然无法与人类程序员匹敌,尽管首席执行官山姆·奥特曼(Sam Altman)坚称,到今年年底,他们将能够击败“低级”的软件工程师。 在一篇新论文中,该公司的研究人员发现,即使是前沿模型,或最先进、最具突破边界的人工智能系统,“仍然无法解决大多数”编码任务。 研究人员使用了一种名为sw-lancer的新开发基准,该基准基于自由职业者网站Upwork的1400多个软件工程任务。
2/25/2025 10:21:12 AM
Yu
  • 1