AIGC宇宙 AIGC宇宙

性能与效率的双赢:Qwen3横空出世,MoE架构大幅降低部署成本

阿里云旗下通义千问(Qwen)团队正式发布Qwen3系列模型,共推出8款不同规格的模型,覆盖从移动设备到大型服务器的全部应用场景。 这是国内首个全面超越DeepSeek R1的开源模型,也是首个配备混合思维模式的国产模型。 模型阵容丰富,满足各类部署需求Qwen3系列包含6款Dense模型和2款MoE模型:Dense模型:0.6B、1.7B、4B、8B、14B、32BMoE模型:Qwen3-235B-A22B (总参数235B,激活参数22B)Qwen3-30B-A3B (总参数30B,激活参数3B)所有模型均支持128K上下文窗口,并配备了可手动控制的"thinking"开关,实现混合思维模式。

阿里云旗下通义千问(Qwen)团队正式发布Qwen3系列模型,共推出8款不同规格的模型,覆盖从移动设备到大型服务器的全部应用场景。这是国内首个全面超越DeepSeek R1的开源模型,也是首个配备混合思维模式的国产模型。

模型阵容丰富,满足各类部署需求

Qwen3系列包含6款Dense模型和2款MoE模型:

  • Dense模型:0.6B、1.7B、4B、8B、14B、32B
  • MoE模型:
    • Qwen3-235B-A22B (总参数235B,激活参数22B)
    • Qwen3-30B-A3B (总参数30B,激活参数3B)

所有模型均支持128K上下文窗口,并配备了可手动控制的"thinking"开关,实现混合思维模式。

QQ20250429-150719.png

性能与效率的突破

Qwen3系列在同尺寸开源模型中性能领先,尤其是旗舰模型Qwen3-235B-A22B:

  • 在代码、数学、通用能力等基准测试中与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro相比表现极具竞争力
  • 部署成本仅为DeepSeek R1的35%

小型MoE模型Qwen3-30B-A3B同样令人惊艳:

  • 激活参数仅为QwQ-32B的10%,性能反而更优
  • 可在消费级显卡上部署运行

最小的0.6B模型专为移动设备优化,进一步扩展了Qwen3的应用范围。

QQ20250429-150730.png

多平台部署支持

Qwen3发布后立即获得了众多平台的"0day级支持":

在线体验:

  • 通过官网直接对话:https://chat.qwen.ai/

本地部署:

  • Ollama:ollama run qwen3(后接参数可选择不同尺寸)
  • LM Studio:https://lmstudio.ai/
  • vLLM:支持v0.8.4以上版本
  • SGLang:需升级至0.4.6.post1
  • llama.cpp:支持量化版和动态量化版

API接入:

  • OpenRouterAI:提供免费API

特殊部署:

  • CPU部署:KTransformer支持混合CPU+GPU部署
  • Mac设备:支持mlx-lm,覆盖从iPhone到M3Ultra的全线产品

技术亮点

Qwen3的核心优势包括:

  • 首个全面超越DeepSeek R1的国产开源模型
  • 国内首个混合推理模型,复杂问题深度思考,简单问题快速响应
  • 大幅降低部署要求,旗舰模型仅需4张H20卡
  • 原生支持MCP协议,代码能力显著提升
  • 支持119种语言和方言,包含多种地方性语言
  • 训练数据达36万亿token,较Qwen2.5翻倍,融合网络内容、PDF文档和合成代码片段

Qwen3的发布标志着中国开源大模型进入新阶段,在性能与部署效率方面实现了双重突破。有兴趣的开发者可通过官方技术博客(https://qwenlm.github.io/blog/qwen3/)了解更多技术细节。

相关资讯

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。 面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。 从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。
2/5/2025 2:37:00 PM
机器之心

程序员购买OGOpenAI.com域名转向DeepSeek

最近,一名软件工程师以 “不到一顿 Chipotle 餐的价格” 购买了 OGOpenAI.com 域名,并将其重定向至中国人工智能实验室 DeepSeek 的网站。 该实验室在开源 AI 领域崭露头角,吸引了广泛的关注。 据软件工程师阿纳奈・阿罗拉(Ananay Arora)向《TechCrunch》透露,他的初衷是为了支持 DeepSeek,因为该实验室最近推出了一款名为 DeepSeek-R1的开放版本模型,声称在某些基准测试中表现优于 OpenAI 的 o1。
1/23/2025 4:32:00 PM
AI在线
testab