Qwen3

解锁 LLM 新高度！一文深度解读 Qwen3 大模型

1、模型架构Qwen3 系列涵盖 6 种密集型模型和 2 种 MoE 模型，参数规模从 0.6 亿到 2350 亿不等，满足不同下游应用需求。旗舰模型 Qwen3-235B-A22B 作为 MoE 模型，总参数量达 2350 亿，每 token 激活参数量为 220 亿，在性能与效率间取得平衡。密集型模型Qwen3 的密集型模型架构与 Qwen2.5 类似，采用 Grouped Query Attention（GQA）和 QK-Norm 改进注意力机制，使用 SwiGLU 作为激活函数，搭配 Rotary Positional Embeddings（RoPE）进行位置编码，采用 RMSNorm 并预归一化。

5/21/2025 9:04:38 AM

Goldma

使用 Unsloth 高效微调 Qwen3，国产大模型的轻量化和部署实践

近年来，大语言模型在自然语言处理任务中取得了显著进展。然而，对于开发者和中小型企业，模型微调的资源需求仍是一个挑战。本文将讨论如何利用 Unsloth 框架，在有限的硬件资源下完成 Qwen3-14B 的高效微调，并支持后续部署。

5/19/2025 9:32:06 AM

口袋数据

DeepSeek还没登场，Qwen3 已经抢先引爆AI开源圈

AI 社区原本期盼 DeepSeek 发布重磅新品，却意外迎来了另一款令人瞩目的中国开源模型：Qwen3 正式登场。此次发布的旗舰型号为 Qwen3-235B-A22B。其中，235B 代表总参数量；而 A22B 指的是该模型采用了“专家混合”（Mixture of Experts，简称 MoE）架构，实际在每次查询中激活的参数量仅约为 220亿（22B）。

5/6/2025 12:35:33 AM

前端小智

成本仅DeepSeek三分之一！阿里发布全球最强开源大模型Qwen3系列

小道消息一直在说，前天深夜或者昨天凌晨，阿里会发 Qwen3。然后我特意早早的睡了一两小时，凌晨 1 点起床，就为了等 Qwen3 发。结果这一等，就是好几个小时。

5/1/2025 1:13:13 AM

数字生命卡兹克

Qwen3来了！新一代高性能与混合推理能力兼备的大语言模型！

阿里云正式发布通义千问Qwen3系列大模型，这一里程碑式更新在性能、训练规模和推理能力等多个维度实现重大突破。作为国产大模型的领军者，Qwen3不仅以2350亿参数的MoE架构刷新性能记录，更通过创新的"混合思考模式"和360万亿token的超大规模训练，成为当前性能领先的开源大语言模型。 1、Qwen3的性能表现Qwen3系列包含多个版本，涵盖MoE混合专家模型和Dense稠密模型。

4/30/2025 10:59:04 AM

性能与效率的双赢:Qwen3横空出世，MoE架构大幅降低部署成本

阿里云旗下通义千问（Qwen）团队正式发布Qwen3系列模型，共推出8款不同规格的模型，覆盖从移动设备到大型服务器的全部应用场景。这是国内首个全面超越DeepSeek R1的开源模型，也是首个配备混合思维模式的国产模型。模型阵容丰富，满足各类部署需求Qwen3系列包含6款Dense模型和2款MoE模型:Dense模型:0.6B、1.7B、4B、8B、14B、32BMoE模型:Qwen3-235B-A22B （总参数235B，激活参数22B）Qwen3-30B-A3B （总参数30B，激活参数3B）所有模型均支持128K上下文窗口，并配备了可手动控制的"thinking"开关，实现混合思维模式。

4/29/2025 4:00:41 PM

AI在线