Qwen3

推理大模型机制解析！为什么Qwen3要把脑子一分为二？

近期，Qwen3模型的一个重大转变，让整个行业都在重新思考一个根本问题：推理大模型到底应该什么时候思考，什么时候直接给答案？这已不再是技术问题，也是关乎AI产品体验的核心议题...Qwen3的"分家"背后：理想很丰满，现实很骨感回到今年4月，Qwen3刚发布时，阿里团队雄心勃勃地推出了"混合思考模式"。听起来很美好：一个模型既能快速响应简单问题，又能深度思考复杂任务。

9/4/2025 1:00:00 AM

大数据AI智能圈

阿里千问踢馆子了！Qwen3新作秒杀ChatGPT，侧脸杀切换第一人称视角，表情包绝绝子，小编：再也不用美图秀秀去水印了

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）好家活！千问这是要干嘛，简直要踢了GPT-5的馆子了！就在刚刚，小编发现，千问官方X账号“Qwen”宣布：Qwen图像编辑功能重磅上线了！

8/19/2025 12:00:26 PM

云昭

Qwen3杀入全球前三，中国技术正式挑战OpenAI霸权

说实话，看到Qwen3 2507版本跻身全球AI模型前三的消息时，我第一反应是有点不敢相信。毕竟在这个被OpenAI、Anthropic主导的AI世界里，国产模型能达到这个高度，确实让人意外。但数据不会撒谎。

8/4/2025 9:19:06 AM

阿丸笔记

1、模型架构Qwen3 系列涵盖 6 种密集型模型和 2 种 MoE 模型，参数规模从 0.6 亿到 2350 亿不等，满足不同下游应用需求。旗舰模型 Qwen3-235B-A22B 作为 MoE 模型，总参数量达 2350 亿，每 token 激活参数量为 220 亿，在性能与效率间取得平衡。密集型模型Qwen3 的密集型模型架构与 Qwen2.5 类似，采用 Grouped Query Attention（GQA）和 QK-Norm 改进注意力机制，使用 SwiGLU 作为激活函数，搭配 Rotary Positional Embeddings（RoPE）进行位置编码，采用 RMSNorm 并预归一化。

5/21/2025 9:04:38 AM

Goldma

使用 Unsloth 高效微调 Qwen3，国产大模型的轻量化和部署实践

近年来，大语言模型在自然语言处理任务中取得了显著进展。然而，对于开发者和中小型企业，模型微调的资源需求仍是一个挑战。本文将讨论如何利用 Unsloth 框架，在有限的硬件资源下完成 Qwen3-14B 的高效微调，并支持后续部署。

5/19/2025 9:32:06 AM

口袋数据

DeepSeek还没登场，Qwen3 已经抢先引爆AI开源圈

AI 社区原本期盼 DeepSeek 发布重磅新品，却意外迎来了另一款令人瞩目的中国开源模型：Qwen3 正式登场。此次发布的旗舰型号为 Qwen3-235B-A22B。其中，235B 代表总参数量；而 A22B 指的是该模型采用了“专家混合”（Mixture of Experts，简称 MoE）架构，实际在每次查询中激活的参数量仅约为 220亿（22B）。

5/6/2025 12:35:33 AM

前端小智

成本仅DeepSeek三分之一！阿里发布全球最强开源大模型Qwen3系列

小道消息一直在说，前天深夜或者昨天凌晨，阿里会发 Qwen3。然后我特意早早的睡了一两小时，凌晨 1 点起床，就为了等 Qwen3 发。结果这一等，就是好几个小时。

5/1/2025 1:13:13 AM

数字生命卡兹克

Qwen3来了！新一代高性能与混合推理能力兼备的大语言模型！

阿里云正式发布通义千问Qwen3系列大模型，这一里程碑式更新在性能、训练规模和推理能力等多个维度实现重大突破。作为国产大模型的领军者，Qwen3不仅以2350亿参数的MoE架构刷新性能记录，更通过创新的"混合思考模式"和360万亿token的超大规模训练，成为当前性能领先的开源大语言模型。 1、Qwen3的性能表现Qwen3系列包含多个版本，涵盖MoE混合专家模型和Dense稠密模型。

4/30/2025 10:59:04 AM

性能与效率的双赢:Qwen3横空出世，MoE架构大幅降低部署成本

阿里云旗下通义千问（Qwen）团队正式发布Qwen3系列模型，共推出8款不同规格的模型，覆盖从移动设备到大型服务器的全部应用场景。这是国内首个全面超越DeepSeek R1的开源模型，也是首个配备混合思维模式的国产模型。模型阵容丰富，满足各类部署需求Qwen3系列包含6款Dense模型和2款MoE模型:Dense模型:0.6B、1.7B、4B、8B、14B、32BMoE模型:Qwen3-235B-A22B （总参数235B，激活参数22B）Qwen3-30B-A3B （总参数30B，激活参数3B）所有模型均支持128K上下文窗口，并配备了可手动控制的"thinking"开关，实现混合思维模式。

4/29/2025 4:00:41 PM

AI在线

深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

就在今天凌晨，备受全球期待的阿里新一代通义千问模型Qwen3开源！一经问世，它立刻登顶全球最强开源模型王座。它的参数量仅为DeepSeek-R1的1/3，但成本大幅下降，性能全面超越R1、OpenAI-o1等全球顶尖模型。

4/29/2025 8:14:14 AM

新智元

资讯热榜

全网刷屏的「电影感」三宫格图片，教你用AI快速生成！ OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务消息称软银批准对 OpenAI 追加 225 亿美元投资，助力未来上市 Transformer 之父“叛逃”：我已经受够了 Transformer！警告：AI研究变得越来越窄，我们需要找到新的架构谷歌地球整合 Gemini，大模型加持可识别风暴与干旱风险软银豪掷225亿美元加码OpenAI，AI音乐与超级融资计划全面提速 OpenAI进军音乐创作领域，携手茱莉亚学院学生打造全新AI音乐模型 OpenAI 收购苹果 “快捷指令” 原团队新创公司

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果腾讯 Stable Diffusion Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人研究 AI视频生成大语言模型具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习 DeepMind 架构生成式AI 编程视觉 Transformer 预测 AI模型伟达亚马逊 MCP