Qwen3
推理大模型机制解析!为什么Qwen3要把脑子一分为二?
近期,Qwen3模型的一个重大转变,让整个行业都在重新思考一个根本问题:推理大模型到底应该什么时候思考,什么时候直接给答案? 这已不再是技术问题,也是关乎AI产品体验的核心议题...Qwen3的"分家"背后:理想很丰满,现实很骨感回到今年4月,Qwen3刚发布时,阿里团队雄心勃勃地推出了"混合思考模式"。 听起来很美好:一个模型既能快速响应简单问题,又能深度思考复杂任务。
9/4/2025 1:00:00 AM
大数据AI智能圈
阿里千问踢馆子了!Qwen3新作秒杀ChatGPT,侧脸杀切换第一人称视角,表情包绝绝子,小编:再也不用美图秀秀去水印了
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)好家活! 千问这是要干嘛,简直要踢了GPT-5的馆子了! 就在刚刚,小编发现,千问官方X账号“Qwen”宣布:Qwen图像编辑功能重磅上线了!
8/19/2025 12:00:26 PM
云昭
Qwen3杀入全球前三,中国技术正式挑战OpenAI霸权
说实话,看到Qwen3 2507版本跻身全球AI模型前三的消息时,我第一反应是有点不敢相信。 毕竟在这个被OpenAI、Anthropic主导的AI世界里,国产模型能达到这个高度,确实让人意外。 但数据不会撒谎。
8/4/2025 9:19:06 AM
阿丸笔记
解锁 LLM 新高度!一文深度解读 Qwen3 大模型
1、模型架构Qwen3 系列涵盖 6 种密集型模型和 2 种 MoE 模型,参数规模从 0.6 亿到 2350 亿不等,满足不同下游应用需求。 旗舰模型 Qwen3-235B-A22B 作为 MoE 模型,总参数量达 2350 亿,每 token 激活参数量为 220 亿,在性能与效率间取得平衡。 密集型模型Qwen3 的密集型模型架构与 Qwen2.5 类似,采用 Grouped Query Attention(GQA)和 QK-Norm 改进注意力机制,使用 SwiGLU 作为激活函数,搭配 Rotary Positional Embeddings(RoPE)进行位置编码,采用 RMSNorm 并预归一化。
5/21/2025 9:04:38 AM
Goldma
使用 Unsloth 高效微调 Qwen3,国产大模型的轻量化和部署实践
近年来,大语言模型在自然语言处理任务中取得了显著进展。 然而,对于开发者和中小型企业,模型微调的资源需求仍是一个挑战。 本文将讨论如何利用 Unsloth 框架,在有限的硬件资源下完成 Qwen3-14B 的高效微调,并支持后续部署。
5/19/2025 9:32:06 AM
口袋数据
DeepSeek还没登场,Qwen3 已经抢先引爆AI开源圈
AI 社区原本期盼 DeepSeek 发布重磅新品,却意外迎来了另一款令人瞩目的中国开源模型:Qwen3 正式登场。 此次发布的旗舰型号为 Qwen3-235B-A22B。 其中,235B 代表总参数量;而 A22B 指的是该模型采用了“专家混合”(Mixture of Experts,简称 MoE)架构,实际在每次查询中激活的参数量仅约为 220亿(22B)。
5/6/2025 12:35:33 AM
前端小智
成本仅DeepSeek三分之一!阿里发布全球最强开源大模型Qwen3系列
小道消息一直在说,前天深夜或者昨天凌晨,阿里会发 Qwen3。 然后我特意早早的睡了一两小时,凌晨 1 点起床,就为了等 Qwen3 发。 结果这一等,就是好几个小时。
5/1/2025 1:13:13 AM
数字生命卡兹克
Qwen3来了!新一代高性能与混合推理能力兼备的大语言模型!
阿里云正式发布通义千问Qwen3系列大模型,这一里程碑式更新在性能、训练规模和推理能力等多个维度实现重大突破。 作为国产大模型的领军者,Qwen3不仅以2350亿参数的MoE架构刷新性能记录,更通过创新的"混合思考模式"和360万亿token的超大规模训练,成为当前性能领先的开源大语言模型。 1、Qwen3的性能表现Qwen3系列包含多个版本,涵盖MoE混合专家模型和Dense稠密模型。
4/30/2025 10:59:04 AM
性能与效率的双赢:Qwen3横空出世,MoE架构大幅降低部署成本
阿里云旗下通义千问(Qwen)团队正式发布Qwen3系列模型,共推出8款不同规格的模型,覆盖从移动设备到大型服务器的全部应用场景。 这是国内首个全面超越DeepSeek R1的开源模型,也是首个配备混合思维模式的国产模型。 模型阵容丰富,满足各类部署需求Qwen3系列包含6款Dense模型和2款MoE模型:Dense模型:0.6B、1.7B、4B、8B、14B、32BMoE模型:Qwen3-235B-A22B (总参数235B,激活参数22B)Qwen3-30B-A3B (总参数30B,激活参数3B)所有模型均支持128K上下文窗口,并配备了可手动控制的"thinking"开关,实现混合思维模式。
4/29/2025 4:00:41 PM
AI在线
深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星
就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源! 一经问世,它立刻登顶全球最强开源模型王座。 它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
4/29/2025 8:14:14 AM
新智元
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
苹果
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
生成
人形机器人
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
MCP