AIGC宇宙 AIGC宇宙

谷歌“Wi-Fi密码”式的最瘦大模型

作者:文摘菌
2025-04-24 02:13
Gemma 3 的“低门槛 AI”计划露面了,谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。 —Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码,其实却是谷歌迄今为止最精简的大模型是的,不再只属于高端服务器和土豪显卡,普通玩家的游戏卡,甚至手机,都能一试身手。 这波操作的核心是三个字:量化训练(Quantization-Aware Training, QAT)。

Gemma 3 的“低门槛 AI”计划露面了,谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。

—Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码,其实却是谷歌迄今为止最精简的大模型

是的,不再只属于高端服务器和土豪显卡,普通玩家的游戏卡,甚至手机,都能一试身手。

这波操作的核心是三个字:量化训练(Quantization-Aware Training, QAT)。

为什么量化训练让 AI 变“亲民”?

以前的 Gemma 3需要“天花板配置”:NVIDIA H100,BFloat16 精度,普通人家根本用不起。

而这次,Google 把量化训练用到了极致。简单说,就是让模型在训练阶段就习惯低精度(比如 int4、int8),以后部署时直接“瘦身”,几乎不掉智商。

图片图片

显存节省效果非常明显。以 27B 参数的模型为例,原本需要 54 GB 的显存,在 int4(4 位整型)格式下只需 14.1 GB;12B 版本从 24 GB 降到了 6.6 GB。即便是小尺寸模型也受益明显:4B 版本仅需 2.6 GB,1B 版本甚至只要 0.5 GB 显存。

量化训练的“魔法”到底在哪里?

普通的量化是什么?后处理。模型训完了,直接把参数压缩成低精度,代价就是:掉分,掉智商。

Google 这次玩的是 QAT —— 训练过程直接让模型在低精度环境下“吃苦头”,提前适应精度损失。Google 自己也说了:“因为 QAT,这些模型对量化鲁棒,性能和原版近乎持平。”

当然,benchmark 数据没公开,多少有点卖关子,但社区已经开始实测和玩梗。

不过,仅看显存和推理速度的变化,这次量化训练确实把大模型带进了“民用领域”。

相关标签:

相关资讯

OpenAI员工疯狂暗示,内部已成功开发ASI?被曝训出GPT-5但雪藏

种种迹象表明,最近OpenAI似乎发生了什么大事。 AI研究员Gwern Branwen发布了一篇关于OpenAI o3、o4、o5的文章。 根据他的说法,OpenAI已经跨越了临界点,达到了「递归自我改进」的门槛——o4或o5能自动化AI研发,完成剩下的工作!
1/20/2025 7:30:00 AM
新智元

多活十年!OpenAI为研究长寿推出GPT-4b,联手清华大牛丁胜搞“细胞重编程”,奥特曼本人投资

OpenAI要研究人类长寿问题了? ? 推出新模型GPT-4b micro。
1/20/2025 9:38:00 AM
量子位

返老还童,OpenAI做到了?首个逆龄AI将登场,人类寿命可延长10年

超级智能要来了? 人类「长生不老」有希望了? 外媒称,OpenAI开发出了首款用于「长寿」的AI模型 ——GPT-4b micro,预计将人类寿命延长10年。
1/20/2025 9:13:00 AM
新智元
  • 1