谷歌“Wi-Fi密码”式的最瘦大模型

作者：文摘菌 2025-04-24 02:13

Gemma 3 的“低门槛 AI”计划露面了，谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。 —Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码，其实却是谷歌迄今为止最精简的大模型是的，不再只属于高端服务器和土豪显卡，普通玩家的游戏卡，甚至手机，都能一试身手。这波操作的核心是三个字：量化训练（Quantization-Aware Training, QAT）。

Gemma 3 的“低门槛 AI”计划露面了，谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。

—Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码，其实却是谷歌迄今为止最精简的大模型

是的，不再只属于高端服务器和土豪显卡，普通玩家的游戏卡，甚至手机，都能一试身手。

这波操作的核心是三个字：量化训练（Quantization-Aware Training, QAT）。

为什么量化训练让 AI 变“亲民”？

以前的 Gemma 3需要“天花板配置”：NVIDIA H100，BFloat16 精度，普通人家根本用不起。

而这次，Google 把量化训练用到了极致。简单说，就是让模型在训练阶段就习惯低精度（比如 int4、int8），以后部署时直接“瘦身”，几乎不掉智商。

图片

显存节省效果非常明显。以 27B 参数的模型为例，原本需要 54 GB 的显存，在 int4（4 位整型）格式下只需 14.1 GB；12B 版本从 24 GB 降到了 6.6 GB。即便是小尺寸模型也受益明显：4B 版本仅需 2.6 GB，1B 版本甚至只要 0.5 GB 显存。

量化训练的“魔法”到底在哪里？

普通的量化是什么？后处理。模型训完了，直接把参数压缩成低精度，代价就是：掉分，掉智商。

Google 这次玩的是 QAT —— 训练过程直接让模型在低精度环境下“吃苦头”，提前适应精度损失。Google 自己也说了：“因为 QAT，这些模型对量化鲁棒，性能和原版近乎持平。”

当然，benchmark 数据没公开，多少有点卖关子，但社区已经开始实测和玩梗。

不过，仅看显存和推理速度的变化，这次量化训练确实把大模型带进了“民用领域”。

OpenAI员工疯狂暗示，内部已成功开发ASI？被曝训出GPT-5但雪藏

种种迹象表明，最近OpenAI似乎发生了什么大事。 AI研究员Gwern Branwen发布了一篇关于OpenAI o3、o4、o5的文章。根据他的说法，OpenAI已经跨越了临界点，达到了「递归自我改进」的门槛——o4或o5能自动化AI研发，完成剩下的工作！

1/20/2025 7:30:00 AM

新智元

多活十年！OpenAI为研究长寿推出GPT-4b，联手清华大牛丁胜搞“细胞重编程”，奥特曼本人投资

OpenAI要研究人类长寿问题了？？推出新模型GPT-4b micro。

1/20/2025 9:38:00 AM

量子位

返老还童，OpenAI做到了？首个逆龄AI将登场，人类寿命可延长10年

超级智能要来了？人类「长生不老」有希望了？外媒称，OpenAI开发出了首款用于「长寿」的AI模型 ——GPT-4b micro，预计将人类寿命延长10年。

1/20/2025 9:13:00 AM

新智元