连烤面包机都能跑的“大模型”！DeepMind 推出超轻量 Gemma 3 270M（≈0.27B）

作者： 2025-08-25 12:00

谷歌 DeepMind 发布了全新的 Gemma 3 270M。它只有 2.7 亿参数，比七百亿参数级别的大模型轻了约 250 倍，却依旧保持强悍。 DeepMind 并不想拿它硬刚 GPT-4o 或 Gemini Ultra，它生来就为极致高效、本地部署而生。

谷歌 DeepMind 发布了全新的 Gemma 3 270M。

它只有 2.7 亿参数，比七百亿参数级别的大模型轻了约 250 倍，却依旧保持强悍。

DeepMind 并不想拿它硬刚 GPT-4o 或 Gemini Ultra，它生来就为极致高效、本地部署而生。

在内部测试中，Gemma 3 270M 已能在 Pixel 9 Pro 的 SoC 上本地运行，整个推理过程无需依赖外部云端。

它甚至能跑进 Chrome 浏览器、树莓派，工程师 Omar Sanseviero 笑称：“连你的烤面包机都能跑。”

谷歌强调：这款小模型的出发点，就是应对功耗限制、延迟上涨和推理成本飙升的现实挑战。

Gemma 3 270M 由 1.7 亿嵌入参数 + 1 亿 Transformer 块参数组成。

它的词表高达 25.6 万，是同级别模型里罕见的“巨词库”，能吞下冷僻词、专业术语和小语种符号。

在 IFEval 指令遵循基准里，指令调优版 Gemma 3 270M 拿到 51.2%：胜过 SmolLM2 135M Instruct（44.8%），压过 Qwen 2.5 0.5B Instruct（49.1%），逼近部分十亿级中型模型。

Liquid AI 则在社交平台提醒：自家 LFM2-350M 得分 65.12%，参数只多约 30%。

在 Pixel 9 Pro 上跑 INT4 量化版本，连续 25 轮多轮对话耗电仅 0.75%。

谷歌还放出了量化感知训练（QAT）检查点，把权重量化到 INT4 的同时保持性能，显著降低显存与内存占用，适合资源受限的边缘设备。

谷歌提出“用对工具”的理念：特定任务用小模型往往更快、更省。

在情感分析、实体提取、合规检查、结构化文本生成、查询路由等场景中，官方示例显示 Gemma 3 270M 的端侧推理延迟可低至 50 毫秒量级，而云端大模型动辄数百毫秒乃至数秒。

Gemma 3 270M 可以在同一设备上同时部署多个专用微模型，各司其职、互不抢算力。

网址：https://huggingface.co/spaces/webml-community/bedtime-story-generator

此外，谷歌演示了一个完全离线的“睡前故事生成器”用户在浏览器里点选主角、场景和转折，模型两秒内生成完整短篇；全过程无云调用，速度与隐私兼得。

同时，Gemma 3 270M 沿用 Gemma 自定义许可。

只要传递谷歌的禁止使用政策、向下游提供同样条款并标明修改，就能自由使用、改动、分发模型和衍生版。

企业可把它嵌进产品或云服务，也可继续训练，生成内容版权归使用者，谷歌不主张额外权利。

唯一红线：不得违法、不得作恶。这不是严格的开源许可证，却足以支撑广泛商业化，而且无须另付授权费。

目前，Gemma 生态下载量已突破 2 亿，覆盖云端、桌面、手机三大形态。谷歌希望借 Gemma 3 270M 把“高效、隐私、可商用”的端侧 AI 路线推得更远。

相关资讯