4 月 2 日 Google 发布 Gemma 4 时,开源社区的反应不是"又一个模型",而是"终于等到了"。不是因为它多强——虽然 31B 排全球开源第三确实强——而是因为 Apache 2.0 许可证。这意味着你可以把它塞进任何商业产品里,不用担心 Meta Llama 那种"月活过 7 亿要另谈"的限制。
这篇文章不讲论文、不念参数,直接告诉你:四个型号怎么选、怎么跑起来、适合干什么。
Gemma 4 技术架构:为什么这次不一样
Gemma 4 基于 Gemini 3 同源技术构建,但不是简单的缩小版。Google 在这代做了几件关键的事:
多模态原生支持:所有四个型号都原生支持视频和图像输入,支持可变分辨率。E2B 和 E4B 还支持音频输入——这意味着在手机上做语音识别不需要额外的 ASR 模型。
超长上下文窗口:边缘模型 128K,大模型 256K。256K 上下文足够你把一整个中型代码仓库塞进去做分析。
140+ 语言原生训练:不是后期微调的多语言,而是预训练阶段就覆盖了 140 多种语言。对做多语言产品的团队来说,这省掉了大量微调工作。
Apache 2.0 许可:这一条值得单独说。之前的 Gemma 用的是 Google 自定义许可,商用时需要小心条款。现在完全放开——fork、修改、商用、再分发,随便你。
为什么你应该关注 Gemma 4
如果你正在评估开源模型方案,Gemma 4 改变了选型的格局:
对比 Llama 4:Meta 的 Llama 4 Maverick 同样是 400B+ 级别的大模型,但 Llama 的许可证对月活超过 7 亿的产品有限制。Gemma 4 的 Apache 2.0 没有任何此类门槛。而且 Gemma 4 的 26B MoE 版本在推理效率上极具优势——更少的参数激活量,更低的延迟和成本。
对比 Qwen 3.5:阿里的千问 3.5 在中文场景确实很强,但 Gemma 4 原生支持 140+ 语言意味着在多语言场景下你不需要为每种语言单独适配。
对比自有 Gemini API:如果你现在在用 Gemini API,但被调用成本和数据隐私困扰,Gemma 4 让你用近似的技术栈自建推理服务,数据完全不出域。
实操指南:模型选型与部署
选型决策树
你的场景是什么?
├── 移动端/IoT → E2B(2B参数)
│ └── 需要语音输入?→ E2B 原生支持
├── 移动端主力模型 → E4B(4B参数)
│ └── 手机上的完整 AI 助手
├── 服务端,追求性价比 → 26B MoE
│ └── 单张 RTX 4090 可跑,Arena 全球第六
└── 服务端,追求最高性能 → 31B Dense
└── Arena 全球第三,需要 A100 级 GPU快速上手:用 Ollama 本地运行
最快的体验方式是用 Ollama:
# 安装 Ollama(如果还没有)
curl -fsSL https://ollama.com/install.sh | sh拉取 Gemma 4 26B MoE(推荐首选)
ollama pull gemma4:26b开始对话
ollama run gemma4:26b如果你的显存有限(8GB 以下),用 E4B:
ollama pull gemma4:e4b
ollama run gemma4:e4b用 Hugging Face Transformers 加载
from transformers import AutoModelForCausalLM, AutoTokenizermodel_name = "google/gemma-4-31b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype="auto",
)
prompt = "Explain the difference between MoE and dense models"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
用 vLLM 部署推理服务
# 安装 vLLM
pip install vllm启动 OpenAI 兼容的 API 服务
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-26b-moe \
--tensor-parallel-size 2 \
--max-model-len 131072这会在 http://localhost:8000 启动一个与 OpenAI API 完全兼容的推理服务,你的现有代码几乎不需要改动。
常见问题
Gemma 4 能在 Mac M 系列芯片上跑吗?
可以。E2B 和 E4B 都可以在 M2/M3/M4 的统一内存上流畅运行。26B MoE 需要至少 32GB 内存的 Mac。31B Dense 建议 64GB 以上。用 Ollama 或 MLX 框架都可以。
Gemma 4 和 Gemini API 有什么关系?用 Gemma 4 能达到 Gemini 的效果吗?
Gemma 4 和 Gemini 3 共享底层技术和训练方法,但 Gemini 的参数规模大得多。Gemma 4 31B 大约能达到 Gemini Pro 70-80% 的水平,但推理成本低一个数量级。对大多数应用来说这个差距完全可以接受。
Apache 2.0 意味着我可以用 Gemma 4 的输出来训练自己的模型吗?
可以。Apache 2.0 对模型输出没有任何限制。你可以用 Gemma 4 生成合成数据来训练你自己的模型,完全合法合规。这也是 Apache 2.0 比 Llama 许可证更友好的一个关键点。
JR Academy 相关资源
如果你想系统学习 AI 开发和大模型部署,这些资源可以帮到你:
- AI 全栈开发课程 — 从 API 调用到本地模型部署,完整覆盖 AI 应用开发全流程
- DevOps & Cloud 学习路线 — 掌握 GPU 服务器部署、容器化推理服务等基础设施技能,为本地大模型部署做好准备