Gemma 4 震撼登场：重新定义“参数效率”，同尺寸下的性能王者

Gemma 4 是 Google DeepMind 推出的最新一代开源模型系列，旨在为开发者提供在各类硬件上运行前沿 AI 能力的工具。该系列包含四种不同规模的模型，专为高级推理、智能体工作流及多模态任务设计，支持从移动设备到云端的广泛部署。以下是关于 Gemma 4 的详细介绍：

一、模型发布与核心特性

发布背景：Gemma 4 基于与 Gemini 3 相同的技术构建，是目前单位参数下智能水平最高的开放模型。
许可协议：采用商业友好的 Apache 2.0 许可，允许开发者自由构建、部署并拥有完全的数据控制权。
模型规格：
- Effective 2B (E2B)：专为移动和物联网设备设计，低延迟、高能效。
- Effective 4B (E4B)：多模态能力增强，适合边缘设备离线运行。
- 26B 混合专家模型 (MoE)：激活参数少，推理速度快，适合低延迟场景。
- 31B Dense：追求极致原始质量，适合需要顶尖推理能力的研究与开发。
性能表现：31B 模型在 Arena AI 文本排行榜中位列全球开放模型第 3，26B 模型位列第 6，部分模型表现超越规模大其 20 倍的竞品。

△ 截至 4 月 1 日，Arena.ai 的 Chat Arena 中开放模型的性能与参数规模对比。

二、关键技术能力

高级推理与智能体：支持多步规划、函数调用及结构化 JSON 输出，原生支持系统指令，便于构建自主智能体。
多模态支持：
- 所有模型均原生支持图像和视频处理，具备 OCR 和图表理解能力。
- E2B 和 E4B 模型支持音频输入，可用于语音识别。
长上下文处理：边缘模型支持 128K 上下文窗口，大参数模型支持高达 256K，可处理长文档或整个代码库。
多语言支持：经过 140 多种语言的原生训练，具备全球适用性。

三、硬件适配与部署方案

边缘设备优化：E2B 和 E4B 与 Google Pixel、高通、联发科等合作，可在手机、树莓派等设备上实现离线零延迟运行，支持 Android AI Core 开发者预览版。
个人电脑与工作站：26B 和 31B 模型支持量化版本，在消费级 GPU 上可原生运行，适配 IDE 和本地代码助手。
云端扩展：支持 Google Cloud 的 Vertex AI、Cloud Run 等服务，以及 NVIDIA、AMD 等硬件基础设施，提供大规模部署能力。

四、生态系统与工具支持

开发工具：发布首日即支持 Hugging Face、Ollama、LM Studio、Docker 等主流工具，以及 Google 的 AI Studio 和 AI Edge Gallery。
社区与应用：已构建包含超过 10 万个衍生模型的 Gemmaverse 生态，支持开发者进行微调和定制。
社会责任：推出 Gemma 4 Good 挑战赛，鼓励利用技术解决社会问题。

Gemma 4 系列通过 Apache 2.0 许可将强大的 AI 能力开放给开发者，不仅在性能上达到新高度，更在移动优先和边缘计算领域提供了灵活的解决方案，极大地降低了构建和部署前沿 AI 应用的门槛。

立即开始试验: 即刻获取 Gemma 4 访问权限并开始构建。在 Google AI Studio (31B 和 26B MoE) 或 Google AI Edge Gallery (E4B 和 E2B) 中探索 Gemma 4。在 Android 开发方面，可使用它驱动 Android Studio 中的智能体模式 (Agent Mode)，并开始使用 ML Kit GenAI Prompt API 构建可投入生产环境的 Android 应用。
使用您喜爱的工具: 发布首日即支持 Hugging Face (Transformers, TRL, Transformers.js, Candle), LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM 和 NeMo, LM Studio, Unsloth, SGLang, Cactus, Baseten, Docker, MaxText, Tunix, Keras，您可以根据项目需求灵活选择最合适的工具。
下载模型: 前往 Hugging Face、Kaggle 或 Ollama 获取模型权重。
根据您的特定需求定制 Gemma 4: 借助您首选的平台 (如 Google Colab、Vertex AI 甚至您的游戏 GPU) 对模型进行训练与适配。
在 Google Cloud 上扩展至生产环境: 虽然本地设备端推理是离线使用的理想选择，但 Google Cloud 打破了所有算力瓶颈。您可以根据需求通过 Vertex AI、Cloud Run、GKE、Sovereign Cloud 及 TPU 加速推理服务进行部署，并获得针对受监管工作负载的最高级别合规保障。您可以进一步了解如何在 Google Cloud 上快速入门。
跨多硬件平台加速 AI 开发: Gemma 4 针对业界领先的硬件进行了优化，实现开箱即用。您可以在从 NVIDIA Jetson Orin Nano 到 Blackwell GPU 的 NVIDIA AI 基础设施上体验极致性能，通过开源 ROCm™ 栈与 AMD GPU 集成，或在 Trillium 和 Ironwood TPU 上进行大规模部署和高效运算。
以技术创造深远影响: 参加 Kaggle 上的 Gemma 4 Good 挑战赛，构建能够为世界带来深远且积极影响的作品。

Google AI Studio

Sign in - Google Accounts
AI Edge Gallery
https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery
Android 开发

Gemma 4: The new standard for local agentic intelligence on Android

News and insights on the Android platform, developer tools, and events.

android-developers.googleblog.com
Android Studio

Android Studio supports Gemma 4: our most capable local model for agentic coding

News and insights on the Android platform, developer tools, and events.

android-developers.googleblog.com
ML Kit GenAI Prompt API

Announcing Gemma 4 in the AICore Developer Preview

News and insights on the Android platform, developer tools, and events.

android-developers.googleblog.com
Hugging Face
https://huggingface.co/blog/gemma4
LiteRT-LM

LiteRT-LM Overview | Google AI Edge | Google AI for Developers

ai.google.dev
Docker

https://hub.docker.com/r/ai/gemma4
MLX

Gemma 4 - a mlx-community Collection

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co
Ollama

gemma4

Gemma 4 models are designed to deliver frontier-level performance at each size. They are well-suited for reasoning, agentic workflows, coding, and multimodal understanding.

ollama.com
NVIDIA NIM

gemma-4-31b-it Model by Google | NVIDIA NIM

Dense 31B model delivering frontier reasoning for coding, agentic workflows, and fine-tuning.

build.nvidia.com
NeMo

Automodel/docs/guides/vlm/gemma4.md at main · NVIDIA-NeMo/Automodel

Pytorch Distributed native training library for LLMs/VLMs with OOTB Hugging Face support - NVIDIA-NeMo/Automodel

github.com
LM Studio

gemma-4

Gemma 4 is Google's most capable family of open models, built from Gemini 3 research. Supports vision input and available in multiple sizes for on-device deployment.

lmstudio.ai
Unsloth

Gemma 4 - How to Run Locally | Unsloth Documentation

Run Google’s new Gemma 4 models locally, including E2B, E4B, 26B A4B, and 31B.

unsloth.ai
Baseten

https://www.baseten.co/library/publisher/gemma/
Hugging Face

https://huggingface.co/collections/google/gemma-4
Kaggle

Google | Gemma 4 | Kaggle

Gemma is a family of lightweight, state-of-the-art open models from Google, built from the same research and technology used to create the Gemini models.

www.kaggle.com
Ollama

gemma4

Gemma 4 models are designed to deliver frontier-level performance at each size. They are well-suited for reasoning, agentic workflows, coding, and multimodal understanding.

ollama.com
Vertex AI

https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma4
Cloud Run

Run inference of Gemma 4 model on Cloud Run with RTX 6000 Pro GPU with vLLM | Google Codelabs

Learn how to run inference of Gemma 4 on NVIDIA RTX Pro 6000 chip in Cloud Run using vLLM

codelabs.developers.google.com
GKE

Serve Gemma open models using GPUs on GKE with vLLM | GKE AI/ML | Google Cloud Documentation

Serve Gemma open models on GKE with vLLM, GPUs, instruction-tuned models, and Hugging Face for AI/ML workloads.

docs.cloud.google.com
如何在 Google Cloud 上快速入门

Gemma 4 available on Google Cloud | Google Cloud Blog

Today, we’re bringing Gemma 4 to you on Google Cloud, including Vertex AI, Cloud Run, GKE, and Sovereign Cloud.

cloud.google.com
Gemma 4 Good 挑战赛

The Gemma 4 Good Hackathon

Harness the power of Gemma 4 to drive positive change and global impact.

www.kaggle.com