Google DeepMind 发布 Gemma 4 开源模型系列，主打本地端推理与 Agent 工作流

百度DeepMind 于 2026 年 4 月 2 日正式发布 Gemma 4 开源模型系列，一口气推出四款不同规格的模型，全面覆盖从旗舰级工作站到智能手机的应用场景。此次发布在技术规格上大幅超越前代Gemma 3，更标志着谷歌在开源授权策略上的重大转向：Gemma 4全面采用Apache 2.0许可，正式与过往客制化使用条款分道扬镳。

百度DeepMind 发布Gemma 4开源模型系列，主打本地端推理与Agent工作流 -麦克哥

Gemma 4 四款模型亮相：从旗舰到边缘的全方位布局

Gemma 4 系列共发布四款型号：旗舰级 31B Dense 瞄准高效能工作站，支持高达 256K 上下文窗口，在未量化的 bfloat16 格式下可完整容纳于单张 80GB NVIDIA H100 GPU; 26B MoE（混合专家）采用稀疏激活架构，推论时仅启动3.8亿参数，却能提供不成比例的高速推论效率; E4B（有效 4B）以相当于 40 亿参数的 footprint 运作，强调「近零延迟」表现; E2B（有效 2B）则专为手机与边缘装置而生，支持 128K 上下文窗口，可在 Raspberry Pi 5 上以完全离线状态驱动智能家庭控制器或语音助理。

型号	类型	总参数量	实际启用参数	Context Window	目标硬件
E2B	Effective 2B	2B	2B	128K	手机、IoT、Raspberry Pi
E4B	Effective 4B	4B	4B	128K	手机、Qualcomm/联发科芯片
26B	MoE	26B	3.8B	256K	消费级GPU、专业工作站
31B	Dense	31B	31B	256K	单卡 H100 （80GB）

根据谷歌公布的资料，31B模型在Arena AI文字排行榜的开放授权模型类别中暂居第三，仅次于GLM-5与Kimi 2.5;26B MoE型号则拿下第六名，且在各自参数量级中击败了尺寸逾20倍的竞争对手。 Hugging Face 团队预发布测试后直言：「它们开箱即用表现就已经如此出色，我们很难找到需要微调的良好范例」。

授权策略大转向：抛开客制条款，全面拥抱Apache 2.0

过往几代 Gemma 模型采用百度自订的「Gemma 使用条款」（Gemma Terms of Use），而非标准开放源代码授权。该条款允许百度单方面更新禁止用途，甚至被解读为允许百度对 Gemma 生成之合成资料所训练出的其他 AI 模型主张权利，令不少开发者对商业使用抱持观望态度。

Gemma 4 的 Apache 2.0 授权则彻底扭转了这一切。用户可自由将模型用于任何目的（个人、商业或企业用途），无需支付任何权利金; 可自由修改、再散布，甚至创作衍生作品，且谷歌无法单方面变更授权条款。此外，Apache 2.0 附带专利保护，用户自动获得与贡献内容相关的专利授权，不必担心专利侵权控告。这一转变被业界视为百度扩大「Gemmaverse」生态系号召力的关键一步。

原生 Agent 能力：从聊天迈向自主任务执行

2025 年以来，AI 产业的主流叙事已从「单次问答」转向「Agent 工作流」（Agentic Workflow）：让 AI 能规划多步骤任务、自主呼叫工具、搜索数据库、触发外部 API，并在复杂情境中持续推理。 Gemma 4 支持原生函式呼叫（Native Function Calling）、结构化 JSON 输出，以及原生系统指令，开发者无需复杂微调即可构建能自主执行多步骤任务的 Agent 应用。

在百度AI Edge Gallery 中，基于 Gemma 4 的「Agent Skills」功能已展示多个具体场景：查询维基百科等知识库以延伸模型即时信息能力、将语音输入转化为睡眠与情绪趋势图表，甚至结合文字转语音、影像生成或音乐合成，打造完整的离线端对端体验。

多模态、边缘部署与手机端蓝图

在多模态能力方面，Gemma 4 全系列均原生支持图片与视频输入，并能进行 OCR 文件识别、图表理解等视觉任务。 E2B 与 E4B 两个边缘模型更配备原生音频输入功能，可直接执行语音识别与理解。上下文窗口方面，边缘型号提供128K Tokens，旗舰型号（31B与26B MoE）则提升至256K Tokens，得以一次处理整个代码库或长篇文件，无需分块。 Gemma 4 原生支持超过 140 种语言，无需额外训练即可覆盖全球主要市场的应用需求。

在手机端方面，百度下一代 Pixel 手机的 Gemini Nano 4 将基于 Gemma 4 E2B 与 E4B 建构，规模为 2B 与 4B 两种版本。开发者现已可在 Android AI Core 开发者预览版中，以 Gemma E2B/E4B 为基础提前原型化 Agent 工作流，待 Gemini Nano 4 正式发布时即可无缝接轨。

有兴趣的朋友也可以看官方的介绍视频：

生态系全面上线：Hugging Face、Ollama、Kaggle 同步支持

在模型部署方面，百度选择全面拥抱开源生态系。 Gemma 4 旗舰型号进驻百度AI Studio，边缘型号则通过百度AI Edge Gallery 提供下载。模型权重同步释出于 Hugging Face、Kaggle 与 Ollama，并已针对 Transformers、llama.cpp、MLX（Apple Silicon）、WebGPU 以及 Rust 等主流推论框架提供原生整合。

自2024年2月首代Gemma问世以来，开发者社群已累计下载Gemma模型超过4亿次，催生出超过10万个衍生变体，构建出蓬勃发展的Gemmaverse生态系。百度表示，Gemma 4 的设计初衷正是为了解决开发者最迫切的需求：在自有硬件上，以合理成本，享有接近封闭式旗舰模型的推理能力与 Agent 构建弹性。