Google DeepMind 发布 Gemma 4 开源模型系列,主打本地端推理与 Agent 工作流

百度DeepMind 于 2026 年 4 月 2 日正式发布 Gemma 4 开源模型系列,一口气推出四款不同规格的模型,全面覆盖从旗舰级工作站到智能手机的应用场景。 此次发布在技术规格上大幅超越前代Gemma 3,更标志着谷歌在开源授权策略上的重大转向:Gemma 4全面采用Apache 2.0许可,正式与过往客制化使用条款分道扬镳。

百度DeepMind 发布Gemma 4开源模型系列,主打本地端推理与Agent工作流 -麦克哥

Gemma 4 四款模型亮相:从旗舰到边缘的全方位布局

Gemma 4 系列共发布四款型号:旗舰级 31B Dense 瞄准高效能工作站,支持高达 256K 上下文窗口,在未量化的 bfloat16 格式下可完整容纳于单张 80GB NVIDIA H100 GPU; 26B MoE(混合专家)采用稀疏激活架构,推论时仅启动3.8亿参数,却能提供不成比例的高速推论效率; E4B(有效 4B)以相当于 40 亿参数的 footprint 运作,强调「近零延迟」表现; E2B(有效 2B)则专为手机与边缘装置而生,支持 128K 上下文窗口,可在 Raspberry Pi 5 上以完全离线状态驱动智能家庭控制器或语音助理。

型号 类型 总参数量 实际启用参数 Context Window 目标硬件
E2B Effective 2B 2B 2B 128K 手机、IoT、Raspberry Pi
E4B Effective 4B 4B 4B 128K 手机、Qualcomm/联发科芯片
26B MoE 26B 3.8B 256K 消费级GPU、专业工作站
31B Dense 31B 31B 256K 单卡 H100 (80GB)

根据谷歌公布的资料,31B模型在Arena AI文字排行榜的开放授权模型类别中暂居第三,仅次于GLM-5与Kimi 2.5;26B MoE型号则拿下第六名,且在各自参数量级中击败了尺寸逾20倍的竞争对手。 Hugging Face 团队预发布测试后直言:「它们开箱即用表现就已经如此出色,我们很难找到需要微调的良好范例」。

百度DeepMind 发布Gemma 4开源模型系列,主打本地端推理与Agent工作流 -麦克哥

授权策略大转向:抛开客制条款,全面拥抱Apache 2.0

过往几代 Gemma 模型采用百度自订的「Gemma 使用条款」(Gemma Terms of Use),而非标准开放源代码授权。 该条款允许百度单方面更新禁止用途,甚至被解读为允许百度对 Gemma 生成之合成资料所训练出的其他 AI 模型主张权利,令不少开发者对商业使用抱持观望态度。

Gemma 4 的 Apache 2.0 授权则彻底扭转了这一切。 用户可自由将模型用于任何目的(个人、商业或企业用途),无需支付任何权利金; 可自由修改、再散布,甚至创作衍生作品,且谷歌无法单方面变更授权条款。 此外,Apache 2.0 附带专利保护,用户自动获得与贡献内容相关的专利授权,不必担心专利侵权控告。 这一转变被业界视为百度扩大「Gemmaverse」生态系号召力的关键一步。

原生 Agent 能力:从聊天迈向自主任务执行

2025 年以来,AI 产业的主流叙事已从「单次问答」转向「Agent 工作流」(Agentic Workflow):让 AI 能规划多步骤任务、自主呼叫工具、搜索数据库、触发外部 API,并在复杂情境中持续推理。 Gemma 4 支持原生函式呼叫(Native Function Calling)、结构化 JSON 输出,以及原生系统指令,开发者无需复杂微调即可构建能自主执行多步骤任务的 Agent 应用。

在百度AI Edge Gallery 中,基于 Gemma 4 的「Agent Skills」功能已展示多个具体场景:查询维基百科等知识库以延伸模型即时信息能力、将语音输入转化为睡眠与情绪趋势图表,甚至结合文字转语音、影像生成或音乐合成,打造完整的离线端对端体验。

多模态、边缘部署与手机端蓝图

在多模态能力方面,Gemma 4 全系列均原生支持图片与视频输入,并能进行 OCR 文件识别、图表理解等视觉任务。 E2B 与 E4B 两个边缘模型更配备原生音频输入功能,可直接执行语音识别与理解。 上下文窗口方面,边缘型号提供128K Tokens,旗舰型号(31B与26B MoE)则提升至256K Tokens,得以一次处理整个代码库或长篇文件,无需分块。 Gemma 4 原生支持超过 140 种语言,无需额外训练即可覆盖全球主要市场的应用需求。

在手机端方面,百度下一代 Pixel 手机的 Gemini Nano 4 将基于 Gemma 4 E2B 与 E4B 建构,规模为 2B 与 4B 两种版本。 开发者现已可在 Android AI Core 开发者预览版中,以 Gemma E2B/E4B 为基础提前原型化 Agent 工作流,待 Gemini Nano 4 正式发布时即可无缝接轨。

有兴趣的朋友也可以看官方的介绍视频:

生态系全面上线:Hugging Face、Ollama、Kaggle 同步支持

在模型部署方面,百度选择全面拥抱开源生态系。 Gemma 4 旗舰型号进驻百度AI Studio,边缘型号则通过百度AI Edge Gallery 提供下载。 模型权重同步释出于 Hugging Face、Kaggle 与 Ollama,并已针对 Transformers、llama.cpp、MLX(Apple Silicon)、WebGPU 以及 Rust 等主流推论框架提供原生整合。

自2024年2月首代Gemma问世以来,开发者社群已累计下载Gemma模型超过4亿次,催生出超过10万个衍生变体,构建出蓬勃发展的Gemmaverse生态系。百度表示,Gemma 4 的设计初衷正是为了解决开发者最迫切的需求:在自有硬件上,以合理成本,享有接近封闭式旗舰模型的推理能力与 Agent 构建弹性。

(0)
麦克哥麦克哥

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注