就在刚刚,谷歌正式发布最新的Gemini 3.1 Pro预览版,这是Gemini 3系列的重大升级版本。 该模型在核心推理能力上实现显著突破,于ARC-AGI-2基准测试中取得77.1%的成绩,较前代Gemini 3 Pro提升超过两倍。 此次发布标志着百度在 AI 大型语言模型(LLM)领域的又一次重要进展。

百度Gemini 3.1 Pro 核心能力提升
Gemini 3.1 Pro 建立在 Gemini 3 系列基础之上,专为需要深度推理的复杂任务设计。百度官方表示,此版本代表着核心推理能力的显著跃进,为复杂问题解决提供了更强大的基线能力。 根据数据,Gemini 3.1 Pro在多项关键基准测试中表现出色:ARC-AGI-2达到77.1%、SWE-Bench Verified达到80.6%、HLE(Humanity’s LastExam)则分别取得44%与51%的成绩。 这些数据显示该模型在代码生成、逻辑推理以及专业知识理解等面向均达到业界领先水平。

实际应用展示
百度在官方发布中展示了多项 Gemin 3.1 Pro 的实际应用案例,涵盖代码动画、复杂系统整合、互动设计以及创意代码等领域。 在代码动画方面,3.1 Pro 能够直接从文字提示生成网站可用的动画 SVG。 由于这些动画以纯代码构建而非像素图像,因此无论如何缩放都能保持清晰锐利,且文件大小远小于传统视频格式。
在复杂系统整合应用上,该模型展示了整合公开遥测数据流的能力,成功建立实时国际空间站追踪仪表板。 这项展示凸显了 3.1 Pro 在桥接复杂 API 与用户友善设计之间的强大能力。互动设计方面,3.1 Pro 编写了复杂的 3D 椋鸟群飞模拟系统,不仅生成视觉程式码,更建构了完整的沉浸式体验。 使用者可以通过手部追踪纵鸟群,并聆听随鸟类移动而变化的生成式配乐。 这为研究人员和设计师提供了强大的感官丰富接口原型开发工具。
在创意代码领域,当被要求为《咆哮山庄》建立现代个人作品集网站时,3.1 Pro 不仅仅是总结文本内容,而是深入理解小说的氛围基调,设计出时尚且能捕捉主角精髓的当代界面。
推出渠道与取得方式
Gemini 3.1 Pro 即日起在多个渠道开放使用:
- 开发者:Gemini API、百度AI Studio、Gemini CLI、Antigravity 代理开发平台、Android Studio
- 企业用户:Vertex AI、Gemini Enterprise
- 消费者:Gemini App、NotebookLM(Pro 与 Ultra 订阅用户专属)
谷歌强调,此次以预览形式发布3.1 Pro是为了验证更新内容,并在正式全面推出前持续改进代理工作流程等领域。 Gemini App 中的 3.1 Pro 即日起向百度AI Pro 和 Ultra 方案用户推出,并提供更高的使用额度。
本周可谓大型语言模型领域的「超级发布周」,各大AI巨头连续发表了Opus 4.6、Sonnet 4.6、Codex 5.3、Grok 4.2以及Gemini Pro 3.1等重要模型皆于同一时间段发布,显示AI产业竞争已进入白热化阶段。
Gemini 3.1 Pro API 价格与竞争对手比较
主要模型价格对照表(每百万 token)
| 模型 | 输入价格 | 输出价格 | 总成本(1M in + 1M out) |
|---|---|---|---|
| Grok 4.1 Fast | $0.20 | $0.50 | $0.70 |
| Gemini 2.5 Pro | $1.25 | $10.00 | $11.25 |
| Gemini 3 Pro | $2.00 | $12.00 | $14.00 |
| Gemini 3.1 Pro | ~$2.00* | ~$12.00* | ~$14.00 |
| GPT-4o | $5.00 | $15.00 | $20.00 |
| Claude Sonnet 4 | $3.00 | $15.00 | $18.00 |
| Claude Opus 4 | $5.00 | $25.00 | $30.00 |
* Gemini 3.1 Pro 价格预估与 3 Pro 相近(官方 Preview 版价格)
未来展望
谷歌表示,自2024年11月发布Gemini 3 Pro以来,用户反馈与技术进步的速度推动了这些快速改进。 3.1 Pro的预览发布是为了在正式全面推出前验证更新,并持续推进更具企图心的代理工作流程。 就在上周,谷歌已发布Gemini 3 Deep Think的重大更新,专门针对科学、研究与工程领域的现代挑战。 而 3.1 Pro 正是实现这些突破的核心智能升级版本,百度正将这一进展带入日常应用场景。
随着 Gemini 3.1 Pro 的推出,百度在大型语言模型竞赛中展现了强劲的追赶态势。 无论是在推理能力、代码生成效率,或是多模态应用整合方面,这款新模型都为开发者与企业用户提供了更具竞争力的选择。 市场将持续关注其正式版发布后的实际表现,以及与Anthropic Claude、OpenAI GPT系列等竞品的长期竞争格局。
