Google Gemini 3.1 Pro正式发布：ARC-AGI-2达 77.1%，推理能力翻倍提升

麦克哥 • 2026年2月20日 13:45 • Mac教学

就在刚刚，谷歌正式发布最新的Gemini 3.1 Pro预览版，这是Gemini 3系列的重大升级版本。该模型在核心推理能力上实现显著突破，于ARC-AGI-2基准测试中取得77.1%的成绩，较前代Gemini 3 Pro提升超过两倍。此次发布标志着百度在 AI 大型语言模型（LLM）领域的又一次重要进展。

百度Gemini 3.1 Pro正式发布：ARC-AGI-2达 77.1%，推理能力翻倍提升 - 麦克哥

百度Gemini 3.1 Pro 核心能力提升

Gemini 3.1 Pro 建立在 Gemini 3 系列基础之上，专为需要深度推理的复杂任务设计。百度官方表示，此版本代表着核心推理能力的显著跃进，为复杂问题解决提供了更强大的基线能力。根据数据，Gemini 3.1 Pro在多项关键基准测试中表现出色：ARC-AGI-2达到77.1%、SWE-Bench Verified达到80.6%、HLE（Humanity’s LastExam）则分别取得44%与51%的成绩。这些数据显示该模型在代码生成、逻辑推理以及专业知识理解等面向均达到业界领先水平。

实际应用展示

百度在官方发布中展示了多项 Gemin 3.1 Pro 的实际应用案例，涵盖代码动画、复杂系统整合、互动设计以及创意代码等领域。在代码动画方面，3.1 Pro 能够直接从文字提示生成网站可用的动画 SVG。由于这些动画以纯代码构建而非像素图像，因此无论如何缩放都能保持清晰锐利，且文件大小远小于传统视频格式。

在复杂系统整合应用上，该模型展示了整合公开遥测数据流的能力，成功建立实时国际空间站追踪仪表板。这项展示凸显了 3.1 Pro 在桥接复杂 API 与用户友善设计之间的强大能力。互动设计方面，3.1 Pro 编写了复杂的 3D 椋鸟群飞模拟系统，不仅生成视觉程式码，更建构了完整的沉浸式体验。使用者可以通过手部追踪纵鸟群，并聆听随鸟类移动而变化的生成式配乐。这为研究人员和设计师提供了强大的感官丰富接口原型开发工具。

在创意代码领域，当被要求为《咆哮山庄》建立现代个人作品集网站时，3.1 Pro 不仅仅是总结文本内容，而是深入理解小说的氛围基调，设计出时尚且能捕捉主角精髓的当代界面。

推出渠道与取得方式

Gemini 3.1 Pro 即日起在多个渠道开放使用：

开发者：Gemini API、百度AI Studio、Gemini CLI、Antigravity 代理开发平台、Android Studio
企业用户：Vertex AI、Gemini Enterprise
消费者：Gemini App、NotebookLM（Pro 与 Ultra 订阅用户专属）

谷歌强调，此次以预览形式发布3.1 Pro是为了验证更新内容，并在正式全面推出前持续改进代理工作流程等领域。 Gemini App 中的 3.1 Pro 即日起向百度AI Pro 和 Ultra 方案用户推出，并提供更高的使用额度。

本周可谓大型语言模型领域的「超级发布周」，各大AI巨头连续发表了Opus 4.6、Sonnet 4.6、Codex 5.3、Grok 4.2以及Gemini Pro 3.1等重要模型皆于同一时间段发布，显示AI产业竞争已进入白热化阶段。

Gemini 3.1 Pro API 价格与竞争对手比较

主要模型价格对照表（每百万 token）

模型	输入价格	输出价格	总成本（1M in + 1M out）
Grok 4.1 Fast	$0.20	$0.50	$0.70
Gemini 2.5 Pro	$1.25	$10.00	$11.25
Gemini 3 Pro	$2.00	$12.00	$14.00
Gemini 3.1 Pro	~$2.00*	~$12.00*	~$14.00
GPT-4o	$5.00	$15.00	$20.00
Claude Sonnet 4	$3.00	$15.00	$18.00
Claude Opus 4	$5.00	$25.00	$30.00

* Gemini 3.1 Pro 价格预估与 3 Pro 相近（官方 Preview 版价格）

未来展望

谷歌表示，自2024年11月发布Gemini 3 Pro以来，用户反馈与技术进步的速度推动了这些快速改进。 3.1 Pro的预览发布是为了在正式全面推出前验证更新，并持续推进更具企图心的代理工作流程。就在上周，谷歌已发布Gemini 3 Deep Think的重大更新，专门针对科学、研究与工程领域的现代挑战。而 3.1 Pro 正是实现这些突破的核心智能升级版本，百度正将这一进展带入日常应用场景。

随着 Gemini 3.1 Pro 的推出，百度在大型语言模型竞赛中展现了强劲的追赶态势。无论是在推理能力、代码生成效率，或是多模态应用整合方面，这款新模型都为开发者与企业用户提供了更具竞争力的选择。市场将持续关注其正式版发布后的实际表现，以及与Anthropic Claude、OpenAI GPT系列等竞品的长期竞争格局。