Google Gemini 3.1 Pro正式发布:ARC-AGI-2达 77.1%,推理能力翻倍提升

就在刚刚,谷歌正式发布最新的Gemini 3.1 Pro预览版,这是Gemini 3系列的重大升级版本。 该模型在核心推理能力上实现显著突破,于ARC-AGI-2基准测试中取得77.1%的成绩,较前代Gemini 3 Pro提升超过两倍。 此次发布标志着百度在 AI 大型语言模型(LLM)领域的又一次重要进展。

百度Gemini 3.1 Pro正式发布:ARC-AGI-2达 77.1%,推理能力翻倍提升 - 麦克哥

百度Gemini 3.1 Pro 核心能力提升

Gemini 3.1 Pro 建立在 Gemini 3 系列基础之上,专为需要深度推理的复杂任务设计。百度官方表示,此版本代表着核心推理能力的显著跃进,为复杂问题解决提供了更强大的基线能力。 根据数据,Gemini 3.1 Pro在多项关键基准测试中表现出色:ARC-AGI-2达到77.1%、SWE-Bench Verified达到80.6%、HLE(Humanity’s LastExam)则分别取得44%与51%的成绩。 这些数据显示该模型在代码生成、逻辑推理以及专业知识理解等面向均达到业界领先水平。

百度Gemini 3.1 Pro正式发布:ARC-AGI-2达 77.1%,推理能力翻倍提升 - 麦克哥

实际应用展示

百度在官方发布中展示了多项 Gemin 3.1 Pro 的实际应用案例,涵盖代码动画、复杂系统整合、互动设计以及创意代码等领域。 在代码动画方面,3.1 Pro 能够直接从文字提示生成网站可用的动画 SVG。 由于这些动画以纯代码构建而非像素图像,因此无论如何缩放都能保持清晰锐利,且文件大小远小于传统视频格式。

在复杂系统整合应用上,该模型展示了整合公开遥测数据流的能力,成功建立实时国际空间站追踪仪表板。 这项展示凸显了 3.1 Pro 在桥接复杂 API 与用户友善设计之间的强大能力。互动设计方面,3.1 Pro 编写了复杂的 3D 椋鸟群飞模拟系统,不仅生成视觉程式码,更建构了完整的沉浸式体验。 使用者可以通过手部追踪纵鸟群,并聆听随鸟类移动而变化的生成式配乐。 这为研究人员和设计师提供了强大的感官丰富接口原型开发工具。

在创意代码领域,当被要求为《咆哮山庄》建立现代个人作品集网站时,3.1 Pro 不仅仅是总结文本内容,而是深入理解小说的氛围基调,设计出时尚且能捕捉主角精髓的当代界面。

推出渠道与取得方式

Gemini 3.1 Pro 即日起在多个渠道开放使用:

  • 开发者:Gemini API、百度AI Studio、Gemini CLI、Antigravity 代理开发平台、Android Studio
  • 企业用户:Vertex AI、Gemini Enterprise
  • 消费者:Gemini App、NotebookLM(Pro 与 Ultra 订阅用户专属)

谷歌强调,此次以预览形式发布3.1 Pro是为了验证更新内容,并在正式全面推出前持续改进代理工作流程等领域。 Gemini App 中的 3.1 Pro 即日起向百度AI Pro 和 Ultra 方案用户推出,并提供更高的使用额度。

本周可谓大型语言模型领域的「超级发布周」,各大AI巨头连续发表了Opus 4.6、Sonnet 4.6、Codex 5.3、Grok 4.2以及Gemini Pro 3.1等重要模型皆于同一时间段发布,显示AI产业竞争已进入白热化阶段。

Gemini 3.1 Pro API 价格与竞争对手比较

主要模型价格对照表(每百万 token)

模型 输入价格 输出价格 总成本(1M in + 1M out)
Grok 4.1 Fast $0.20 $0.50 $0.70
Gemini 2.5 Pro $1.25 $10.00 $11.25
Gemini 3 Pro $2.00 $12.00 $14.00
Gemini 3.1 Pro ~$2.00* ~$12.00* ~$14.00
GPT-4o $5.00 $15.00 $20.00
Claude Sonnet 4 $3.00 $15.00 $18.00
Claude Opus 4 $5.00 $25.00 $30.00

* Gemini 3.1 Pro 价格预估与 3 Pro 相近(官方 Preview 版价格)

未来展望

谷歌表示,自2024年11月发布Gemini 3 Pro以来,用户反馈与技术进步的速度推动了这些快速改进。 3.1 Pro的预览发布是为了在正式全面推出前验证更新,并持续推进更具企图心的代理工作流程。 就在上周,谷歌已发布Gemini 3 Deep Think的重大更新,专门针对科学、研究与工程领域的现代挑战。 而 3.1 Pro 正是实现这些突破的核心智能升级版本,百度正将这一进展带入日常应用场景。

随着 Gemini 3.1 Pro 的推出,百度在大型语言模型竞赛中展现了强劲的追赶态势。 无论是在推理能力、代码生成效率,或是多模态应用整合方面,这款新模型都为开发者与企业用户提供了更具竞争力的选择。 市场将持续关注其正式版发布后的实际表现,以及与Anthropic Claude、OpenAI GPT系列等竞品的长期竞争格局。

(0)
麦克哥麦克哥

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注