今天,Deep Think面向某机构的AI Ultra订阅用户在Gemini应用中正式推出。这项新发布整合了早期受信测试者的反馈和研究突破。相较于在I/O大会上首次公布的版本,这是一个显著的改进,体现在关键基准指标的提升和受信测试者反馈上。它是最近在国际数学奥林匹克竞赛中达到金牌标准模型的变体。虽然该模型需要数小时来推理复杂的数学问题,但今天发布的版本在日常使用中速度更快、更易用,同时基于内部评估,其在2025年IMO基准上仍能达到铜牌级性能。
在将Deep Think交到用户手中的同时,也向一小群数学家和学者分享了达到金牌标准的Gemini 2.5 Deep Think模型的官方版本。期待了解它将如何增强他们的研究和探索。
正如人们通过花时间探索不同角度、权衡潜在解决方案并完善最终答案来处理复杂问题一样,Deep Think通过使用并行思考技术来推动思维能力的边界。这种方法允许Gemini同时生成许多想法并进行同步考量,甚至在一段时间内修订或组合不同的想法,然后得出最佳答案。
此外,通过延长推理时间或“思考时间”,给予Gemini更多时间来探索不同的假设,并为复杂问题找到创造性的解决方案。
还开发了新颖的强化学习技术,鼓励模型利用这些扩展的推理路径,从而使Deep Think能够随着时间推移成为一个更好、更直观的问题解决者。
Deep Think可以帮助人们应对需要创造力、战略规划和逐步改进的问题,例如:
Deep Think的性能也反映在衡量编码、科学、知识和推理能力的挑战性基准测试中。例如,与其他不使用工具辅助的模型相比,Gemini 2.5 Deep Think在衡量竞争性代码性能的LiveCodeBench V6,以及衡量包括科学和数学在内的不同领域专业知识的挑战性基准测试Humanity‘s Last Exam中,都达到了最先进的性能水平。
在训练和部署的整个生命周期中,持续将安全性和责任性融入Gemini。在测试中,Gemini 2.5 Deep Think与Gemini 2.5 Pro相比,在内容安全性和语气客观性方面表现出改进,但确实有更高倾向拒绝良性的请求。
随着Gemini解决问题能力的提升,正在更深入地审视伴随复杂性增加而来的风险,包括前沿安全评估以及为关键能力层级实施计划中的缓解措施。关于Gemini 2.5 Deep Think安全结果的更多细节可在模型卡中找到。
如果是某机构的AI Ultra订阅用户,今天就可以在Gemini应用中使用Deep Think,每天有固定的提示次数。在模型下拉菜单中选择2.5 Pro时,可以在提示栏中切换“Deep Think”来启用它。Deep Think自动与代码执行和某中心搜索等工具配合使用,并且可以生成更长的响应。
未来几周内,还计划通过Gemini API向一组受信测试者发布带工具和不带工具的Deep Think版本,以更好地了解其在开发者和企业用例中的可用性。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。