首页
学习
活动
专区
圈层
工具
发布

谷歌AlphaEvolve攻克半世纪数学顽疾,AI引领科学革命

谷歌AlphaEvolve:AI数学突破引领科学发现新时代

谷歌近日推出了一款名为AlphaEvolve的编码代理,该系统结合了Gemini模型和进化策略,专门用于开发解决科学和计算挑战的算法。这一创新不仅提升了谷歌内部效率,还成功解决了一些历史性的数学难题。

详细信息:

AlphaEvolve融合了多种Gemini模型(Flash用于创意生成,Pro用于分析),通过创建代码、评估测试和迭代进化的方式运作。

该系统已经取得了多项数学发现,包括找到了自1969年以来Strassen算法的首次改进。

它还为谷歌带来了效率提升,优化了数据中心调度、改进了AI训练(包括自身训练),并协助芯片设计。

在50多个开放数学问题的测试中,它在75%的问题上达到了最先进水平的解决方案,并在另外20%的问题上发现了全新的、更优的解决方案。

就在昨天,OpenAI的Jakub Pachocki表示AI已经显示出"能够产生新颖见解的显著证据",而今天谷歌更进一步证明了这一点。数学在生活的几乎每个方面都扮演着重要角色,而AI在模式识别和算法方面的优势似乎已准备好揭示一个全新的科学发现世界。

Anthropic即将推出新版Sonnet和Opus模型

据报道,Anthropic正在准备在"未来几周内"推出Claude的Sonnet和Opus模型的高级版本,这些模型将具备混合思维和扩展工具使用能力。

详细信息:

据报道,这些模型能够在推理和工具使用之间交替切换,并通过回顾错误发生的原因来进行自我纠正。

在编程方面,这些模型可以测试自己生成的代码,识别错误,通过推理进行故障排除,并在无需人类干预的情况下进行修正。

Anthropic的一个代号为Neptune的模型正在接受安全测试,一些人认为这个名称暗示了这可能是3.8版本(太阳系第八颗行星)。

这一消息与Anthropic推出新的漏洞赏金计划同时发布,该计划专注于测试Claude在安全措施方面的原则。

虽然Anthropic一直与谷歌和OpenAI并列为行业顶级模型提供商,但该公司在推出新模型方面一直较为缓慢——2025年仅在2月份发布了3.7 Sonnet。随着其他两个竞争对手也可能很快发布升级版本,我们可能将迎来几个激动人心的月份。

OpenAI新安全评估仪表盘

OpenAI发布了一个新的安全评估中心,将定期公开展示其AI模型的测试结果,显示它们在有害内容生成、幻觉率和越狱尝试等指标上的表现。

详细信息:

该中心展示了OpenAI各模型的比较性能数据,包括拒绝有害内容和事实性问题准确性的指标。

仪表盘目前关注四个类别:有害内容、越狱漏洞、幻觉率和指令层次遵守度。

OpenAI承诺将"定期"更新该页面,作为其所称的全公司范围内更积极主动地沟通AI安全的努力的一部分。

此次发布是在该公司被批评缺乏安全测试透明度,以及最近GPT-4o更新发布出现问题后进行的。

随着各实验室竞相推出模型以跟上竞争对手的步伐,许多人认为安全性已被速度所取代。这是朝着更大透明度迈出的重要一步,但它将依赖于OpenAI的自我报告和持续更新数据——这可能无法完全满足那些呼吁更严格安全措施的人。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O5tl8RMzQf3pjsaMEDlwGwWg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券