首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >为什么 AI 进不了自动驾驶,却把基因测序错误率压低了 30%?

为什么 AI 进不了自动驾驶,却把基因测序错误率压低了 30%?

作者头像
随机比特
发布2026-05-14 17:57:42
发布2026-05-14 17:57:42
260
举报

自动驾驶被业界烧了快十年。Waymo、Cruise、特斯拉,加起来几百亿美金,L4 通用乘用至今难产。

还是同一拨公司、同一代模型,这一周却在另一个领域给出了一个具体数字——基因测序的变异检测错误率,被压低了 30%。干这件事的是 DeepMind 这一周发的 AlphaEvolve。

烧的钱差几个数量级。算力、模型、人没差。差别只在评估这一步——是 AI 自己说了算,还是另有一把外面的尺子说了算。

两条 AI 落地路线对比
两条 AI 落地路线对比

agent 这件事,多数公司还在自批卷子

一个学生考完试,自己给自己批卷子,打 95 分。

放在学校里,这事是过不去的。不是怀疑学生不诚实,是没人会信「判官就是被判的人」打出来的分数。

但这一周市面上几乎所有"agent",都在干这件事——让对话 agent 自己干活、自己评估干得好不好;或者交给另一个 LLM 来评估——卷子换了个老师批,但跟出题、考试的,还是同一拨人。

打开任何一份热门 agent 框架的介绍,看到的大致是这种:

  • 一个对话 agent 调更多工具
  • 多个 agent 协作做更复杂的任务
  • agent 自己反思、自己规划、自己改 prompt

这些做法的共同点是:"什么算好" 这件事长在模型脑子里。模型自己跑、自己评估、自己迭代。所谓"评估"环节多半是 LLM-as-judge——说到底还是自批卷子。

AlphaEvolve 走相反方向。

它是 Gemini 驱动的演化型 coding agent。Gemini 反复改写候选代码,每改一版跑一次评分,分高的留下、分低的丢掉,留下的接着改。一代一代演化,跟自然选择一个套路。

关键不在 Gemini,关键在评分谁打

DeepMind 的做法是——评分函数显式拆出来,挂在循环外边。不塞进模型,不让模型自评。这把尺子在模型外面:能写、能 debug,也能换成任何外部检测器。

模型在循环里跑,尺子在循环外卡。

30% 不是模型变聪明了,是尺子换了一把

AlphaEvolve 改了 Google Research 一个叫 DeepConsensus 的 DNA 测序纠错模型。变异检测错误率被压低了 30%。PacBio Senior Director Aaron Wenger 这样描述:

"Google 团队用 AlphaEvolve 找到的方案,把我们测序仪的准确率提到了一个有意义的新高度。对研究者来说,更高质量的数据可能让我们看到以前藏在数据里的致病突变。"

这不是 demo 视频里"AI 帮我做了个 PPT" 那种话。是基因测序仪供应链上游在说"我的产品因为这件事变好了"——这种话从 PacBio 这个级别的公司嘴里说出来,每一个字都过了法务。

它做成的原因不是 Gemini 比上一代聪明 5%。是评估器:AI 改一版代码,跑一次 DeepConsensus,错误率降了就保留,没降就丢掉。评估器就是真世界的尺子

同一套办法 DeepMind 还在数学猜想、电池材料、矩阵乘法、数据中心调度里跑通了。具体数字没披露,但同一个套路能在差异这么大的五个领域都跑通——evaluator 拆到循环外不是基因测序专属,换个领域照样能用。

评估器拆在循环外的工作流程
评估器拆在循环外的工作流程

自动驾驶为什么不行——CASP 比它早 30 年答了同一道题

回到自动驾驶。

最难的不是感知模型不够强,是没人能把"一次好驾驶" 显式拆成评估器。Disengagement、MPI、Route completion 都是 proxy,不是真世界尺子。模型越大,没有评估器照样在 corner case 里打转。

蛋白结构预测的故事正好相反。AlphaFold 能被 DeepMind 攻下来,不是因为模型聪明 5 倍,是因为 CASP 赛事 30 年下来已经把"什么是好的结构预测"写成了一组可量化指标——GDT_TS、TM-score。模型撞上去就能涨分。尺子在那儿等了 30 年

基因测序的故事也一样。错误率是物理可测的,跑一次就出数字。

有尺子的领域,AI 会一直涨分。没尺子的,砸再多算力都进不去。

对开发 AI agent 的启发

通用 agent 这条路会继续跑。算力会更便宜、模型会更聪明、对话框会变成更复杂的工作流。

但 agent 真正落到产业里、在医疗、能源、芯片、材料里做出真指标的那条路,跟"对话框更聪明" 没关系。它跟"这个领域有没有一把能写下来的尺子" 有关。即是否有目标函数——只要能评估,AI agent 就能不断推进到最优路径。

所以我们做 AI agent,下面三个问题务必先搞清楚:

  1. 评估器是什么?
  2. 它在循环里还是循环外?
  3. 评估器的输入是真世界数据,还是另一个 LLM 的判断?

第三个问题最难答。多数 agent 框架到这就卡住。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 随机比特 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • agent 这件事,多数公司还在自批卷子
  • 30% 不是模型变聪明了,是尺子换了一把
  • 自动驾驶为什么不行——CASP 比它早 30 年答了同一道题
  • 对开发 AI agent 的启发
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档