00:00
哎,我们花了差不多10年时间,辛辛苦苦给软件工程打造了一套堪称完美的治疗体系,对吧?可现在呢,这套体系正被AI冲击的有点七零八落了,我们过去觉得天经地义的那些测试法则,好像诶,突然就不那么管用了。所以今天咱们就来好好聊聊这到底是怎么回事儿,以及我们到底该怎么来应对这场正在发生的质量革命。这个问题啊,我猜可能戳中了不少技术朋友的痛点,你手上的测试手册那肯定是完美的对不对?自动化、持续集成、性能调优,能做的都做了,所有对的事情你一件没落下,可结果呢?一碰到AI系统就发现,诶,这些好像都不太够用了。这到底是为什么呢?你看这句话就说到了点子上,他精准的抓住了问题的核心。这么说吧,让AI来帮我们写个测试脚本什么的,这只是换了个更高级的工具,对吧?这叫工具升级。但是要测试AI系统本身,那可就不是换工具那么简单了,我们得从根本上重新去想质量到底是什么,这才是一场真正的思维革命。今天咱们就来把这场革命给剖析透了。好,咱们要聊的第一个,也是最根本的一个转变,就是从确定性思维转向概率性思维。这听起来有点抽象啊,但说白了,就是我们对对和错的那个基本定义,从根儿上就要被改写了。
01:12
你看啊,过去我们工程师的世界其实很简单,就是个二元逻辑的世界,就像输密码,对了就是对了,错了就是错了,特别干脆。我们测试的核心就是一句话,输入,这个输出就必须是那个一是一,二是二,但是AI来了,就把这个规矩给打破了。现在呢,你问AI一个问题,他可能给你好几个答案,而且这些答案都说得通,都挺合理的。就像一个聊天机器人,他能给你好几种不同的但都挺有效的回复。所以你看现在已经不是找那个唯一的正确答案了,而是要在一堆合理的答案里做评估。好,那这个转变在咱们实际工作中到底意味着什么呢?咱们来举个例子啊,比如说一个金融科技公司的智能投顾,搁在以前我们测试可能就问一个问题,嘿,他推荐的这个股票代码准不准?但现在不行了,在AI时代,我们真正要问的是一系列问题,他这个推荐是不是真的适合这个用户的风险偏好,他说话的这个方式会不会让用户感到焦虑,或者产生什么误会,甚至在那种极端市场情况下,他会不会给出一些很危险的建议?所以你看关键就在这儿,咱们的眼光必须得从单纯的技术上准不准,扩展到他是不是恰当、安全、有益这样一个更宏观的层面,这里面包含了业务风险和用户体验的方方面面。
02:13
好,第二个重大的思维转变来了,这个是关于我们怎么去找bug的。以前呢,我们有个特别厉害的武器叫边界测试,对吧?专门找那些犄角旮旯的bug,但在AI这个复杂又高维的世界里,这个老方法说实话有点力不从心了。你看这张图,一下子就很清楚了,以前传统的bug特别喜欢藏在哪儿,就藏在代码的边界上,比如说最大值、空值、特殊字符这些地方,我们一测一个准儿。那现在AI的bug它不按套路出牌了,他往往就潜伏在真实世界那种混乱不可预测的场景里边。举个例子啊,你永远不可能把世界上所有可能出现的真实照片都拿来喂给一个图像识别模型去测试,对不对?这个可能性是无穷的。我给大家讲个特经典的例子,估计很多人都听过,有一辆顶级的自动驾驶汽车,在实验室里那表现就一个完美,百分之百通过了所有设计好的严科的措施,听起来很棒,对吧?然后这辆车就上路了,结果在一个阳光明媚的下午,他在车水马龙的真实路况下,突然之间毫无征兆的来了一脚急刹车,差点儿就造成了连环追尾。那大家就纳闷了,这到底是出了什么bug呢?后来工程师们一查,发现原因真是让人哭笑不得,AI系统把路面上一个特别大特别黑的树影给误判成了一个大坑。
03:25
你看,这问题根本不是我们传统意义上的什么边界条件,对吧?它就是一个在现实中不常发生但确实会发生的常规场景。这个例子就特别清楚的告诉我们,测试的思维必须得变了,不能再只盯着那些抽象的参数,而是要真正去建模和覆盖真实的用户场景。好,问题来了,既然我们压根儿就没办法穷举所有真实世界的场景,那质量怎么保证呢?这就引出了咱们的第三个思维转变,简单来说,质量保证不能再像以前那样搞成一个发布前的一次性考试了,它得变成一场需要持续投入的马拉松。这个快照和电影的比喻特别形象,你看啊,在传统的软件事件,我们发布一个版本就好像是拍了一张照片,咔嚓搞定之后呢,我们就默认这个系统是稳定的,但AI系统完全不是这么回事儿,它更像一部一直在演的电影,为什么呢?因为AI模型会随着新的数据、新的用户行为慢慢的发生变化,我们管这个叫模型漂移,它的性能可能会退化。今天还表现的特别好的一个推荐算法,可能过了两个礼拜,就因为用户的口味变了,或者环境变了,它就不好用了,这个模型漂移听起来可能有点抽象,但它的危险是实实在在的,再举个例子,一个内容平台的推荐引擎,他为了追求短期的数据好看,比如说点击率,就开始拼命的推那几个爆款内容,两周下来数据确实很漂亮,但后果是什么?后果就是那些小众的创作者根本得不到曝光机会。慢慢。
04:40
真的平台的生态就被破坏了,最后用户的参与度反而下降了。你看这个问题在发布前你怎么错?你根本发现不了,因为它不是一个代码写错了的bug,而是系统和真实环境互动之后,慢慢涌现出来的一个系统性行为。好了,说了这么多挑战,又是概率性,又是真实场景,还有模型漂移,听起来是不是头都大了?那到底该怎么办呢?别急,这就引出了咱们的第4个转变,这也是解决问题的关键所在。我们必须学会用AI自己的优势来解决AI的质量难题,简单说就是用AI来测试AI。为什么必须这么做呢?因为规模实在太大了。你想想看,一个对话机器人每天可能产生几十万、上百万次的互动,你要是还靠人一个个去检查,那简直就是大海捞针,根本不现实。
05:21
所以核心思路必须转变,咱们不能再搞人力密集型的测试了,而是要进化成一个人机团队。什么意思呢?就是我们人类专家负责制定质量的标准和规则,然后让一个专门训练出来的AI模型去大规模的、自动化的进行评估。那具体怎么用AI来测试AI呢?这里有一个非常清晰的路径。第一步,咱们先训练一个评估模型,你可以把它想象成一个AI裁判,我们用人类专家的评分标准来喂养它,让他学会什么是好,什么是不好。第二步,让这个AI裁判上岗,用它去自动的给数百万次的AI互动打分,比如相关性、安全性、说话的语调等等。第三步,也是最巧妙的一步,我们再用一个生成式AI,比如说干,你可以把它想象成一个专门抬杠的陪练,让他去创造各种各样可能骗过我们主AI的困难样本。最后一步,我们再用这是陪练找出来的困难样本去反过来强化我们的测试和训练。你看,这样一来就形成了一个持续自我强化的正向循环。
06:15
好了,理解了这4个核心的思维转变之后,最重要的问题来了,我们到底该怎么把这些想法落到实处呢?别急,接下来咱们就来看一份为新时代的技术领导者们准备的一份全新的AI质量行动手册。但在开始之前,有个核心原则,咱们必须先明确我们今天讲的这一切,答案是进化而不是替代。什么意思呢?就是说我们不是要让你把所有传统的测试方法都扔掉,千万别像什么API接口测试、数据库一致性测试这些确定性的基于规则的东西,依然要用最严谨的方法去做。我们讨论的这套新的质量体系是建立在这些坚实基础之上的,是往上叠加,而不是推倒重来。好,这就是给技术领导者的4个具体行动,也是我们今天内容的核心总结。第一,重新定义质量,别再只纠结于正确性了,要把眼光扩展到合理性和解释性和风险控制上。
07:01
第二,建立场景文化,让测试人员真正深入到业务团队里去,去收集那些活生生的真实世界的使用场景。第三,大力投资可观测性。你必须建立起一套能监控从数据到用户体验全链路的设施,因为很多问题都是上线之后才会慢慢涌现出来的。最后,第4点,培养新技能。这个时代,我们的工具和要测试的对象都已经是AI了,所以团队必须掌握模型评估、AB测试和对抗性测试这些新能力。最后,我想留下一个问题给大家一起思考,在AI时代,再去追求那种绝对的零缺陷,可能已经是一种过时的直面了。真正的信任,他不再来自于一个系统永远不出错的保重,而是来自于我们对不确定性的深刻理解和掌控能力,来自于我们对风险的精准把控,还有我们对持续改进的那个坚定承诺。这已经不仅仅是一场技术变革了,他其实正在重新定义什么才叫左约的工程领导力。那么你准备好了吗?
我来说两句