蓝字
在这个人人都在谈 AI、用 LLM(大语言模型)提效的时代,我们似乎越来越容易被这些“看起来无所不能”的工具所吸引。特别是对软件测试工程师来说,LLM 可以写代码、生成用例、分析日志……这些能力令人振奋。但越是在这种氛围中,我们越需要一种品质——理性的怀疑。
一个虚构的推荐,让我们猛然警醒
我们曾向 ChatGPT 请教一本推荐阅读的测试类图书。它毫不犹豫地建议我们阅读《AI驱动测试:为你的软件测试实践注入智能》一书,并信誓旦旦地告诉我们,这本书由 Julian Harty 和 Mahesh Sharma 撰写。
听起来确实像一本不错的书,作者也看似权威。唯一的问题是:这本书根本不存在。
这不是模型“搞错了书名”那么简单——它凭空编造了整本书,包括内容、作者和出版目的。这一瞬间,我们意识到:这个“听上去什么都知道”的 AI,其实也什么都可能“编出来”。
它的本质,是概率,不是判断
要理解这种“胡说八道”,我们得先理解大语言模型是怎么工作的。LLM 并不是在“理解”问题,而是在预测下一个最可能出现的词。它的回答,不是基于事实,而是基于语料库中出现频率较高的语言模式。
这就好比它不是在“告诉你真相”,而是在用你想听的语气,说出“可能正确”的内容。听起来像专家,实际上可能只是蒙对了。
对测试工程师来说,这种“看起来像对的回答”尤其危险。一个错误的用例边界,一个无效的断言逻辑,都会让测试结果产生偏差。
它不是真理源头,我们才是
LLM 的崛起确实令人惊艳,但我们不能因此把它当作唯一的判断依据。真正做出决策的,不该是它,而是我们。
它可以生成内容,但不能替我们验证内容; 它可以辅助我们思考,但不能代替我们判断。
我们必须时刻记住:LLM 是工具,不是决策者;是助手,不是主角。它的“人话”语气容易让人放松警惕,但越是在它说得像真的时候,我们越要警觉。
滥用 AI,不是智能,是风险
一些测试团队已经开始将 LLM 应用于日常测试工作:生成测试脚本、整理缺陷信息、分析日志内容……这本身并无不妥,但问题在于:有多少输出,我们真的验证过?
如果我们把未经验证的 LLM 输出直接投入测试流程,就像是在引入“带毒的代码”——你可能看不出它的问题,但它正在悄悄地污染你的判断、拖慢你的效率,甚至误导你的质量结论。
这种情况下,AI 不再是效率工具,而成了质量风险。
滥用 AI,不是智能,是风险
我们提出了一个“影响力模型”的概念,意思是:我们要有能力从 LLM 的回答中挑选出真正有用的内容,而不是照单全收。
这要求我们具备两个核心能力:
判断力:能分辨出回答中哪些是值得信任的,哪些需要质疑。
控制力:能通过改进提示词(Prompt)来引导模型更准确地输出。
换句话说,LLM 的回答不是“答案”,而是一种“建议”。我们要像审核同事提交的代码一样,去审视 AI 给出的内容。筛选、验证、再决定用不用,而不是直接采纳。
越是强大,越要谨慎使用
我们并不是反对使用 LLM,恰恰相反,LLM 的加入正让测试行业发生积极的变革。它能加速自动化脚本生成,提高测试文档效率,甚至参与异常分析。它确实是生产力的放大器。
但它也是“错误的放大器”。
我们可以高效地使用它,但不能盲目地依赖它。越是强大的工具,越需要我们用清醒的脑袋来驾驭。
人主导工具,而不是被工具主导
未来的测试场景中,LLM 会越来越普遍,我们也乐于看到它带来的改变。但真正能驾驭这种新工具的测试工程师,不是那些“会用它”的人,而是那些懂得何时用、何时不用、如何用对它的人。
与其问:“LLM 能做什么?”不如问:“我如何让它为我所用?”
所以,请记住这个提醒——别急着相信它,先用你的脑子想一想。
领取专属 10元无门槛券
私享最新 技术干货