用AI做测试- AI不能被滥用

文章来源：企鹅号 - 测试论道

蓝字

在这个人人都在谈 AI、用 LLM（大语言模型）提效的时代，我们似乎越来越容易被这些“看起来无所不能”的工具所吸引。特别是对软件测试工程师来说，LLM 可以写代码、生成用例、分析日志……这些能力令人振奋。但越是在这种氛围中，我们越需要一种品质——理性的怀疑。

一个虚构的推荐，让我们猛然警醒

我们曾向 ChatGPT 请教一本推荐阅读的测试类图书。它毫不犹豫地建议我们阅读《AI驱动测试：为你的软件测试实践注入智能》一书，并信誓旦旦地告诉我们，这本书由 Julian Harty 和 Mahesh Sharma 撰写。

听起来确实像一本不错的书，作者也看似权威。唯一的问题是：这本书根本不存在。

这不是模型“搞错了书名”那么简单——它凭空编造了整本书，包括内容、作者和出版目的。这一瞬间，我们意识到：这个“听上去什么都知道”的 AI，其实也什么都可能“编出来”。

它的本质，是概率，不是判断

要理解这种“胡说八道”，我们得先理解大语言模型是怎么工作的。LLM 并不是在“理解”问题，而是在预测下一个最可能出现的词。它的回答，不是基于事实，而是基于语料库中出现频率较高的语言模式。

这就好比它不是在“告诉你真相”，而是在用你想听的语气，说出“可能正确”的内容。听起来像专家，实际上可能只是蒙对了。

对测试工程师来说，这种“看起来像对的回答”尤其危险。一个错误的用例边界，一个无效的断言逻辑，都会让测试结果产生偏差。

它不是真理源头，我们才是

LLM 的崛起确实令人惊艳，但我们不能因此把它当作唯一的判断依据。真正做出决策的，不该是它，而是我们。

它可以生成内容，但不能替我们验证内容；它可以辅助我们思考，但不能代替我们判断。

我们必须时刻记住：LLM 是工具，不是决策者；是助手，不是主角。它的“人话”语气容易让人放松警惕，但越是在它说得像真的时候，我们越要警觉。

滥用 AI，不是智能，是风险

一些测试团队已经开始将 LLM 应用于日常测试工作：生成测试脚本、整理缺陷信息、分析日志内容……这本身并无不妥，但问题在于：有多少输出，我们真的验证过？

如果我们把未经验证的 LLM 输出直接投入测试流程，就像是在引入“带毒的代码”——你可能看不出它的问题，但它正在悄悄地污染你的判断、拖慢你的效率，甚至误导你的质量结论。

这种情况下，AI 不再是效率工具，而成了质量风险。

滥用 AI，不是智能，是风险

我们提出了一个“影响力模型”的概念，意思是：我们要有能力从 LLM 的回答中挑选出真正有用的内容，而不是照单全收。

这要求我们具备两个核心能力：

判断力：能分辨出回答中哪些是值得信任的，哪些需要质疑。

控制力：能通过改进提示词（Prompt）来引导模型更准确地输出。

换句话说，LLM 的回答不是“答案”，而是一种“建议”。我们要像审核同事提交的代码一样，去审视 AI 给出的内容。筛选、验证、再决定用不用，而不是直接采纳。

越是强大，越要谨慎使用

我们并不是反对使用 LLM，恰恰相反，LLM 的加入正让测试行业发生积极的变革。它能加速自动化脚本生成，提高测试文档效率，甚至参与异常分析。它确实是生产力的放大器。

但它也是“错误的放大器”。

我们可以高效地使用它，但不能盲目地依赖它。越是强大的工具，越需要我们用清醒的脑袋来驾驭。

人主导工具，而不是被工具主导

未来的测试场景中，LLM 会越来越普遍，我们也乐于看到它带来的改变。但真正能驾驭这种新工具的测试工程师，不是那些“会用它”的人，而是那些懂得何时用、何时不用、如何用对它的人。

与其问：“LLM 能做什么？”不如问：“我如何让它为我所用？”

所以，请记住这个提醒——别急着相信它，先用你的脑子想一想。

相关快讯