用AI做测试 - LLM的生成能力

文章来源：企鹅号 - 测试论道

蓝字

引言：AI时代，测试的新帮手？

随着生成式人工智能（Generative AI）的迅猛发展，越来越多测试工程师和测试经理开始探索将大型语言模型（LLM）应用于测试流程中。

LLM看似强大，能快速生成测试用例、测试数据、甚至辅助脚本编写。但在实际使用中，LLM的能力与局限并存。如何正确理解和利用它，成了每位测试人必须思考的问题。

什么是LLM？一场关于生成的革命

大型语言模型（LLM）本质上是一种生成式AI，与传统以分类、预测为主的AI模型不同。

LLM的目标是“创造”内容，比如文本、代码段、故事情节，而不是单纯地判断或分类已有数据。这一特性决定了它在测试场景中有独特的使用方式，但也意味着它不会自己判断正确与否。

生成测试用例：表面完美，实则隐患

当我们向LLM发出提示：“为文件上传功能创建测试用例”时，它确实能迅速产出一组看似合理的测试用例。

比如，它会列出上传有效文件、上传无效文件、测试文件大小限制等常见场景，每个用例结构清晰，步骤分明。

然而，这些内容往往缺少关键细节——比如特定系统对文件类型的限制，上传失败的后续处理流程，或者与业务逻辑相关的特殊场景。

原因很简单：LLM是基于概率模型预测最可能出现的文本组合，而不是理解你的系统背景。因此，生成的用例看似合理，但缺乏针对性和实用性。

上下文的重要性：指引LLM生成有用内容

为了让LLM生成真正有价值的测试材料，测试人员必须提供足够详细的上下文信息。

包括功能背景、测试范围、系统约束、异常处理逻辑等。如果只是简单抛出一个模糊的需求，得到的往往是泛泛而谈的内容，难以直接落地使用。

值得注意的是，对于复杂任务，比如制定完整的测试策略或覆盖面评估，仅靠简单提示远远不够，需要提供大量背景资料和详细指引。这种输入成本高昂，也让LLM在宏观任务中应用受限。

LLM真正适合做什么？

如果聚焦于具体、小范围且目标明确的任务，LLM可以成为极具价值的辅助工具。以下是几个典型应用场景：

测试数据生成

在明确规定数据规则（如字段类型、取值范围、边界条件等）后，LLM能快速生成大量测试数据。无论是功能测试还是性能测试，都能极大提高准备效率。

风险点与测试思路建议

通过合理提示，LLM可以列出潜在的测试风险点或新的测试思路。虽然不能直接决定测试内容，但能帮助测试人员扩展思考边界，发现遗漏点。

代码片段与脚本辅助

相比生成完整自动化测试框架，让LLM帮你生成小型代码片段、探索性测试脚本、工具函数，能显著提升开发效率，尤其适合快速验证思路或搭建原型。

风险提示：LLM是助手，不是决策者

虽然LLM在测试工作中提供了强有力的支持，但必须警惕：不要让它主导测试决策。

实际案例显示，有企业使用LLM批量生成测试数据，但人工审核后发现，其中30%的数据不符合业务规则，甚至导致了测试偏差。

因此，所有由LLM生成的内容——无论是测试用例、测试数据还是风险清单，都必须经过测试人员的人工审核、修正和补充，才能投入实际使用。

用得好，LLM是倍增器；用得坏，LLM是隐患

大型语言模型正在重塑测试行业，但它不是魔法师。

只有清晰认识它的能力与局限，合理配置任务边界，才能真正把LLM作为测试流程中的“倍增器”，而不是一个潜藏风险的隐患。

未来，懂得驾驭AI工具的测试工程师，将在行业竞争中拥有更强的适应力和创新力。

相关快讯