首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >提示词工程 >如何评估提示词的效果?

如何评估提示词的效果?

词条归属:提示词工程

1. 准确性(Accuracy)

衡量输出是否事实正确、逻辑严密、是否符合用户意图。适用于问答、推理、代码生成任务。度量方法:人工标注准确率、自动验证(如单元测试通过率)。

2. 一致性(Consistency)

衡量多次调用是否输出稳定、格式是否始终合规。适用于结构化输出、API响应场景。度量方法:JSON解析成功率、字段缺失率、多次调用输出的相似度。

3. 相关性(Relevance)

衡量输出是否聚焦核心问题、是否包含无关信息。适用于摘要、客服、搜索任务。度量方法:ROUGE-L、BERTScore,或人工评分。

4. 安全性(Safety)

衡量输出是否包含有害、偏见或违规内容,是否遵守隐私政策。适用于所有面向用户的场景。度量方法:关键词过滤命中率、安全分类器得分。

5. 效率(Efficiency)

衡量token消耗是否合理、响应延迟是否可接受。适用于高并发、成本敏感场景。度量方法:输入/输出token数、P95延迟、成本per请求。

6. 评估方法

  • 人工评估:最可靠,能捕捉细微语义问题,但成本高、速度慢。最佳实践:构建50-200条代表性测试集,使用Likert量表(1-5分)评分,多人标注计算Kappa一致性。
  • 自动化评估:使用定量指标进行客观、可重复的测量。工具:DeepEval、Promptfoo等。
  • A/B测试:对比不同版本提示词的效果,选择最优版本。
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券