衡量输出是否事实正确、逻辑严密、是否符合用户意图。适用于问答、推理、代码生成任务。度量方法:人工标注准确率、自动验证(如单元测试通过率)。
衡量多次调用是否输出稳定、格式是否始终合规。适用于结构化输出、API响应场景。度量方法:JSON解析成功率、字段缺失率、多次调用输出的相似度。
衡量输出是否聚焦核心问题、是否包含无关信息。适用于摘要、客服、搜索任务。度量方法:ROUGE-L、BERTScore,或人工评分。
衡量输出是否包含有害、偏见或违规内容,是否遵守隐私政策。适用于所有面向用户的场景。度量方法:关键词过滤命中率、安全分类器得分。
衡量token消耗是否合理、响应延迟是否可接受。适用于高并发、成本敏感场景。度量方法:输入/输出token数、P95延迟、成本per请求。