大模型应用性能评估指标因应用场景而异,以下是常见评估指标:
通用指标
- 准确率:分类任务常用指标,指分类正确样本数占总样本数的比例。如垃圾邮件分类,准确识别出的垃圾邮件和正常邮件数量之和与总邮件数量的比值。
- 精确率:预测为正类的样本中实际为正类的比例。以疾病诊断模型为例,预测患病的人当中真正患病的比例。
- 召回率:实际为正类的样本中被正确预测为正类的比例。还是疾病诊断场景,实际患病的人中被模型正确检测出来的比例。
- F1值:精确率和召回率的调和平均数,用于综合考量两者,当需要平衡精确率和召回率时使用。
- 均方误差(MSE):回归任务常用指标,预测值与真实值差值平方的平均值,衡量预测值与真实值的偏离程度。
- 平均绝对误差(MAE):预测值与真实值差值绝对值的平均值,能直观反映预测值误差大小。
文本处理指标
- 困惑度:语言模型常用指标,衡量模型对文本预测的不确定性,值越低表示模型对文本预测能力越强。
- 词法、句法和语义准确率:评估模型在词法分析、句法分析和语义理解任务的准确性,如在信息抽取任务中对实体、关系识别的准确程度。
图像处理指标
- 像素精度:图像分割任务中,预测正确的像素数占总像素数的比例。
- 交并比(IoU):预测区域与真实区域的交集和并集的比值,常用于评估目标检测和图像分割模型的性能。
- 峰值信噪比(PSNR):衡量图像重建质量,值越高表示重建图像与原始图像越接近。
语音处理指标
- 字错误率(CER):语音识别任务中,识别错误的字符数占所有字符数的比例。
- 词错误率(WER):识别错误的词数占所有词数的比例。
- 语音合成指标:如自然度、相似度等,评估合成语音的自然程度和与原始语音的相似程度。
效率指标
- 响应时间:从输入请求到模型输出结果的时间间隔,体现模型在实际应用中的响应速度。
- 吞吐量:单位时间内模型处理的请求数量,反映模型的处理能力。