AI应用开发里,模型评估指标依任务类型而异,以下是常见任务的评估指标:
分类任务
- 混淆矩阵:包含真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN),可直观呈现分类结果情况。
- 准确率(Accuracy):分类正确样本数占总样本数的比例,公式为(TP+TN)/(TP+TN+FP+FN),适用于各类别样本分布均衡的情况。
- 精确率(Precision):预测为正例的样本中实际为正例的比例,即TP/(TP+FP),衡量模型预测正例的准确性。
- 召回率(Recall):实际为正例的样本中被预测为正例的比例,即TP/(TP+FN),体现模型找到正例的能力。
- F1值:精确率和召回率的调和平均数,公式为2∗(Precision∗Recall)/(Precision+Recall),综合考量两者。
- ROC曲线与AUC值:ROC曲线描绘真阳性率(TPR)和假阳性率(FPR)的关系;AUC值是ROC曲线下的面积,取值范围在0到1之间,越接近1模型性能越好。
回归任务
- 均方误差(MSE):预测值与真实值之差平方的平均值,公式为n1∑i=1n(yi−y^i)2,能反映预测值的整体偏离程度,但对异常值敏感。
- 均方根误差(RMSE):MSE的平方根,公式为n1∑i=1n(yi−y^i)2,与原数据单位相同,更直观展示预测值与真实值的平均误差。
- 平均绝对误差(MAE):预测值与真实值之差的绝对值的平均值,公式为n1∑i=1n∣yi−y^i∣,能避免误差正负抵消,对异常值鲁棒性较强。
- 决定系数(R2):表示模型对数据的拟合程度,取值范围为(−∞,1],越接近1说明模型拟合效果越好。
聚类任务
- 轮廓系数:衡量样本与其所在簇的相似程度以及与其他簇的分离程度,取值范围为[−1,1],越接近1表示聚类效果越好。
- Calinski - Harabasz指数:也叫方差比准则,值越大表明聚类结果越好,它通过计算类间离散度与类内离散度的比值评估聚类质量。
- Davies - Bouldin指数:值越小表示聚类效果越好,该指数综合考虑了簇内紧密性和簇间分离性。
信息检索与推荐系统
- 精确率(Precision):检索出的相关文档数与检索出的文档总数的比率,衡量检索结果的准确性。
- 召回率(Recall):检索出的相关文档数与文档库中相关文档总数的比率,反映检索系统找到所有相关文档的能力。
- F1值:精确率和召回率的调和平均数,综合评估检索或推荐性能。
- 平均精度均值(MAP):多个查询的平均精度平均值,用于评估信息检索系统在多个查询下的整体性能。
- 归一化折损累计增益(NDCG):考虑了相关文档的重要性排序,值越接近1表示推荐或检索结果越符合用户期望。