Recall
查全率是定义由给定查询和数据语料库的算法检索的相关性的大小。因此,给定一组文档和应该返回这些文档的子集的查询,查全率的值表示实际返回了多少相关文档。 此值计算如下:
假设我们有文档{aa,ab,bc,bd,ee}作为完整语料库,并且我们查询名称中带有a的文档。 如果我们的算法将返回{aa,ab},查全率为100%。 让我们通过填写公式来验证它:
确实是100%。 接下来,我们将展示如果返回的不是所有相关结果会发生什么:
这里的结果只包含一半的相关性结果。这导致了查全率的减少。但是,如果要计算这种情况下的精度,会导致所有结果的精度都是100%,因为所有结果都是相关的。
Prior
属于给定数据点的分类器的先验值表示该数据点属于该分类器的可能性。实际上,这意味着当您获得数据点的预测时,与其一同给出的先验值,表示该模型如何“确信”关于给予该数据点的分类。
Root MeanSquared Error (RMSE)
均方根误差(RMSE或RMSD,其中D代表偏差)是实际值和预测值之间的均方差的平方根。因为这有点难掌握,我会用一个例子解释。 假设我们有以下值:
这个模型的均方差值为4.33333,其平方根为2.081666。因此,平均来说,模型预测值有2.08的误差。 该RMSE值越低,模型预测的越好。 这就是为什么在这个领域,当选择特征时,计算具有和不具有某个特征的RMSE,以便说明该特征如何影响模型的性能。使用这个信息,然后可以决定该特征的附加计算时间与模型上的改进率相比是否具有价值。
此外,由于RMSE是绝对值,为了比较模型可以被标准化。这导致了标准化均方根误差(NRMSE)。然而,对于这个计算,你需要知道该系统的所拥有最小值和最大值。让我们假设我们可以有最小5度到最大25度的温度取值范围,然后计算NRMSE如下:
10.45?这是什么值。这是模型在其数据点上的平均误差百分比。
最后,我们可以使用RMSE来计算一个在字段中称为R Squared的值。该值表示执行此模型与忽略此模型并仅仅只取每个值的平均值的差异值。为此,您需要首先计算平均值的RMSE。 这里是4.22222(取表中最后一列的值的平均值),然后根为2.054805。 你应该注意的第一件事是,这个值低于模型的值。 这不是一个好的标志,因为这意味着执行此模型比只是采取平均值更糟糕。然而,为了演示如何计算R Squared,我们将继续计算。
我们现在有此模型和均值的RMSE,然后计算模型与均值相比的效果如下:
结果由下列的值计算:
现在-1.307229代表什么?简单来说,预测这些值的模型比每次要预测值时返回平均值要差大约1.31%。换句话说,我们可以更好地使用平均函数作为预测变量,而不是在这种特定情况下的模型。
--未完待续