当我们测试一个新的优化算法时,我们需要做什么?例如,我们是否需要运行该算法几次,并选择一个最佳的性能,即在精度方面,f1评分.etc,并对一个旧的优化算法做同样的,还是我们需要计算平均性能,即这些运行的平均精度或f1分数,以表明它比旧的优化算法更好?因为当我读到关于一种新的优化算法的论文时,我不知道他们是如何计算性能并绘制火车损耗与列车损耗曲线的,因为它具有随机效应,对于不同的运行,我们可能得到不同的性能和不同的曲线。那么,我们是比较最佳表现还是平均表现呢?
发布于 2019-09-23 02:04:03
在可能的情况下,您应该在比较不同的方法时使用平均性能,最好是在不同的运行中提到标准偏差(请参阅这个问题中的一个例子,为什么有时很重要)。提供最好的性能也是非常好的,理想情况下,您甚至可以提供不同方法的框图比较。
真正不能接受的是,将一种方法的最佳性能与另一种方法的平均性能进行比较(不用说,我记得一篇论文的作者为了使他们的方法看起来更好而愉快地这样做)。
https://datascience.stackexchange.com/questions/60610
复制相似问题