数据科学新手来了!
我正在研究白葡萄酒/红葡萄酒的质量数据集,在这里我试图预测葡萄酒的质量。所有的特征都是数字的。
然而,响应变量是序数,质量分数为整数1到10。我看过教程试着把分数分组,比如:(0-4:坏,5-7:好,8-10:好),但是如果我想预测分数是怎样的呢?
我是否应该使用回归方法,尽量减少预测分数与实际分数之间的误差?
或者我是否应该使用一个分类模型,而不是计算一个F-评分来评估模型,找到一个最小化成本函数的模型?
或者还有另一种最有效的方法?
发布于 2018-12-04 11:18:36
您可以将此问题视为多类分类,并使用分类算法来解决此问题。您可以使用任何分类指标,如准确性、精确性、召回等。
回归应仅用于连续数据,而连续数据是指在给定范围内具有无穷多个潜在值的数据。例如,对于您的问题,范围是1-10,如果它是连续数据,那么它将有像1.04783,6.92838,8.2381,3.999,5.0等值。在这种情况下,您可以选择回归算法。
发布于 2018-12-04 13:24:16
我认为对于这个分数从1到10不等的特殊问题,使用多类分类方法是不合适的,因为这不需要在类之间进行分级或排序。在这里,评分实际上是连续的,并且已经转换成了类。
更好的方法是使用回归方法对输出进行舍入,这样就可以得到整数结果。输出小于1可以与1合并,超过10可以看作10。范围1-10也相当大,可以使用回归方法进行验证。
https://datascience.stackexchange.com/questions/38227
复制相似问题