首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >响应变量为序的分类/回归问题

响应变量为序的分类/回归问题
EN

Data Science用户
提问于 2018-09-13 22:36:41
回答 2查看 477关注 0票数 0

数据科学新手来了!

我正在研究白葡萄酒/红葡萄酒的质量数据集,在这里我试图预测葡萄酒的质量。所有的特征都是数字的。

然而,响应变量是序数,质量分数为整数1到10。我看过教程试着把分数分组,比如:(0-4:坏,5-7:好,8-10:好),但是如果我想预测分数是怎样的呢?

我是否应该使用回归方法,尽量减少预测分数与实际分数之间的误差?

或者我是否应该使用一个分类模型,而不是计算一个F-评分来评估模型,找到一个最小化成本函数的模型?

或者还有另一种最有效的方法?

EN

回答 2

Data Science用户

发布于 2018-12-04 11:18:36

您可以将此问题视为多类分类,并使用分类算法来解决此问题。您可以使用任何分类指标,如准确性、精确性、召回等。

回归应仅用于连续数据,而连续数据是指在给定范围内具有无穷多个潜在值的数据。例如,对于您的问题,范围是1-10,如果它是连续数据,那么它将有像1.04783,6.92838,8.2381,3.999,5.0等值。在这种情况下,您可以选择回归算法。

票数 3
EN

Data Science用户

发布于 2018-12-04 13:24:16

我认为对于这个分数从1到10不等的特殊问题,使用多类分类方法是不合适的,因为这不需要在类之间进行分级或排序。在这里,评分实际上是连续的,并且已经转换成了类。

更好的方法是使用回归方法对输出进行舍入,这样就可以得到整数结果。输出小于1可以与1合并,超过10可以看作10。范围1-10也相当大,可以使用回归方法进行验证。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/38227

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档