因此,我需要对这个数据集执行几种技术,作为PYTHON中某种类型的数据挖掘/机器学习项目的一部分。但是,有几个特性让我非常担心,因为我不知道我应该把它们作为绝对(准确地说是序号)还是数字来处理。
我应该如何处理这些特性?它们是间隔数据吗?我应该把它们一个热的编码成假人,还是把它们留在现在的样子?
我将不得不在数据集上执行一些聚类和分类技术。提前谢谢你!
发布于 2020-06-22 19:58:41
它们不是绝对的,因为它们有一个您可能想要使用的有意义的排序。第一种是可用的,因为它大约是宗教的10倍。是的,它是有序的,但恰好是一个重新标度的连续特性。
第二个是序数,所以您不太想将它作为一个连续的特性来使用,因为这并不能捕捉到它们所表示的尺度上的差异。它可能工作正常,但您也可以将每个数字转换到相应范围的中点。
https://datascience.stackexchange.com/questions/76485
复制相似问题