我对数据科学(我正在使用python)相当陌生,并发现在进一步研究之前,我们最好将数据标准化或规范化。我的问题是:
如果有分类值(二进制和使用一种热编码(0或1),如男性或女性),我们是否需要标准化或标准化这类数据?如果分类数据是非二进制的,那么如果分类数据是非二进制的,例如,衡量您的健康状况(
发布于 2021-03-02 16:56:55
如果有两个以上的分类值,最好将它们转换为一个热编码。范畴价值不应该有数学关系。如果你不能解释你的分类数据之间的数学顺序(例如,拟合>健康?)您应该创建一个热点向量并将其表示为特性:
Old Version New version
1th 2th 3th 4th 5th 6th
poor 1 0 0 0 0 0 1
quite 2 0 0 0 0 1 0
healthy 3 0 0 0 1 0 0
healthy 4 0 0 1 0 0 0
fit 5 0 1 0 0 0 0
very fit 6 1 0 0 0 0 0
基本上,您有6个新的功能,其中每一个代表您的一个类别。
注意:不需要对二进制数据应用规范化或标准化,因为它已经在0,1中
https://stackoverflow.com/questions/66443371
复制相似问题