] , [0,0,1,0] , [1,0,0,0] ,[0,0,0,1] ]
二.字符串型类别变量
OneHotEncoder无法直接对字符串型的类别变量编码,也就是说OneHotEncoder().fit_transform...已经有很多人在 stackoverflow 和 sklearn 的 github issue 上讨论过这个问题,但目前为止的 sklearn 版本仍没有增加OneHotEncoder对字符串型类别变量的支持...,无论 LabelEncoder() 还是 LabelBinarizer(),他们在 sklearn 中的设计初衷,都是为了解决标签 y 的离散化,而非输入 X, 所以他们的输入被限定为 1-D array...fit_transform(testdata[['pet', 'age']])会报错。...更重要的一点
get_dummies不像 sklearn 的transformer一样,有transform方法,所以一旦测试集中出现了训练集未曾出现过的特征取值,简单地对测试集、训练集都用get_dummies