例如,如果有一个颜色列(分类变量),其值为“红色”、“蓝色”、“黄色”和“未知”,那么二进制人的热编码将颜色列替换为' color =red‘、' color =blue’和‘color=黄色’。我从熊猫数据框架中的数据开始,我想用这些数据来训练一个与科学知识相关的模型。我知道两种方法来做二进制一热编码,其中没有一种让我满意。
Pandas
我只是想听听大家对字符串变量建模的想法。假设dataframe (df)的字符串变量(Sex)编码为('M‘或'F')。ValueError: could not convert string to float: 'M'df['Sex2']=df['Sex'].replace({'F':1, 'M':0})
然后使用新<