我有如下形式的数据:
特征1特征2特征3->数值
问题是特征1类似于,字符串值类似于公司名称,特征2也是类似于类别的字符串值,而特征3只是时间戳。
我想训练一个给定特征的模型,它能够预测数值。
我知道回归可以用来解决这个问题。
但,
如何转换分类特征以便在regression?
谢谢。
发布于 2018-05-30 18:55:55
众所周知,机器学习算法不能直接理解文本,因此我们需要将这些字符串值转换为一个热门的向量表示。
我们使用一个热编码器来执行类别的“二进制化”,并将其作为一个特征来训练模型
因此,您可以使用pandas来执行此操作,例如
import pandas as pd
df =pd.DataFrame({'A':["google","amazon","microsoft"]})
pd.get_dummies(df)
A_amazon A_google A_microsoft
0 1 0
1 0 0
0 0 1
在将变量转换为上述格式后,您可以应用回归谢谢
https://stackoverflow.com/questions/50601916
复制相似问题