文章/答案/技术大牛

发布

社区首页 >问答首页 >使用OneHotEncoder()的更好方法是什么？

问使用OneHotEncoder()的更好方法是什么？
EN

Stack Overflow用户

提问于 2019-12-25 20:02:13

回答 1查看 38关注 0票数 0

此刻，我有一只熊猫df x。x有一个字符串列Name，我希望在Scikit学习管道中在它上使用OneHotEncoder()。但是，我首先想要操作Name列(格式、条形和调整)，我想我可以为此构建自己的转换器。看起来是这样的：

class NameModifier(BaseEstimator, TransformerMixin):
   def __init__(self):
      pass
   def fit(self, X, y=None):
      return self
   def transform(self, X, y=None):
      new_name_df = modifyAndReturnNewDataFrame(X)
      return new_name_df

然后我有了这条管道：

my_pipeline = ColumnTransformer([
   ("modify_name", NameModifier(), ["Name"]),
   ("encode_name", OneHotEncoder(), ["Name"])
])

# get prepared data
prepared_data = my_pipeline.fit_transform(x)

这不像我想的那样工作；看起来我的管道首先格式化了名称，但是OneHotEncoder()实际上不是编码修改后的Name列，而是编码原始的Name (没有修改)。如何将这些更改集成到管道中？

scikit-learn

python

pandas

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-12-26 03:39:51

如果数据在Pandas DataFrame中，我将在通过管道运行数据之前使用apply：

import pandas as pd

data = [['Name_1 Space  ', 123], ['Name_2 Space  ', 456]]

df = pd.DataFrame(data, columns=['Names', 'Numerics'])
df['Names'] = df.Names.apply(lambda col: col.strip().replace(' Space', '').upper())

print(df)

        Names  Numerics
0  pre NAME_1       123
1  pre NAME_2       456

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59481481

复制

相似问题

问使用OneHotEncoder()的更好方法是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用OneHotEncoder()的更好方法是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用OneHotEncoder()的更好方法是什么？
EN