首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用OneHotEncoder()的更好方法是什么?

使用OneHotEncoder()的更好方法是什么?
EN

Stack Overflow用户
提问于 2019-12-25 20:02:13
回答 1查看 38关注 0票数 0

此刻,我有一只熊猫df xx有一个字符串列Name,我希望在Scikit学习管道中在它上使用OneHotEncoder()。但是,我首先想要操作Name列(格式、条形和调整),我想我可以为此构建自己的转换器。看起来是这样的:

代码语言:javascript
运行
复制
class NameModifier(BaseEstimator, TransformerMixin):
   def __init__(self):
      pass
   def fit(self, X, y=None):
      return self
   def transform(self, X, y=None):
      new_name_df = modifyAndReturnNewDataFrame(X)
      return new_name_df

然后我有了这条管道:

代码语言:javascript
运行
复制
my_pipeline = ColumnTransformer([
   ("modify_name", NameModifier(), ["Name"]),
   ("encode_name", OneHotEncoder(), ["Name"])
])

# get prepared data
prepared_data = my_pipeline.fit_transform(x)

这不像我想的那样工作;看起来我的管道首先格式化了名称,但是OneHotEncoder()实际上不是编码修改后的Name列,而是编码原始的Name (没有修改)。如何将这些更改集成到管道中?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-12-26 03:39:51

如果数据在Pandas DataFrame中,我将在通过管道运行数据之前使用apply

代码语言:javascript
运行
复制
import pandas as pd

data = [['Name_1 Space  ', 123], ['Name_2 Space  ', 456]]

df = pd.DataFrame(data, columns=['Names', 'Numerics'])
df['Names'] = df.Names.apply(lambda col: col.strip().replace(' Space', '').upper())

print(df)

        Names  Numerics
0  pre NAME_1       123
1  pre NAME_2       456
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59481481

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档