此刻,我有一只熊猫df x。x有一个字符串列Name,我希望在Scikit学习管道中在它上使用OneHotEncoder()。但是,我首先想要操作Name列(格式、条形和调整),我想我可以为此构建自己的转换器。看起来是这样的:
class NameModifier(BaseEstimator, TransformerMixin):
def __init__(self):
pass
def fit(self, X, y=None):
return self
def transform(self, X, y=None):
new_name_df = modifyAndReturnNewDataFrame(X)
return new_name_df然后我有了这条管道:
my_pipeline = ColumnTransformer([
("modify_name", NameModifier(), ["Name"]),
("encode_name", OneHotEncoder(), ["Name"])
])
# get prepared data
prepared_data = my_pipeline.fit_transform(x)这不像我想的那样工作;看起来我的管道首先格式化了名称,但是OneHotEncoder()实际上不是编码修改后的Name列,而是编码原始的Name (没有修改)。如何将这些更改集成到管道中?
发布于 2019-12-26 03:39:51
如果数据在Pandas DataFrame中,我将在通过管道运行数据之前使用apply:
import pandas as pd
data = [['Name_1 Space ', 123], ['Name_2 Space ', 456]]
df = pd.DataFrame(data, columns=['Names', 'Numerics'])
df['Names'] = df.Names.apply(lambda col: col.strip().replace(' Space', '').upper())
print(df)
Names Numerics
0 pre NAME_1 123
1 pre NAME_2 456https://stackoverflow.com/questions/59481481
复制相似问题