阅读scikit-learn doc on Pipeline,所有示例都将转换器应用于整个数据集(例如,StandardScaler,PCA)。
比方说,有没有可能只缩放数据集中的特定变量?如果这是可能的,那么我可以将我的整个特征工程过程放到一个管道中,并将其应用于我的训练和测试集。
发布于 2017-10-13 08:50:30
您可以结合使用FeatureUnion和自定义转换器,这些转换器只接受您感兴趣的变量。
然而,你是对的,sklearn不能很好地处理异构特性集。有一个库sklearn-pandas,它使它变得更容易,允许您为pandas数据帧的特定列定义单独的管道。
https://stackoverflow.com/questions/46720719
复制相似问题