在对TfidfVectorizer输出应用SelectKBest之后,我们在文档术语矩阵中获得了如此多的重复特征。我想删除那些重复的特征。我尝试了一些方法来删除这些冗余功能,但是我需要手动执行很多步骤,如下所示:from sklearn.feature_extraction.text importTfidfVectorizer
text = ["How is your bro
我需要在使用列名的管道中使用自定义转换器。但是,前面的管道转换将数据转换为numpy数组。我知道在管道合适之后,我可以从列转换器对象中检索列名,但是我需要在fit步骤中访问列名。下面的示例中的自定义转换器是一个简单的最小示例,仅用于说明,而不是真正的转换。import pandas as pd
from sklearn.pi