关于不同特征集的组合,我有一个小问题。
我的处境:
有一些文件的标题,一些标签和文本分类为“垃圾邮件”或“火腿”。为了从文档(标题和文本)中提取特性,我使用了scikit学习bugtracker跟踪器中描述的方法。
在这个步骤之后,我可以使用clf.fit(X,Y)
,其中X
是fit_transform
-operation的结果,Y
指示文档是火腿(0
)还是垃圾邮件(1
)。
我的问题是:
添加标记作为处理功能的最佳方法是什么?我考虑使用包含标记的FeatureHasher
作为每个文档的特性(例如{"tag1": 1, "tag35":1}
)。
发布于 2014-07-20 08:09:11
您应该看看FeatureUnion
(见这里 )。它允许您创建多个变压器,并将它们的所有输出合并到一个矩阵中。
https://stackoverflow.com/questions/24846105
复制相似问题