文章/答案/技术大牛

发布

社区首页 >问答首页 >结合科学知识中的独立特性

问结合科学知识中的独立特性
EN

Stack Overflow用户

提问于 2014-07-20 00:00:04

回答 1查看 3.3K关注 0票数 0

关于不同特征集的组合，我有一个小问题。

我的处境：

有一些文件的标题，一些标签和文本分类为“垃圾邮件”或“火腿”。为了从文档(标题和文本)中提取特性，我使用了scikit学习bugtracker跟踪器中描述的方法。

在这个步骤之后，我可以使用clf.fit(X,Y)，其中X是fit_transform-operation的结果，Y指示文档是火腿(0)还是垃圾邮件(1)。

我的问题是：

添加标记作为处理功能的最佳方法是什么？我考虑使用包含标记的FeatureHasher作为每个文档的特性(例如{"tag1": 1, "tag35":1})。

python

classification

scikit-learn

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-07-20 08:09:11

您应该看看FeatureUnion (见这里 )。它允许您创建多个变压器，并将它们的所有输出合并到一个矩阵中。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24846105

复制

相似问题

问结合科学知识中的独立特性
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问结合科学知识中的独立特性EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问结合科学知识中的独立特性
EN