首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >结合科学知识中的独立特性

结合科学知识中的独立特性
EN

Stack Overflow用户
提问于 2014-07-20 00:00:04
回答 1查看 3.3K关注 0票数 0

关于不同特征集的组合,我有一个小问题。

我的处境:

有一些文件的标题,一些标签和文本分类为“垃圾邮件”或“火腿”。为了从文档(标题和文本)中提取特性,我使用了scikit学习bugtracker跟踪器中描述的方法。

在这个步骤之后,我可以使用clf.fit(X,Y),其中Xfit_transform-operation的结果,Y指示文档是火腿(0)还是垃圾邮件(1)。

我的问题是:

添加标记作为处理功能的最佳方法是什么?我考虑使用包含标记的FeatureHasher作为每个文档的特性(例如{"tag1": 1, "tag35":1})。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-07-20 08:09:11

您应该看看FeatureUnion (见这里 )。它允许您创建多个变压器,并将它们的所有输出合并到一个矩阵中。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24846105

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档