首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >扩展功能还是紧凑功能?

扩展功能还是紧凑功能?
EN

Data Science用户
提问于 2016-03-02 22:10:32
回答 1查看 165关注 0票数 1

我有一个分类任务,有三个类别的人。我想申请机器学习。我有10个数据来源,它们有相同的字段(比如说4:年龄、职称、一些组织、一些追随者)。数据不完整,某些配置文件中可能缺少一些字段。培训集是有限的(例如,300个例子)。

我有两种特性工程策略,我不知道该使用哪一种。

  1. 扩展功能:采用40个功能(配置文件1年龄,配置文件1职称,.,配置文件10年龄,配置文件10职位)。
  2. 紧凑特性:采用4个特性,并应用一些启发式方法来合并来自不同配置文件的值。比如说,采取年龄和职称,这是最常见的,采取了最大数量的组织,采取了一个总数的追随者。

通常使用什么策略来取得最好的效果?为什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2016-03-03 00:05:55

在我看来,你的10个数据来源,都是指同一组人。根据属性,有些可以扩展,有些可以合并.

像年龄这样的属性应该是唯一的,所以把它扩展到Profile 1年龄,profile 2年龄是没有意义的。一个简单的方法是合并他们是通过使用平均值或使用最大值。扩展年龄只会向您的特征矩阵添加冗余数据,并增加其维度,在大多数情况下,这无助于您的模型的泛化性能。

另一方面,追随者的数量可以扩大。根据数据源的不同,一个人在推特上有10个关注者,但在Google+上有1000个关注者,这可能仅仅意味着他很少使用推特。

话虽如此,您选择功能或设计新功能的方式应该会提高您的模型性能,因此,如果增加追随者的数量实际上会降低交叉验证或测试性能,而不是使用关注者和,那么您就可以简单地使用关注者之和。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/10489

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档