文章/答案/技术大牛

发布

社区首页 >问答首页 >扩展功能还是紧凑功能？

问扩展功能还是紧凑功能？
EN

Data Science用户

提问于 2016-03-02 22:10:32

回答 1查看 165关注 0票数 1

我有一个分类任务，有三个类别的人。我想申请机器学习。我有10个数据来源，它们有相同的字段(比如说4:年龄、职称、一些组织、一些追随者)。数据不完整，某些配置文件中可能缺少一些字段。培训集是有限的(例如，300个例子)。

我有两种特性工程策略，我不知道该使用哪一种。

扩展功能:采用40个功能(配置文件1年龄，配置文件1职称，.，配置文件10年龄，配置文件10职位)。
紧凑特性:采用4个特性，并应用一些启发式方法来合并来自不同配置文件的值。比如说，采取年龄和职称，这是最常见的，采取了最大数量的组织，采取了一个总数的追随者。

通常使用什么策略来取得最好的效果?为什么？

machine-learning

classification

feature-selection

回答 1

Data Science用户

回答已采纳

发布于 2016-03-03 00:05:55

在我看来，你的10个数据来源，都是指同一组人。根据属性，有些可以扩展，有些可以合并.

像年龄这样的属性应该是唯一的，所以把它扩展到Profile 1年龄，profile 2年龄是没有意义的。一个简单的方法是合并他们是通过使用平均值或使用最大值。扩展年龄只会向您的特征矩阵添加冗余数据，并增加其维度，在大多数情况下，这无助于您的模型的泛化性能。

另一方面，追随者的数量可以扩大。根据数据源的不同，一个人在推特上有10个关注者，但在Google+上有1000个关注者，这可能仅仅意味着他很少使用推特。

话虽如此，您选择功能或设计新功能的方式应该会提高您的模型性能，因此，如果增加追随者的数量实际上会降低交叉验证或测试性能，而不是使用关注者和，那么您就可以简单地使用关注者之和。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/10489

复制

相似问题

问扩展功能还是紧凑功能？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问扩展功能还是紧凑功能？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问扩展功能还是紧凑功能？
EN