我有一个分类任务,有三个类别的人。我想申请机器学习。我有10个数据来源,它们有相同的字段(比如说4:年龄、职称、一些组织、一些追随者)。数据不完整,某些配置文件中可能缺少一些字段。培训集是有限的(例如,300个例子)。
我有两种特性工程策略,我不知道该使用哪一种。
通常使用什么策略来取得最好的效果?为什么?
发布于 2016-03-03 00:05:55
在我看来,你的10个数据来源,都是指同一组人。根据属性,有些可以扩展,有些可以合并.
像年龄这样的属性应该是唯一的,所以把它扩展到Profile 1年龄,profile 2年龄是没有意义的。一个简单的方法是合并他们是通过使用平均值或使用最大值。扩展年龄只会向您的特征矩阵添加冗余数据,并增加其维度,在大多数情况下,这无助于您的模型的泛化性能。
另一方面,追随者的数量可以扩大。根据数据源的不同,一个人在推特上有10个关注者,但在Google+上有1000个关注者,这可能仅仅意味着他很少使用推特。
话虽如此,您选择功能或设计新功能的方式应该会提高您的模型性能,因此,如果增加追随者的数量实际上会降低交叉验证或测试性能,而不是使用关注者和,那么您就可以简单地使用关注者之和。
https://datascience.stackexchange.com/questions/10489
复制相似问题