我有81个特点,我想从其中选择最好的K,这将是最有用的预测标签。有些特性是数字的,有些是序号的,其余的是绝对的。例如,在这种情况下,我应该独立处理不同类型的功能组吗?
例如:选择所有的数值特征,然后建立一个相关矩阵,然后选择那些与标签相关性最好的特征(并且彼此之间的相关性最小)。接下来,获取分类特性,进行卡方检验,并选择最上面的k属性。然后是顺序变量的其他特征选择方法。
最后,我将从每一组中分别获得最优秀的特性。对于大型数据集来说,这是否是一种合适的方法?还是应该使用某种嵌入式方法,比如整个数据集上的随机森林来确定k个最重要的特性?
发布于 2022-03-11 14:03:57
我推荐下列方法之一:顺序特征选择器(SFS)、顺序后向选择器(SBS)、顺序前向浮点选择器(SFFS)、顺序后向浮点选择器(SBFS)。
您可以在这个链接中读到更多关于它的内容。
https://stackoverflow.com/questions/71439551
复制相似问题