我目前正在使用feature selection
方法,如filter, wrapper, embedded
等。
所有这些方法都给出了不同的特征集,并根据它们在其他特征选择方法中出现的频率对它们进行排序。
例:如果在所有6种特征选择算法中都出现了Age
,那么它们的排名将为6
。如果仅在2种特征选择算法中出现gender
,则其秩为2。
因此,我将它们按降序排列,并选择在至少3-4个特征选择算法中出现的特征。
但我想寻求你的帮助
( 1)是否有任何系统的方法,使我只获得返回最佳输出的特征子集?我认为genetic algorithm
的特征选择将返回一个特征子集,这将提供较高的输出。但不幸的是,它列出了所有特性及其重要性。我不想自己定义一个门槛来选择几个。目前的例子是Xgboost产生了一个81的F1分数,其中有27-28个特征,但是当我手动操作时,它只给出了大约81.9或82.1的6-7特性。因此,我希望有一种方法,在不需要人工干预的情况下,自动/系统地选择这6-7特性。
2)是否有像RFE
这样的算法,但是哪种算法能像遗传算法那样进行详尽的搜索,并最终得到最优的特征集?RFE和遗传算法的混合是我所需要的
3)我希望在特征空间中进行详尽的搜索,最后为我提供一个提供最佳f1-SCORE
的最佳特征集,这是我的目标。
我正在寻找一种系统的方法/算法来实现这一点,而不是我决定选择至少在3种专长选择算法中出现的特性。
希望我的问题很清楚。你能帮我做这个吗?
发布于 2020-01-03 14:24:51
https://datascience.stackexchange.com/questions/65791
复制相似问题