A Performance-Driven Benchmark for Feature Selection in Tabular Deep Learning https://github.com/vcherepanova/tabular-feature-selection
虽然已有有很多关于特征选择的方法,但大多数是基于传统机器学习算法,或者是选择特征用于训练传统机器学习算法。
为了填补这一空白,本文构建了一个表格深度学习环境下的特征选择基准,通过评估所选特征在下游神经网络性能上的表现来评估这些特征选择方法。除了使用传统方法,还使用表格变换器模型的注意力图来选择特征,并提出了Deep Lasso,这是一种基于输入梯度的深度表格模型的Lasso方法。 与以前的工作不同,该研究使用真实数据集进行基准测试,并尝试三种不同方式构造不相关特征:随机噪声特征、受损特征和二阶特征。
表格数据是现实世界中机器学习应用中的主要数据格式。过去,这些应用主要使用传统的决策树模型,如梯度提升决策树(GBDT)
来解决。然而,现代深度表格神经网络开始弥合与传统GBDT的差距。
特征选择的现有方法可以分为三种主要类型:过滤器、包装器和嵌入方法。
Lasso是一种经典的嵌入式特征选择算法,也被应用于深度神经网络中。此外,基于树的算法如随机森林和梯度提升决策树使用内建的特征重要性度量,实现了自动特征选择。一些最近的研究提出了具有嵌入式特征选择的专门的神经网络架构。
基准测试包括12个数据集,其中包括三种类型的额外特征。这些数据集是基于最近的表格基准论文进行收集和调整的,包括ALOI、California Housing、Covertype、Eye Movements、Gesture、Helena、Higgs 98k、House 16K、Jannis、Otto Group Product Classification、Year和Microsoft。其中有八个分类数据集和四个回归数据集。研究者使用准确性来衡量分类任务的下游模型性能,使用RMSE来衡量回归任务的下游模型性能。
在每个基准测试实验中,他们对特征选择算法和下游模型进行了广泛的超参数调整,以优化下游模型的性能。他们使用贝叶斯超参数优化引擎Optuna来选择最佳超参数,基于验证指标选择最佳超参数,并报告在10个随机模型初始化(种子)上计算的测试指标。更多有关最终超参数的详细信息可以在附录部分找到。
传统的特征选择基准通常包括完全随机的无用特征,但实际上,工程化的特征通常具有不同程度的冗余和噪声。因此,研究者引入了三种不同的方法来生成额外的特征,从而构建更有挑战性和现实性的特征选择基准:
为了衡量所提出的基准测试的难度,研究者探讨了不同特征选择算法在排名中是否经常将额外特征排在前k个最重要的特征之中,其中k代表数据集中原始特征的数量。
为了量化不同特征选择方法之间的整体一致性,他们分析了不同选择算法生成的特征排名之间的平均两两Spearman相关性。包含随机额外特征的设置具有最高的相关性,表明过滤掉随机特征相对容易,所有特征选择算法的行为都相似。相比之下,包含二阶额外特征的设置具有最低的排名相关性,暗示了不同算法之间选择偏好的差异更大。
Deep Lasso是一种特征选择方法,旨在通过应用Group Lasso正则化来鼓励深度表格模型中特征的梯度稀疏性,使模型对不相关特征的变化具有鲁棒性。
模型训练
首先,需要训练深度表格模型,这可以是一个多层感知器(MLP)或任何其他可微分模型。训练模型时,使用训练数据 ,其中 是输入特征矩阵, 是目标变量。在训练中,模型的参数 被优化以最小化损失函数 。
Deep Lasso正则化
在模型训练的同时,应用Deep Lasso正则化来鼓励特征的梯度稀疏性。Deep Lasso的正则化项由以下公式给出:
其中, 表示特征的数量, 表示损失函数 相对于第 个特征的梯度。这个正则化项的目标是使模型的输出对于不相关特征的梯度变得稀疏,从而减少对这些不相关特征的依赖。
特征重要性计算
一旦模型训练完成,可以计算每个特征的重要性。特征的重要性由以下公式给出:
这里, 表示损失函数相对于第 个特征的梯度的L2范数。较大的L2范数表示该特征对于模型的输出具有更大的梯度,因此在特征选择中更重要。
Deep Lasso的主要思想是通过鼓励模型在训练过程中对于不相关特征的梯度变得稀疏,从而使模型在特征选择中更加鲁棒。 这可以帮助模型更好地应对噪声和不相关特征,提高模型的泛化能力。同时,Deep Lasso也与其他用于网络可解释性的方法相关,因为它利用输入特征的梯度信息来进行特征选择。
在这一部分,研究者介绍了用于评估特征选择方法的各种方法。
在论文的结果部分,作者介绍了他们对各种特征选择方法进行基准测试的结果。实验分别在两种下游模型上进行:MLP和FT-Transformer,并考虑了不同类型的额外特征:随机特征、受损特征和二阶特征。
以下是基准测试的主要发现:
结果还包括特征选择方法之间的相似性分析。计算了不同特征选择方法之间的成对Spearman相关性,然后在不同数据集之间进行平均。
论文提出了针对深度表格模型的具有挑战性的特征选择基准,以满足特征选择评估中更现实的情境需求。基准包括具有额外无关、受损和多余特征的真实数据集。通过全面的实验,我们在我们提出的基准上比较了各种特征选择方法。
但论文方法有如下待改进的地方: