深度学习已在计算机视觉、自然语言处理等领域引发革命,但表格数据领域仍由经典机器学习算法(如梯度提升)主导。直觉上,神经网络作为通用近似器,理论上应能处理表格数据,但实际效果不及梯度提升树。这可能与决策树的归纳偏置更适合表格数据有关。
2015年,Kontschieder等人提出深度神经决策森林,通过将决策节点的严格二元路由松弛为概率化(使用Sigmoid函数),实现了决策树的可微分性。具体而言:
NODE基于对称生长的遗忘树(Oblivious Tree),每层使用相同特征进行分裂。其核心创新包括:
α-entmax
替换Softmax,实现稀疏特征选择(学习矩阵F
)。 双面α-entmax
,并引入可学习的尺度参数b
。 通过堆叠多个NODE层(带残差连接)构建深度模型:
在Epsilon、Higgs等6个数据集上,NODE与CatBoost、XGBoost和全连接神经网络对比:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。