想构建一个模型,几十万行数据、400多变量,怎么选?
(1)全部塞进去
模型运行慢,一不小心跑一个月能受得了?更关键塞进了那么多无效变量,效果肯定也不好啊。
(2)按照业务理解选择
不是所有场景都那么好选的,而且这样永远无法发现新的异动点。
(3)PCA主成分压缩
首先PCA这个过程就很慢不说,无效变量还是没有被计算进来了。
......
那么在实际项目中,你是如何进行特征选择的?哪些方法如何实现呢?
本文分享自 数说工作室 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!