我想在我的流水线中使用降维算法。我有2k特性,我正在使用xgboost。我的模型是每天重建(有新的记录,应该涉及到培训集)。
我正在寻找降维的方法,不设置n_components。我知道在PCA中不应该设置。但是我正在寻找一种方法,在我的数据上找到类似于集群的东西,然后我将用它来训练我的模型。当然,我用来预测的流量也是一样的。
你知道我该如何处理这个案子的数据吗?
发布于 2020-03-08 23:53:39
更好地了解你想要实现的目标,以及为什么选择特定数量的特征值会困扰你,这将是很有帮助的。从您给出的泛型信息来看,您的目标似乎是在几个特性的压缩/密集表示上训练一个模型,在这种情况下,我建议训练一个自动编码器 (或类似的),然后您可以在上面训练您需要的任何分类器。否则,如果问题只依赖于您拥有的功能数量,您可以尝试使用一些特征选择策略。
发布于 2020-08-06 22:28:11
这将有助于了解更多的原因,你会想这样做,但我可以想到的一种方法是首先对你的2000维进行PCA,并得到解释的方差和累积方差。然后为累积方差设置一个阈值,无论哪个维度达到该阈值(例如95%),以该维数作为目标维数的计数,以减少使用PCA或the。因此,如果在维度# 654上获得95%的累积方差,则减少维度的目标应该是654。
https://datascience.stackexchange.com/questions/69370
复制相似问题