我从交通数据中预测汽车的数量。
这是我的数据字典:
“流量-主要道路(公里)”文件包含以下变量(变量名为粗体):
我需要预测变幅AMV。
所以,我有一个热编码的路,并保留日期,时间在我的特点。但是,很多道路都很大。我有太多的特征了。
你能建议我该怎么做吗?
发布于 2018-07-02 17:55:40
我有太多的特征了。
不,你没有:)。
首先,并不是所有的预测对于你想要做的预测都很重要。
我强烈建议使用推车随机森林来回归感兴趣的变量。如果您选择在python中使用来自射频算法包的sklearn进行编码,那么它实际上需要最少的编码。
它的最大优点是它的使用和理解是直接的,而且它还为你提供了训练后所有输入的学习feature_importances_,这样你就可以排除最不重要的输入,并在将来加速推理/训练。
要了解分类和回归决策树之间的差异,请检查此有用链接。
回归的决策树实现通常是C4.5、C5.0或CART算法。sklearn使用的是CART,请看此链接中的1.10.6节。
如何使用sklearn决策树进行回归的一个很好的例子是这。
发布于 2018-07-18 13:56:25
据我所知,你的问题是关于特征选择。如果是这样的话,您可以尝试lasso回归,这是一种正则化技术,它缩小了预测器的系数,从而有助于特征选择。希望这能帮上忙。
发布于 2020-03-11 14:13:37
即使我也同意,功能的数量较少。
我认为你应该按照以下的路线图来完成你的任务:
https://datascience.stackexchange.com/questions/33897
复制相似问题