首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >预测汽车数量

预测汽车数量
EN

Data Science用户
提问于 2018-07-02 16:30:00
回答 3查看 403关注 0票数 1

我从交通数据中预测汽车的数量。

这是我的数据字典:

“流量-主要道路(公里)”文件包含以下变量(变量名为粗体):

  • 年-从2000年起每年的交通量。
  • CP (计数点)-连接AADF到公路网的道路连接的唯一参考。
  • ONS GOR名称- CP所在的前政府办公室区域。
  • ONS LA名称-- CP所在的地方当局。
  • 路-这是道路名称(例如M25或A3)。
  • RCat -道路类型的分类(请参阅完整列表的数据定义)。
  • S参考- CP位置的东向坐标。
  • S参考N-正坐标CP位置。
  • A-交叉口-连接的起始路口的道路名称。
  • B-交汇处-该路段末端交界处的道路名称
  • LenNet -该公路总长(以公里为单位)。
  • PC -踏板自行车的交通量(以千公里计)。
  • 2 2WMV两轮机动车辆的交通量(以千公里计)。
  • 汽车-车辆的交通量(以千公里为单位),用于汽车和交通。
  • 公共汽车-公共汽车和客车的交通量(千公里)
  • 轻型货车-轻型货车的交通量(千公里)。
  • HGVR2 -两刚轴高速货车的交通量(以千公里计).
  • HGVR3 -三刚轴HGV的交通量(以千公里计).
  • HGVR4 -四个或更多刚性车轴的交通量(以千公里为单位)。
  • HGVA3 -三节或四节车轴的交通量(以千公里计)。
  • HGVA5 -五铰接式车轴车辆的交通量(以千公里计).
  • HGVA6 -六铰接式车轴车辆的交通量(以千公里计).
  • HGV -所有HGV的交通量(以千公里为单位)。
  • AMV -所有机动车辆的交通量(千公里)。

我需要预测变幅AMV。

所以,我有一个热编码的路,并保留日期,时间在我的特点。但是,很多道路都很大。我有太多的特征了。

你能建议我该怎么做吗?

EN

回答 3

Data Science用户

发布于 2018-07-02 17:55:40

我有太多的特征了。

不,你没有:)。

首先,并不是所有的预测对于你想要做的预测都很重要。

我强烈建议使用推车随机森林来回归感兴趣的变量。如果您选择在python中使用来自射频算法包的sklearn进行编码,那么它实际上需要最少的编码。

它的最大优点是它的使用和理解是直接的,而且它还为你提供了训练后所有输入的学习feature_importances_,这样你就可以排除最不重要的输入,并在将来加速推理/训练。

-编辑-

要了解分类和回归决策树之间的差异,请检查此有用链接

回归的决策树实现通常是C4.5、C5.0或CART算法。sklearn使用的是CART,请看此链接中的1.10.6节。

如何使用sklearn决策树进行回归的一个很好的例子是

票数 3
EN

Data Science用户

发布于 2018-07-18 13:56:25

据我所知,你的问题是关于特征选择。如果是这样的话,您可以尝试lasso回归,这是一种正则化技术,它缩小了预测器的系数,从而有助于特征选择。希望这能帮上忙。

票数 0
EN

Data Science用户

发布于 2020-03-11 14:13:37

即使我也同意,功能的数量较少。

我认为你应该按照以下的路线图来完成你的任务:

  1. 分析数据,找出缺少值的列。
  2. 尝试填充缺失的值(如果可能的话),或者您也可以根据其中的空值删除列。
  3. 对于数据不是数值形式的所有列数据,使用一次热编码方法将数据转换为数值形式。
  4. 现在你的数据准备好接受训练了。同时,您还可以看到是否要删除任何功能或创建一个新的功能。
  5. 使用XGBoost、支持向量机、Lasso回归等任何回归算法来训练您的模型,并预测您的值。
  6. 为了验证模型的性能,您应该检查RMSE (根均方误差)。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/33897

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档