我正在处理流量违规数据集,其中包含36列(变量)。我有两个因变量。
示例
id, description, age, sex alcohol vehicle violation level Accident
120 speed 28 M Yes car severe yes
122 win-tint 35 F No truck Medium no
123 left-turn 26 M No car light no
124 failure-veh 28 M No car severe yes因变量为“违规等级”和“事故”。
违规级别有3个等级-服务器中光。
事故有两个层次--是的,不是的
我想预测违规程度和事故。我认为这可以是多目标预测。
有人能帮我哪种算法对此有好处吗?我看过一些文章,建议采用多个输出层的人工神经网络进行分类。
或者我可以选两个模特吗?
预测交通违章程度。
利用违规程度预测事故。
基本上,我试图预测违规程度,然后预测这些违规行为是如何导致事故的。
任何帮助都将不胜感激。
发布于 2018-08-10 07:07:29
一开始,你解释它的方式,它听起来是一个多标签的分类(如CelebA)和方法,我已经使用了那里是我的想法。此外,我认为这是分层分类,因为您的因变量中有子类别。但最后你说你想
利用违规程度预测事故。
那么你的因变量(违规程度和事故)不是已经相互关联/相关了吗?在我看来,你似乎没有两个自变量。我将尝试将问题简化为简单的多类分类,在您的示例6中,如下所示(假设每个数据点都有这些显式标签):
然后,你有6个类/标签来建立一个模型,例如梯度增强树或神经网络。
发布于 2018-08-11 12:18:55
这个问题可以作为一个多任务学习问题来解决。这意味着您有一个具有2 "heads“(负责输出类的最后部分)的公共基模型。有例子表明,多任务学习对问题中的所有任务都是有益的。就像这里。
不确定Scikit-学习多任务学习的能力,但是使用神经网络是相当容易的。您只需构建一个模型(在您的例子中是一个多层感知器),其输出为2,而不是1。
https://datascience.stackexchange.com/questions/36709
复制相似问题