目前,我们正在进行一项学校项目,该项目试图预测某些地区/社区的犯罪数量。
有8种不同类型的犯罪,我们试图找出这些类别之间的相关性,现在我们只剩下4种。我们不需要为每个类别建立一个模型,而是通过一些多输出算法同时预测这四个类别。
我们的样本规模在6年内约为27,000份(从2011年到2016年,每年的4000+ )。我们将使用(可能)交叉验证来构建/测试我们的模型。
请列出已经全部或部分实现了Python库(首选)或R的2-3个算法,您建议在我们的dataset规模中使用这些算法吗?我只找到了与这种算法学习的科学知识。但这是为了分类而不是预测数字。
这是一个入门级的ML课程项目,小组在这一领域经验不足,时间有限,所以我们不想从头开始实现一个算法。
发布于 2016-11-15 03:45:42
对于这个项目,是否需要确切地解释输入变量是如何给出预测的?如果是这样的话,基于树的方法(R库'tree‘、'rpart')和Logistic回归将很容易向您的涉众/讲师解释。
如果这个解释没有那么重要,或者你只需要显示相对预测的重要性,你就会把注意力集中在准确性上。XGBoost是我每天在工作中使用的多类预测的默认建议。如果XGBoost有太多适合您的参数,您可以尝试randomForest,它只有两个主要参数可调。XGBoost和randomForest都有可变重要度度量的功能。(R库XGBoost和randomForest)
发布于 2021-03-23 07:41:31
当我第一次读到你的问题时,我有点困惑。我不知道是多标签还是多目标的问题。但是,经过你的解释,我想你的目标是预测多个属性,比如凶杀和抢劫案给出的失业率,平均评估值,以及其他一些特征。
正如您提到的,神经网络不包括在可能的解决方案中。但实际上,传统的机器学习方法,如支持机器学习(SVM)和随机森林(RF),在这种情况下是合适的。
‘’是Python中一个非常容易处理的工具包,用于构建这样一个模型。你可以在网上找到大量的教程,教你如何训练和适应数据集。我要添加和提醒的是,您需要使用MultiOutputClassifier将它们的单任务模型修改为多任务模型,这可以由from sklearn.multioutput import MultiOutputClassifier
导入。如需进一步参考,只需阅读以下的滑雪官方文件。
https://datascience.stackexchange.com/questions/15115
复制相似问题