2017 摩拜杯算法挑战赛，第三名团队解决方案

AI研习社

发布于 2018-03-16 15:44:44

1.7K0

发布于 2018-03-16 15:44:44

文章被收录于专栏：AI研习社AI研习社

比赛已经结束快两个月了，一直拖到现在才开始总结。

官网网址：https://biendata.com/competition/mobike/

GitHub源码：https://github.com/Magic-Bubble/Mobike

根据给出的300万的用户出行记录训练数据，对用户出行的目标地点进行预测

其中，|U|是需要预测的orderid总个数，P(k)是在k处的精度，n是地点个数。

评测函数代码请参考： https://github.com/benhamner/Metrics/blob/master/Python/ml_metrics/average_precision.py

可以将其转化为一个二分类的问题，首先构造出当前订单可能会去的若干地方，然后用二分类的方式给每个候选地址进行打分，选择分数最高的top3集合即可。

样本预过滤。从海量候选集中筛选出最可能的候选样本，清理异常样本，减少样本规模，提高候选集的覆盖率和模型精度。比如用户常去的topN地方，以及从这个地点出发常去的topN地方等。
规则预过滤。定义规则过滤候选集，如距离等，超过某个距离的就过滤掉
起点漂移。将geohash区块临界8块区域记为同一区域，取该区域top连接数目的地。事实证明，这是我们整个方案的瓶颈所在，很多人找车不会在同一个地方找，而大概率可能也会去其附近的地方找车，所以这一步很有必要。

比赛给出的数据是连续两周的用户出行记录，需要预测后面一周的目的地。因此数据集的合理构建也十分有必要，构建方式如下：

具体地，是采用19号之前的为19号加特征，20号之前的为20号加特征，...，最终构建出19,20,21,22,23,24六天的数据作为训练数据。

通过对数据的统计和挖掘，从如下两个视角进行特征的构建：

特征群。共有三个特征群，用户、时间和地点。其中，用户包含热启动和冷启动（之前没有过出行记录），时间包含周内、周末、小时、天等特征，地点包括经纬度、热度、方向等特征。
特征类型。主要包含五个部分，计数特征（比如用户到过这个地方多少次），距离角度特征（出发地到候选目的地的距离方向等），Label窗特征，比率特征（用户到这个地方占其出行次数的比率是多少）等。