首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

KDD Cup 2018:参赛队伍3400+,多来自中国高校

本文将为你介绍三部分内容:一、KDD Cup能为我们带来什么?二、KDD Cup 2018参赛队伍分布情况。三、针对空气质量预测的方法思路。

本文将为你介绍三部分内容:

一、KDD Cup能为我们带来什么

二、KDD Cup 2018参赛队伍分布情况

三、针对空气质量预测的方法思路

KDD Cup作为目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛,从而被外界誉为大数据领域的“奥运会”。

截至北京时间5月22日18:26时,KDD CUP 2018已有3447支队伍参赛。

KDD Cup可以带来什么

纵观KDD Cup历史,近年来许多试题都有很强的应用背景。

在过去几年中,空气质量问题已经影响了很多发展中国家的大城市。在众多空气污染物中,PM2.5是最致命的一种之一。

如果可以准确预测污染事件,市民和政府可以随之作出适当的决策,从而减少污染带来的损害。

2018年的KDD Cup正是植根于空气污染开展竞赛。

2015年的主题是预测在全中国最大的慕课平台——学堂在线中的学生逃课率。

2016年的主题则是给定任何研究领域(如机器学习、数据挖掘等),根据5年的历史数据,预测2016年指定会议的机构排名。

2017年的挑战来自预测交通拥堵。

这些题目都拥有着很强的应用背景:

预测MOOC平台的逃课率,对于保持和激励学生的学习积极性十分有益;

而针对机构排名的预测评估方法,则可以应用到评估广告的传播效益、新媒体账号的影响力等其他方面;

2017年的比赛题目也寄托了组委会希望用算法和数据来赋能交通领域,减少拥堵的发生。

总之,在KDD Cup题目中获胜的算法与技术,都可能让我们的生活变得更好。

参赛队伍情况

KDD Cup 2018自3月15日正式启动。

3月的赛程主要是发放数据,供各队进行探索性数据分析。

整个4月则被用来进行练习赛,5月1日起正式开始决赛。

在决赛的31天中,选手每天都需提交对未来空气质量的预测,提交的结果将会和真实空气质量数据进行比较,并根据SMAPE进行评分。

决赛阶段最好的25天的分数的平均值将作为队伍的最终得分。

图 截至5月22日14时 排名前10的队伍

学校与机构分布

排名第一的队伍“First floor to eat Latiao(一楼吃辣条?)”由来自中南大学与北京邮电大学的同学共同组队而成,这支队伍已经在第一的位置保持了一段时间。

排名三四五的队伍竞争激烈,名次变动十分频繁,几小时前还是第五的“getmax”,截至5月22日17点时,已经跃居排名榜第三。

在前五支队伍中,名校组队占大部分,且成员几乎全部来自中国。

来自清华大学的“613啪啪队”保持稳定发力。三四五名撕咬激烈,613的诸位也在闷头追赶。

前十名的队伍中,分别包含了来自清华大学、北京大学、中山大学、國立台灣大學、爱荷华大学的学生,以及来自日本知名电信公司Docomo的研究员等。

国家与地区分布

前10名的队伍成员中,有9支队伍包含或者完全是中国人,其余1支队伍的成员则来自日本。

在全部参赛队伍中,来自中国地区(含中国台湾)的参赛队伍几乎是欧洲+北美地区的10倍。

结合往届KDD Cup排名情况,以及2017年前20名几乎被中国包圆的情况来看,KDD Cup在中国的火热程度正逐年增长,在北美和西欧地区的热度有所下降。

刨去中国地区的选手后,亚洲队伍与其他国家地区队伍比例基本为1:1。

预测空气质量的方法思路

距离比赛结束还有9天,各支队伍基本已经有了自己的方法。

根据AMiner的了解,在此简单说明一下预测空气质量的思路。如有错误,欢迎指正。

各队首先对数据进行了初步的分析,发现训练数据中存在一些噪音,包括重复,异常,缺失等,需要通过去重,插值,归一化等方式进行预处理。

近年来循环神经网络(Recurrent Neural Networks, RNNs)在序列建模方面取得了巨大的进展,本次比赛的问题也可定义成时间序列预测问题。

有队伍使用 LSTM 模型获取不同时刻数据的关系,并进一步使用CNN-RNN 模型提高模型的预测精度。同时,也有参赛队伍使用ARIMA,CRF,STL,forecastxgb等方法来模拟空气质量的时间序列。

除了网站给出的气象数据外,也有参赛者通过融合外部数据来增强预测模型,包括空间点、人流移动、交通流量、文本图像数据等。他们主要通过时间趋势与空间趋势的半监督学习对异构数据进行融合。

在时间趋势上,不同时段的pm值上升概率略有不同,但整体形状相似。

通过对CNN-RNN Model的特征分析,发现风速、湿度、气压、温度对空气质量有显著的影响。

在空间特征处理方面,怎样利用地理位置信息,是参赛者需要考虑的问题。

对了,我们招人了,了解一下?

BAT资深算法工程师独家研发课程

最贴近生活与工作的好玩实操项目

班级管理助学搭配专业的助教答疑

学以致用拿offer,学完即推荐就业

┏(^0^)┛欢迎分享,明天见!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180531A0YY7E00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券