开发 | 干货满满,阿里天池CIKM2017 Rank4比赛经验分享

AI科技评论按:由深圳气象局与阿里巴巴联合承办的CIKM AnalytiCup 2017第一赛季已经宣告结束。本次比赛的目标是利用雷达数据(多普勒雷达回波外推数据),来建立一个准确的降水预报模型。

这次比赛吸引了1395支队伍参赛,排行榜也已在阿里天池平台进行公示。

在这次比赛中,来自中国科学院的怀北村明远湖队(队员Zhang Rui, Qiao Fengchun, Guo Ran)在GitHub上分享了自己的代码和方法,他们在第一阶段获得第三名,第二阶段获得第四名。AI科技评论将他们发布的内容进行了整理,如下:

背景介绍

在这次比赛中,主办方提供了一组不同时间跨度(间隔为6分钟,共15个时间跨度)和不同高度下(0.5km、1.5km、2.5km、3.5km)测量的雷达图,每个雷达图都包含目标站点和目标站点周围区域的雷达反射率值。每个雷达图覆盖以目标站点为中心,面积为101 * 101平方公里的区域。该区域被标记为101×101格,目标站点位于中心,即(50,50)。

数据集中包含真实的雷达图和气象观测中心收集到的目标站点降水量。

比赛的任务是预测在未来1-2个小时内每个目标站点的总降雨量。

数据处理过程

Percentil Method百分位数法

他们采用统计的方法来降低雷达数据的维度。对于每个雷达图,他们对目标站附近到整个地图范围内不同大小的区域都选取了雷达反射率值的25、50、75、100百分位。

图:以目标站点为中心选取不同的区域

Wind法

他们首先将原始数据(15*4*101*101)压缩成稍小的数据(15*4*10*10),然后通过判断风向,将数据压缩到15*4*6*6个特征。整个预处理过程都是利用卷积神经网络的方法,特别是卷积运算和最大池化。

图:卷积计算表征

图:池化计算表征

他们利用第四层的数据来判断风向。然后,为了计算最终风向,用两种方法来选择有代表性的数据。第一种方法在每10*10单元中使用最大的值作为表征,第二种方法则采用最大的5个数据的平均值作为表征。

在选出有代表性的数据之后,通过每两个时间间隔之间数据的偏差值算出移动方向,最终基于给定的阈值统计不同移动方向的数目,按照数目最多移动方向的确定最终风向。

图:当风向为西、西北、西南时提取特征的方法

模型

在这次任务中,他们的模型结合了Random Forestry、XGBoost和双向GRU单元(Bidirectional Gated Recurrent Unit)等,得出了较为满意的结果。

运用的工具

Python 3.6

Keras

XGBoost

Sklearn

代码地址

https://github.com/zxth93/CIKM_AnalytiCup_2017

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【导读】专知内容组整理了最近六篇图像分割(Image Segmentation)相关文章,为大家进行介绍,欢迎查看! 1.Virtual-to-Real: Le...

3545
来自专栏量子位

AlphaGo Zero你也来造一只,PyTorch实现五脏俱全| 附代码

遥想当年,AlphaGo的Master版本,在完胜柯洁九段之后不久,就被后辈AlphaGo Zero (简称狗零) 击溃了。

1010
来自专栏专知

【论文推荐】最新六篇网络节点表示相关论文—传播网络嵌入、十亿级网络节点表示、综述、属性感知、贝叶斯个性化排序、复杂网络分类

2062
来自专栏专知

【论文推荐】最新九篇目标检测相关论文—混合区域嵌入、FSSD、尺度不敏感、图像篡改检测、对抗实例、条件生成模型

4972
来自专栏星回的实验室

在Spark上用LDA计算文本主题模型

在新闻推荐中,由于新闻主要为文本的特性,基于内容的推荐(Content-based Recommendation)一直是主要的推荐策略。基于内容的策略主要思路是...

1542
来自专栏机器学习养成记

小案例(五):销量预测(python)

案件回顾 饭团销售额下滑 现有冰激凌店一年的历史销售数据 数据包括单日的销售量、气温、周几(问题:如何用这些数据预测冰激凌的销量?) 模拟实验与分析 将数据存...

3956
来自专栏专知

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【导读】专知内容组为大家推出最新六篇视觉问答(Visual Question Answering, VQA)相关论文,欢迎查看!

1124
来自专栏专知

【专知荟萃01】深度学习知识资料大全集(入门/进阶/论文/代码/数据/综述/领域专家等)(附pdf下载)

【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得...

4067
来自专栏AI研习社

限制玻尔兹曼机 - 深度学习之父 Geoffrey Hinton 的神经网络第 12 课(中文字幕)

作为深度学习祖师,Geoffrey Hinton 的每一句每一言,都使学习者如奉纶音。浓缩其毕生所学的《Neutral Network for Machine ...

3434
来自专栏机器人网

技术干货:四轴飞行器姿态控制算法

从陀螺仪器的三轴角速度通过四元数法得到俯仰,航偏,滚转角,这是快速解算,结合三轴地磁和三轴加速度得到漂移补偿和深度解算。 姿态的数学模型坐标系 姿态解算需要解...

3886

扫码关注云+社区