开发 | 干货满满,阿里天池CIKM2017 Rank4比赛经验分享

AI科技评论按:由深圳气象局与阿里巴巴联合承办的CIKM AnalytiCup 2017第一赛季已经宣告结束。本次比赛的目标是利用雷达数据(多普勒雷达回波外推数据),来建立一个准确的降水预报模型。

这次比赛吸引了1395支队伍参赛,排行榜也已在阿里天池平台进行公示。

在这次比赛中,来自中国科学院的怀北村明远湖队(队员Zhang Rui, Qiao Fengchun, Guo Ran)在GitHub上分享了自己的代码和方法,他们在第一阶段获得第三名,第二阶段获得第四名。AI科技评论将他们发布的内容进行了整理,如下:

背景介绍

在这次比赛中,主办方提供了一组不同时间跨度(间隔为6分钟,共15个时间跨度)和不同高度下(0.5km、1.5km、2.5km、3.5km)测量的雷达图,每个雷达图都包含目标站点和目标站点周围区域的雷达反射率值。每个雷达图覆盖以目标站点为中心,面积为101 * 101平方公里的区域。该区域被标记为101×101格,目标站点位于中心,即(50,50)。

数据集中包含真实的雷达图和气象观测中心收集到的目标站点降水量。

比赛的任务是预测在未来1-2个小时内每个目标站点的总降雨量。

数据处理过程

Percentil Method百分位数法

他们采用统计的方法来降低雷达数据的维度。对于每个雷达图,他们对目标站附近到整个地图范围内不同大小的区域都选取了雷达反射率值的25、50、75、100百分位。

图:以目标站点为中心选取不同的区域

Wind法

他们首先将原始数据(15*4*101*101)压缩成稍小的数据(15*4*10*10),然后通过判断风向,将数据压缩到15*4*6*6个特征。整个预处理过程都是利用卷积神经网络的方法,特别是卷积运算和最大池化。

图:卷积计算表征

图:池化计算表征

他们利用第四层的数据来判断风向。然后,为了计算最终风向,用两种方法来选择有代表性的数据。第一种方法在每10*10单元中使用最大的值作为表征,第二种方法则采用最大的5个数据的平均值作为表征。

在选出有代表性的数据之后,通过每两个时间间隔之间数据的偏差值算出移动方向,最终基于给定的阈值统计不同移动方向的数目,按照数目最多移动方向的确定最终风向。

图:当风向为西、西北、西南时提取特征的方法

模型

在这次任务中,他们的模型结合了Random Forestry、XGBoost和双向GRU单元(Bidirectional Gated Recurrent Unit)等,得出了较为满意的结果。

运用的工具

Python 3.6

Keras

XGBoost

Sklearn

代码地址

https://github.com/zxth93/CIKM_AnalytiCup_2017

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

一位缺觉的父亲记录了他双胞胎宝宝的睡眠数据 并交给机器学习,结果……

1826
来自专栏CDA数据分析师

CDA原创 | 机器翻译之路-再造巴别塔

本文为CDA原创文章,作者曾科,转载请注明来源 巴别塔的轰塌 圣经旧约第十一章,讲到了巴别塔的故事:人类联合起来兴建希望能通往天堂的高塔;为了阻止人类的计划,上...

1758
来自专栏web前端教室

新人学前端,怎么确定目标的阶段性比较好?

学前端怎么确定目标,这类文章网上有许多。但关于这个问题,我也有自己的想法呀,所以我今天也想写一篇这个方面的文章。 今天在零基础前端课上,有一个问题,我觉得非常好...

1945
来自专栏机器之心

严格的评选标准,造就了这张分享量过千的在线机器学习课程榜单

选自Medium 作者:David Venturi 机器之心编译 本文作者 David Venturi 是技术博客 freeCodeCamp 的知名主笔之一。 ...

3046
来自专栏CSDN技术头条

2015伦敦深度学习峰会笔记:来自DeepMind、Clarifai等大神的分享

上周,我有机会参加在伦敦举行的第三届深度学习峰会,上两届分别在旧金山和波士顿举行。 深度学习峰会由 RE.WORK主办,汇集了从工业领域到学术领域不同背景的专业...

1648
来自专栏吉浦迅科技

(图解)人工智能的黄金年代:机器学习

Lady我在整理一些关于Deep learning方面的学习资料,看到好文章总是忍不住想跟各位分享。这次将系统地介绍深度学习的前世今生,文章很有趣,但也很长,将...

36214
来自专栏专知

剑桥大学计算机系博士孙琳:自然语言处理(NLP)的发展以及在教育领域的应用情况(附报告pdf下载)

? ? 大家好!我是孙琳,很高兴参加TAB教育科技论坛,今天分享的题目是“教育应用中的自然语言处理”。首先我先做一下自我介绍,我是剑桥大学计算机系的博士,博士...

3915
来自专栏新智元

【AI再创纪录】机器翻译提前7年达到人类专业翻译水平!

【新智元导读】微软昨天宣布其研发的机器翻译系统首次在通用新闻的汉译英上达到了人类专业水平,实现了自然语言处理的又一里程碑突破。 由微软亚洲研究院与雷德蒙研究院的...

3217
来自专栏数据科学与人工智能

【陆勤践行】机器学习与文本分析

原文作者:微软研究院杰出科学家Ashok Chandra博士,项目经理Dhyanesh Narayanan 译者:张鑫 ? 上个世纪七十年代,当我(Ashok)...

1989
来自专栏程序员互动联盟

零基础,如何选择一门编程语言?

这种问题一般会被初学者问上N多遍,在这姑且分析下,选择什么语言决定性因素太多了,每个人的情况不一样,做出的决定又不尽相同。如果选择的出发点不一样选择的结果也是不...

27210

扫描关注云+社区