首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

团队遥感数据分类算法斩获“神气”大数据算法与应用大赛第一名

小编

各位好~

再次感谢大家对赛博智能的帮助和支持。在新的一年里,我们团队一定会再接再厉,为大家分享更多的科研成果。

祝大家19年科研顺利,成果多多~

2018年12月07日,由中国气象局授权,中国气象局公共服务中心、中国计算机学会大数据专家委员会等企业单位参与合作的2018中国气象大数据算法与应用大赛( MBDAA)落下帷幕,中科院电子所赛博智能团队在该项赛事中斩获第一名,本文介绍了团队在该项赛事上的比赛成果。

赛事简介

2018中国气象大数据算法与应用大赛(简称“MBDAA”)是气象大数据的算法、应用大型挑战赛事,是中国气象局授权的大数据综合赛事第一品牌。

大赛面向气象大数据行业和应用领域征集需求,以前沿技术与行业应用的问题为导向,通过大赛的举办,激发社会各行业、高校、科研院所等对气象数据应用的想象力和创新力,推动气象数据与多行业数据应用挖掘的市场发展。展现气象数据开放的阶段性成果,提高社会各行业对气象数据应用的能力空间,实现气象大数据全民共用,气象服务产品和算法技术的创新 。

竞赛成果

本次2018中国气象“神气”大数据算法与应用大赛-算法赛吸引了来自国内外427支队伍,其中不乏实力强劲的学校以及科技公司。最终我们团队凭借丰厚的积淀和优异的遥感数据分类算法从427支队伍中脱颖而出,斩获本次赛事的冠军。

成绩排行榜

荣誉奖杯

赛题任务

天空的薄云,往往是天气晴朗的象征;而那些低而厚密的云层,常常是阴雨风雪的预兆。本次赛题基于海量云彩图片,希望通过深度学习训练模型,识别图片中不同类型的云彩,预测大赛提供的测试云彩图片。

数据处理

这是一个遥感数据分类问题,赛题提供了5类云彩的图像。首先,我们发现在训练集中存在着一些问题:类别不平衡、数据不干净、训练集样本少。

因此我们对数据集做了初步处理:删除不同类别下相同的图片,然后进行数据增强。增强方式如下:裁剪、旋转、加噪、调节明亮度和对比度。

原图(左上),镜面对称(右上)

高斯噪声(左下),模糊处理(右下)

为了得到更好的泛化性能,我们设置了随机增强函数,保证每次增强的差异性。另外,由于样本类别不平衡,我们单独设置了每类云样本的增强次数,减少了每类样本数量的巨大差异,实现类别平衡。

模型选择

官方给出了ImageNet数据集各个模型的学习能力,但仅供初步参考,因为此题目云数据集与ImageNet有如下差异:

01

ImageNet数据集更加庞大,使得各模型学习泛化能力得到充分发挥。

02

ImageNet数据集有1000个类别,而本次赛题数据集只有5个类别。

各模型的学习能力

过于复杂的模型容易导致过拟合,因此我们比较了不同模型在此赛题数据集下的准确率,如下图所示:

模型准确率折线图

模型融合

经过多次实验,我们发现单模型的学习能力是有限的,因此尝试使用三个模型、五个模型以及七个模型简单袋装投票的多分类器融合方式。

不同融合方法性能比较

简单的袋装投票只能提高极小的准确率,而且准确率不会随着模型的增多而提高。此外,由于设置合理的模型权重非常困难,我们没有设置各模型的权重,所以我们放弃了简单袋装投票的方式。因此针对此题目,我们提出了一种新的多分类器融合方式。我们设计的模型结构如下:

模型结构图

模型1与模型2采用不同增强的数据集训练,保证了两个模型的差异性,模型3采取了原数据降级处理,只选择难例样本训练。因此,当模型1与模型2对测试样本分类结果相同时,保证了其大概率的准确性,可以跳过模型3输出结果;当模型1与模型2分类结果不同时,进一步引入模型3做难例样本识别。

夺冠模型

最后,我们将上图所示模型结构视为一个整体,作为一个单独的模型,然后按照所提出的模型融合方式进行融合。得到的最终模型达到了接近87%的准确率,一举夺冠。

夺冠模型

作者简介

魏浩然,2018年由中央民族大学保送至中科院电子所直博,主要研究方向为遥感图像解译、深度学习等。

作者:魏浩然

编辑:冯瑛超

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190102G18EW000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券