文章/答案/技术大牛

发布

团队遥感数据分类算法斩获“神气”大数据算法与应用大赛第一名

文章来源：企鹅号 - 赛博智能

小编

各位好~

再次感谢大家对赛博智能的帮助和支持。在新的一年里，我们团队一定会再接再厉，为大家分享更多的科研成果。

祝大家19年科研顺利，成果多多~

2018年12月07日，由中国气象局授权，中国气象局公共服务中心、中国计算机学会大数据专家委员会等企业单位参与合作的2018中国气象大数据算法与应用大赛( MBDAA)落下帷幕，中科院电子所赛博智能团队在该项赛事中斩获第一名，本文介绍了团队在该项赛事上的比赛成果。

赛事简介

2018中国气象大数据算法与应用大赛（简称“MBDAA”）是气象大数据的算法、应用大型挑战赛事，是中国气象局授权的大数据综合赛事第一品牌。

大赛面向气象大数据行业和应用领域征集需求，以前沿技术与行业应用的问题为导向，通过大赛的举办，激发社会各行业、高校、科研院所等对气象数据应用的想象力和创新力，推动气象数据与多行业数据应用挖掘的市场发展。展现气象数据开放的阶段性成果，提高社会各行业对气象数据应用的能力空间，实现气象大数据全民共用，气象服务产品和算法技术的创新。

竞赛成果

本次2018中国气象“神气”大数据算法与应用大赛-算法赛吸引了来自国内外427支队伍，其中不乏实力强劲的学校以及科技公司。最终我们团队凭借丰厚的积淀和优异的遥感数据分类算法从427支队伍中脱颖而出，斩获本次赛事的冠军。

成绩排行榜

荣誉奖杯

赛题任务

天空的薄云，往往是天气晴朗的象征；而那些低而厚密的云层，常常是阴雨风雪的预兆。本次赛题基于海量云彩图片，希望通过深度学习训练模型，识别图片中不同类型的云彩，预测大赛提供的测试云彩图片。

数据处理

这是一个遥感数据分类问题，赛题提供了5类云彩的图像。首先，我们发现在训练集中存在着一些问题：类别不平衡、数据不干净、训练集样本少。

因此我们对数据集做了初步处理：删除不同类别下相同的图片，然后进行数据增强。增强方式如下：裁剪、旋转、加噪、调节明亮度和对比度。

原图（左上），镜面对称（右上）

高斯噪声（左下），模糊处理（右下）

为了得到更好的泛化性能，我们设置了随机增强函数，保证每次增强的差异性。另外，由于样本类别不平衡，我们单独设置了每类云样本的增强次数，减少了每类样本数量的巨大差异，实现类别平衡。

模型选择

官方给出了ImageNet数据集各个模型的学习能力，但仅供初步参考，因为此题目云数据集与ImageNet有如下差异：

ImageNet数据集更加庞大，使得各模型学习泛化能力得到充分发挥。

ImageNet数据集有1000个类别，而本次赛题数据集只有5个类别。

各模型的学习能力

过于复杂的模型容易导致过拟合，因此我们比较了不同模型在此赛题数据集下的准确率，如下图所示：

模型准确率折线图

模型融合

经过多次实验，我们发现单模型的学习能力是有限的，因此尝试使用三个模型、五个模型以及七个模型简单袋装投票的多分类器融合方式。

不同融合方法性能比较

简单的袋装投票只能提高极小的准确率，而且准确率不会随着模型的增多而提高。此外，由于设置合理的模型权重非常困难，我们没有设置各模型的权重，所以我们放弃了简单袋装投票的方式。因此针对此题目，我们提出了一种新的多分类器融合方式。我们设计的模型结构如下：

模型结构图

模型1与模型2采用不同增强的数据集训练，保证了两个模型的差异性，模型3采取了原数据降级处理，只选择难例样本训练。因此，当模型1与模型2对测试样本分类结果相同时，保证了其大概率的准确性，可以跳过模型3输出结果；当模型1与模型2分类结果不同时，进一步引入模型3做难例样本识别。

夺冠模型

最后，我们将上图所示模型结构视为一个整体，作为一个单独的模型，然后按照所提出的模型融合方式进行融合。得到的最终模型达到了接近87%的准确率，一举夺冠。

夺冠模型

作者简介

魏浩然，2018年由中央民族大学保送至中科院电子所直博，主要研究方向为遥感图像解译、深度学习等。

作者：魏浩然

编辑：冯瑛超

发表于: 2019-01-022019-01-02 20:00:39
原文链接：https://kuaibao.qq.com/s/20190102G18EW000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

团队遥感数据分类算法斩获“神气”大数据算法与应用大赛第一名

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐