小编
各位好~
再次感谢大家对赛博智能的帮助和支持。在新的一年里,我们团队一定会再接再厉,为大家分享更多的科研成果。
祝大家19年科研顺利,成果多多~
2018年12月07日,由中国气象局授权,中国气象局公共服务中心、中国计算机学会大数据专家委员会等企业单位参与合作的2018中国气象大数据算法与应用大赛( MBDAA)落下帷幕,中科院电子所赛博智能团队在该项赛事中斩获第一名,本文介绍了团队在该项赛事上的比赛成果。
赛事简介
2018中国气象大数据算法与应用大赛(简称“MBDAA”)是气象大数据的算法、应用大型挑战赛事,是中国气象局授权的大数据综合赛事第一品牌。
大赛面向气象大数据行业和应用领域征集需求,以前沿技术与行业应用的问题为导向,通过大赛的举办,激发社会各行业、高校、科研院所等对气象数据应用的想象力和创新力,推动气象数据与多行业数据应用挖掘的市场发展。展现气象数据开放的阶段性成果,提高社会各行业对气象数据应用的能力空间,实现气象大数据全民共用,气象服务产品和算法技术的创新 。
竞赛成果
本次2018中国气象“神气”大数据算法与应用大赛-算法赛吸引了来自国内外427支队伍,其中不乏实力强劲的学校以及科技公司。最终我们团队凭借丰厚的积淀和优异的遥感数据分类算法从427支队伍中脱颖而出,斩获本次赛事的冠军。
成绩排行榜
荣誉奖杯
赛题任务
天空的薄云,往往是天气晴朗的象征;而那些低而厚密的云层,常常是阴雨风雪的预兆。本次赛题基于海量云彩图片,希望通过深度学习训练模型,识别图片中不同类型的云彩,预测大赛提供的测试云彩图片。
数据处理
这是一个遥感数据分类问题,赛题提供了5类云彩的图像。首先,我们发现在训练集中存在着一些问题:类别不平衡、数据不干净、训练集样本少。
因此我们对数据集做了初步处理:删除不同类别下相同的图片,然后进行数据增强。增强方式如下:裁剪、旋转、加噪、调节明亮度和对比度。
原图(左上),镜面对称(右上)
高斯噪声(左下),模糊处理(右下)
为了得到更好的泛化性能,我们设置了随机增强函数,保证每次增强的差异性。另外,由于样本类别不平衡,我们单独设置了每类云样本的增强次数,减少了每类样本数量的巨大差异,实现类别平衡。
模型选择
官方给出了ImageNet数据集各个模型的学习能力,但仅供初步参考,因为此题目云数据集与ImageNet有如下差异:
01
ImageNet数据集更加庞大,使得各模型学习泛化能力得到充分发挥。
02
ImageNet数据集有1000个类别,而本次赛题数据集只有5个类别。
各模型的学习能力
过于复杂的模型容易导致过拟合,因此我们比较了不同模型在此赛题数据集下的准确率,如下图所示:
模型准确率折线图
模型融合
经过多次实验,我们发现单模型的学习能力是有限的,因此尝试使用三个模型、五个模型以及七个模型简单袋装投票的多分类器融合方式。
不同融合方法性能比较
简单的袋装投票只能提高极小的准确率,而且准确率不会随着模型的增多而提高。此外,由于设置合理的模型权重非常困难,我们没有设置各模型的权重,所以我们放弃了简单袋装投票的方式。因此针对此题目,我们提出了一种新的多分类器融合方式。我们设计的模型结构如下:
模型结构图
模型1与模型2采用不同增强的数据集训练,保证了两个模型的差异性,模型3采取了原数据降级处理,只选择难例样本训练。因此,当模型1与模型2对测试样本分类结果相同时,保证了其大概率的准确性,可以跳过模型3输出结果;当模型1与模型2分类结果不同时,进一步引入模型3做难例样本识别。
夺冠模型
最后,我们将上图所示模型结构视为一个整体,作为一个单独的模型,然后按照所提出的模型融合方式进行融合。得到的最终模型达到了接近87%的准确率,一举夺冠。
夺冠模型
作者简介
魏浩然,2018年由中央民族大学保送至中科院电子所直博,主要研究方向为遥感图像解译、深度学习等。
作者:魏浩然
编辑:冯瑛超
领取专属 10元无门槛券
私享最新 技术干货