【Kaggle冠军分享】图像识别和分类竞赛,数据增强及优化算法

【新智元导读】Kaggle 海洋鱼类识别和分类竞赛冠军团队技术分享:如何设计鲁棒的优化算法?如何分析数据并做数据增强?技术细节包括使用不同船只的图像进行验证,以及如何处理夜视图像。

今年,Kaggle 社区举办了大自然渔业监测大赛(Nature Conservancy Fisheries Monitoring competition),征召参赛者开发能够自动对渔船捕捞的海洋生物种类进行检测和分类的算法。

非法捕鱼等行为对海洋生态系统构成了威胁。这些算法将有助于增强大自然保护协会分析摄像机监控系统数据的能力。在下面这篇获奖者访谈中,冠军队伍“Towards Robust-Optimal Learning of Learning”(Gediminas Pekšys,Ignas Namajūnas,Jonas Bialopetravičius)分享了他们算法的技术细节,比如如何使用不同船只的图像进行验证,以及如何处理夜视图像。

由于比赛数据集中的照片不能公开,团队招聘了平面设计师 Jurgita Avišansytė 为此博文制作了插图。

团队背景

在进入这个挑战赛之前,你的背景是什么?

P:剑桥数学毕业,做了大约 2 年的数据科学家/顾问,约 1.5 年的软件工程师,作为监控应用研究工程师大约有 1.5 年的物体检测研究和框架开发经验。

N:数学本科,计算机科学硕士和 3 年研发工作,在 9 个月的监控项目研究负责人经验。

B:软件工程学士,计算机科学硕士,6 年计算机视觉和机器学习专业经验,目前正在研究天体物理学,对应用深度学习方法十分感兴趣。

有什么以前的经验或领域知识帮助你在这场比赛中取得了成功?

P:我上次参加 Kaggle 比赛获得的工作和研究经验帮助了我参加这次竞赛,也即在第一周的时间里建立合理的验证方法。

N:我在大学学习(主要是自学)、研发的工作经验,还有前两次 Kaggle 计算机视觉竞赛的经验,以及每天阅读 arXiv 论文。

B:我的硕士论文是关于深度学习的,我也有一些 Kaggle 竞赛经验。我在工作中定期解决计算机视觉问题。

你是如何开始参与 Kaggle 竞赛的?

P:我第一次听说 Kaggle 是在我成为数据科学家第一年的时候,但在我转为从事计算机视觉之后几年后才开始考虑参赛。Kaggle 竞赛能让人专注于稍微不同的问题/数据集,并有效地验证不同的方法。

N:我曾经喜欢参与 ACM ICPC 等竞赛。我没有取得特别值得一提的成就,但作为维尔纽斯大学团队成员参加国际比赛是我的学生生涯中最好的体验。在开始从事机器学习和计算机视觉工作后,我喜欢上了长期的挑战赛,所以 Kaggle 再适合不过。

B:我喜欢解决机器学习问题,而 Kaggle 正是做这个的平台。

是什么让你决定参赛的?

P:我想为计算机图像检测和分类做更多的堆叠和定制模型的实验。我还想要比较最近的检测框架/体系结构。

N:对象检测是我的强项之一,这个问题看上去很有挑战性,因为成像条件“in the wild”程度很高。

B:主要是因为这场比赛看起来难度很高,特别是缺乏好的数据。

技术细节及思路解析

你们从以前的研究或比赛中借鉴了什么方法吗?

借鉴了 Faster R-CNN,它在以前参赛中表现很好,我们也有使用和修改它的经验。

使用了什么监督学习方法?

我们主要使用带 VGG-16 的 Faster R-CNN作为特征提取器,其中一个模型是用的带 ResNet-101 的 R-FCN。

数据预处理和数据增强是怎么做的?

大多数用于训练模型的增强管道都是相当标准的。随机旋转,水平翻转,模糊和尺度变化我们都用了,这些方法也都提高了验证分数。然而,最重要的两件事情是使用夜视图像和图像颜色。

我们在早期注意到,夜视图像真的很容易识别——只需检查绿色通道的平均值是否比红色和蓝色通道两者相加的均值更亮就行了,加权系数为 0.75,在所有情况下都适用。观察典型正常图像和夜视图像的颜色强度直方图,可以清楚地发现差异,因为常规图像的颜色分布通常彼此相近,这可以从下图中看出。虚线表示近似这些分布的最佳拟合高斯。

我们想要增加更多的夜视图像。因此,最终的一个模型,也是最后成绩最好的单一模型,随机分配了一些训练图像,并且扩展了直方图,使其更接近于夜视图像。这是针对每个颜色通道分别完成的,并假设是高斯的(实际情况并不是高斯的),并且相应地修改了平均值和标准偏差——基本上就是缩小红色和蓝色通道,从图中可以看出。之后我们也分别对每个颜色通道进行了随机的对比度拉伸。因为夜视图像本身可能是非常多样的,而固定变换无法体现这种变化。

因为这个模型性能非常好,我们还添加了一个不单独使用夜视图像的模型,但却加长了所有图像的对比度。因为这是分别在每个通道上完成的,可能会改变鱼类或周围环境的颜色。由于数据中海洋里光照条件变化多端,真实图像中的颜色不太稳定,所以这种方法结果看上去还是很好的。

比赛中,关于数据方面,你们最重要的看法是什么?

首先,必须具有包含来自不同船舶的图像的验证集,而不是训练集中的图像,否则模型可以根据船舶特征学习分类鱼类,这虽然不会在验证分数上有所体现,但可能会导致 stage2 测试集的精确度下降。

其次,整个数据集中鱼的大小都非常不同,因此对这一点进行处理显然是有用的。

第三,有大量的夜视图像具有不同的颜色分布,因此用不同的方式处理夜视图像也提高了我们的分数。

更重要的是,其他团队在论坛上发布的附加数据似乎包含了很多这样的图像,其中的鱼看起来与放在船上的鱼看起来不一样,因此过滤掉这部分数据很重要。

最后,我们对原始训练图像进行了多边形注释,这有助于我们在旋转图像上实现更准确的边界框,否则图像将包含很多背景(如果旋转框的边框被视为基本真实的)。

参赛工具及硬件配置

你们使用了哪些工具?

我们使用从定制的存储库 py-R-FCN(包括 Faster R-CNN)代码:https://github.com/Orpine/py-R-FCN 。

你们在这次比赛中都做了哪些事情?

我们花了一些时间注释数据,从论坛上发布的图像中找到有用的附加数据,找到正确的扩充来训练模型,查看生成的验证图像预测,然后查看模型可能学到的任何虚假模式。

你们的硬件设置是什么样的?

两台 NVIDIA GTX 1080,一台 NVIDIA TITAN X

你们获胜解决方案的训练和预测运行时间分别是多少?

非常粗略的估计,GTX 1080 训练大约 50 小时,预测每个图像 7-10 秒。我们最好的单一模型其实比整个系统更加精确,可以在 4 小时内训练,需要 0.5 秒进行预测。

对刚入门数据科学的人有什么建议吗?

先阅读介绍类的材料,然后逐渐开始阅读论文,尝试自动动手解决机器学习问题,培养直觉,检查训练好的模型,努力去了解出了什么问题。计算机视觉问题对于练手来说相当不错。学习享受机器学习过程要付出长期的努力,保持兴趣才能保持动力。Kaggle 是学习机器学习的完美平台。

编译原文:http://blog.kaggle.com/2017/07/07/the-nature-conservancy-fisheries-monitoring-competition-1st-place-winners-interview-team-towards-robust-optimal-learning-of-learning/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-07-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 让机器耳濡目染:MIT提出跨模态机器学习模型

选自arXiv 机器之心编译 作者:Yusuf Aytar等人 参与:李泽南 不变性表示(invariant representation)是视觉、听觉和语...

34450
来自专栏一名叫大蕉的程序员

呐你们要的算法(二)No.20

今天聊聊PCA算法。 PCA(Principal Component Analysis),主成分分析,是什么玩意呢? 就是一个将一个n维的特征数据降低到k维的...

18950
来自专栏新智元

Facebook AI实验室最新论文:图像检测的无监督学习(下载)

新智元导读】Facebook最近在美国的日子不算好过。据英国《卫报》报道,Facebook平台上广受欢迎的新闻推送功能实际上严重依赖于编辑团队来决定新闻内容的取...

44780
来自专栏数据派THU

悉尼大学陶大程:遗传对抗生成网络有效解决GAN两大痛点

悉尼大学教授、澳大利亚科学院院士、优必选人工智能首席科学家陶大程博士在9月20日的AI WORLD 2018世界人工智能峰会上发表《AI破晓:机遇与挑战》的主题...

19050
来自专栏AI科技评论

动态 | 商汤 37 篇论文入选 ECCV 2018,开源 mm-detection 检测库

AI 科技评论消息,9 月 8 日-14 日,2018 欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开,ECCV 每两年举办一次,与 CVPR、ICC...

15720
来自专栏新智元

目标检测竞赛利器:中星微一步法模型获国际算法竞赛第一名!

【新智元导读】近日,在国际计算机视觉竞赛PASCAL VOC,中星微以89.0分的总成绩位列第一,获得目标检测单模型第一名。获胜的模型是一步法的目标检测模型,本...

8200
来自专栏机器之心

学界 | 中科大潘建伟团队在光量子处理器上成功实现拓扑数据分析

21040
来自专栏CSDN技术头条

一文带你理解深度学习的局限性

深度学习:几何视图 深度学习最令人惊讶的特点便是极易上手。十年以前,没有人可以猜得到经过梯度下降法训练过的简单参数模型可以在机器感知问题上实现如此惊人的结果。现...

22780
来自专栏钱塘大数据

IBM长文解读人工智能、机器学习和认知计算

人工智能的发展曾经经历过几次起起伏伏,近来在深度学习技术的推动下又迎来了一波新的前所未有的高潮。近日,IBM 官网发表了一篇概述文章,对人工智能技术的发展过程进...

375130
来自专栏企鹅号快讯

What-人脸识别?

说到指纹识别,用过它的都知道,只要在指定区域用手指一轻轻碰,就能解开锁屏。但是说到不常见的人脸识别,相信大家对此就很陌生了。不过没关系,现在就由小编帮你了解一下...

61460

扫码关注云+社区

领取腾讯云代金券