前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >IBM编程大赛冠军出炉:清华大学黎建成、滴滴出行顾阳夺冠(附大赛详细采访)

IBM编程大赛冠军出炉:清华大学黎建成、滴滴出行顾阳夺冠(附大赛详细采访)

作者头像
AI科技大本营
发布2018-04-27 12:07:32
1.1K0
发布2018-04-27 12:07:32
举报

记者 | 张明明

2017年12月16日,由IBM与CSDN共同举办的第四季 "Power AI 人工智能马拉松编程大赛"在北京马哥孛罗酒店开幕。此次赛季围绕人工智能在医疗的应用展开。

本次大赛选手总共分为20组,每组选手3~6人不等。从报名情况来看,选手阵容非常豪华,来自北大、清华、中科院、北邮、北师大、北航、腾讯、微软亚洲研究院、搜狗、今日头条等知名院校及科技公司的选手比比皆是。

大赛从上午9:00正式开始,选手需要通过利用半监督的训练方法从有标注和无标注的图像数据中训练出一个模型,并且模型要能够准确地对图像数据中可能产生病变的位置进行自动侦测标注(detection)。

赛题目的:在于考察选手在没有足够量的位置标注(Bounding Box,但是有类别标注)的图片的情况下如何结合数量不多的已标注的图片来进行半监督的训练。其难点在于如何利用好所有的数据资源来提高传统的目标检测模型的准确度。

比赛进行的异常焦灼,在经历12个小时不间断的紧张的编程比拼后,终于迎来了比赛的最终结果。

冠军出炉

最终结果:一等奖1名,获奖团队为: 19组(清华大学黎建成、滴滴出行顾阳)

根据比赛规则,一等奖团队将获得现金奖10000元;二等奖将获得现金奖8000元,而三等奖的现金奖励则为5000元。

结果出来后,AI科技大本营在第一时间对获得一等奖的团队19组的选手进行了独家专访,以下为专访内容:

AI科技大本营:获得冠军,此时最大的感受是什么?

19组:感谢队友协作,一起共同努力才能得到最终的成果。参加编程马拉松活动,感觉打开了新世界,很惊喜,以后有机会希望多多参与。也感谢主办方为比赛进行充分的准备,对问题和比赛的设置都有详细的说明。

AI科技大本营:比赛过程中最大的难点是什么?是如何跨越的?

19组:最大的难点是数据提供的信息非常少。本身医疗领域的问题就非常难,而这次给定的医疗图像只提供少量细粒度的标注以及不明确的标签更是加大了难度。

我们尽可能地解决细分的每一个问题,比如提供的样本存在类别不均衡、数据量小、病灶尺度多样、左右基本一致等,并针对性加了很多优化,因此可能结果相对好一些。

AI科技大本营:如何看待获奖这件事情?在团队协作上有什么技巧吗?

19组:这是一次很棒很有趣的经历,我们充分享受比赛带来的乐趣,获奖只是努力和幸运的结果,未来会一直激励着我们。

团队协作上,我们在赛前就有较多的合作,因此交流非常轻松,整体节奏很好,也省了很多讨论时间。另外赛题需要训两个模型,我俩正好一人一个,分工比较明确。尽可能利用比赛有限的时间去完成我们能想到的解决方案。这是一次很有趣的体验,我

AI科技大本营:获得这笔奖金后,准备怎么使用?

19组:准备用于改良自己的设备,并继续进行人工智能的相关研究。

对话IBM技术大咖

在直播现场,AI科技大本营对本次的出题人之一、IBM高级研发工程师董林进行一对一专访,现场主要围绕赛题设置、陷阱及程序员转型AI等相关问题展开,以下为专访摘录。

AI科技大本营:本次大赛是今年的第四场,IBM举办这类大赛的初衷是什么,想要考察什么内容?

董林:主要是为了大家相互进行交流。我们比赛的目的不是想单纯只看你的准确率,这不是我们的目标。

我们更希望看到的是,因为时间有限,现场完全设计一个很领先的框架不可能,我们更多的是希望看到你针对这个问题的难度做了哪些方面的工作,这其中有什么亮点,简单来说你可以认为我们是鼓励创新,与其关注结果,我们更关注的是你是否有创新的意识在这里面。

AI科技大本营:本次大赛共有12个小时,这20组选手要完成哪些步骤?

董林:主要分为四个部分的内容。

  • 第一:建立模型。首先,这个模型是什么样的,你得提交上来,我们希望这个模型是在我们提供的平台上构建的,这是第一部分。
  • 第二:对自己的模型提出简单的思路。我们不希望是从开源上抓一个模型直接用上,我们更希望看到选手的一些考虑,像你觉得这个问题有什么难度,你做了一些什么样的事,让这个模型更好,我们更希望看到这样的东西。

从无到有,完全真的去设计一个比业内现有更好的模型,这真的是比较难的,因为业内比较前沿的模型都是很多人总结的先辈经验,是总结出来的模型,所以我希望我们的选手也是基于已有的东西做的优化。这是我们希望他提交的第二点。

  • 第三:验证模型。提交报告之前我们会给他一部分我们的考试数据,他拿着考试数据去验证他的模型。按照我们要求的格式输出,我们会对这个输出做一个评分。
  • 第四:合理分工。因为他们要构建的是两个模型,肯定要考虑到合理的分工,刚才说时间其实是比较紧张的,要做两个模型,要训练出一个比较好的结果,这其实是有时间上或者说安排上也要做一些考虑的,不能单纯说先跑这个,跑完这个再跑那个,这样很可能在交卷的时候你只做完了一个。因为刚才说这两个模型虽然占比不一样,一个模型占30分另一个模型占60分,虽然占比不一样,但你有没有做还是差别很大的,大概是这样。

AI科技大本营:本次比赛的赛题准备了多长时间?本次赛题的难点是什么?

董林:本次大赛赛题准备大概是一个多月的时间。

首先,在构建模型的时候,只基于现场的构建肯定是不够的。我们先说多标签分类的模型,这两个模型可以使用的图片都是一样的,我们给的都是8万多张的图片,这么大量级的图片,这个模型肯定是比较复杂的,不管你是用已有的还是自己去训练一个,分类的模型和目标点的模型都是比较复杂的。

另外一个,我们说到目前检测模型,我们提供的数据没有那么多有标签的数据来训练目标检测的模型,如果只靠这部分数据去训练的话,很难得到一个准确率特别高的疾病监测或者是目标检测的模型,这是比较难的。

在数据比较少的情况下怎么去做,前人也提供了一些思路。但这里面优化的空间在哪?这个体现选手的差异空间就有了,你得去考虑这个问题,我怎么在这个地方比较少,有一些优化,怎么用所有的数据能训练出一个在疾病监测里还能比较好的结果,这是有一定发挥空间的。

可以考虑利用已有的模型,能初始化一下模型,让我的模型能更好的收敛,类似这样的思路也希望我们的选手去考虑,不然的话很可能到最终要求交卷的时候都对自己的结果不满意,或者我交上来的结果准确率特别低。

AI科技大本营:参赛选手有学生也有已经工作的人像证劵公司的人,如果您所在的团队招人的话,会考虑哪些因素呢?

董林:深度学习和机器学习它要求的不止是你要有软件设计,或者有算法设计和编程技能,它对于底层理论的要求也比较高。

通过参赛选手能够看到,其中主要分为两部分人群,第一部分是学生。

如果你是在学校中学习计算机的,或者是做软件开发相关专业的,可能会学到一些基本的算法设计。这个算法设计很多都是传统的通用存在的问题,比如说排序,这是最简单最常见的问题,你会学到一些编程的技能或者软件架构的设计技能。

虽然机器学习和深度学习这两个概念已经有很多年了,但它的火爆其实就是近几年的事情。学校在一定程度上是会关注一些热门领域的,如果我是一个学生,我肯定很多时候会看哪个热门,后面找工作可能会比较好找,所以学生在这方面会关注的比较多。

第二部分是其他细分领域的人。

像证劵、金融,他们行业是有传统的机器学习的技能这方面要求的。机器学习和深度学习可以说有很大一部分的理论就是数学的知识,他们对这部分也是有要求的。再加上他们通过一些方式(学习、培训等)获取到一些编程的技能。

这两类人群分别具备两个技能,一个是理论一个是实践。但是这两个技能都必须具备,不然你空有理论是得不出结果的,如果只有实践技能也比较难,所以这两个是都需要具备的。

AI科技大本营:对于程序员想要转型做AI,您能否从技术上给我们分析一下,他们该如何进行转型?

董林:在以前的像软件研发、软件设计、算法设计领域中,有了新的技术或者有一个新的框架,我可能拿过来用一下就学会了,剩下的事情就是如果这里面有BUG我怎么去解决。

人工智能则不同,需要一个开源的框架。比如我们要做目标检测,在一个开源的社区中可以拿到这个模型甚至框架,跑了一下,但是这并没有真正学会,只不过是把这个程序跑了。你可以看他的代码,你发现他的代码是这么写的,但他为什么这么写,这里面是有一定的理论基础是需要具备的,这是不能跳过的。

可以从实践开始进行,但是不能跳过理论基础的积累,跳过之后具备的实践能力永远都只是这个模型我能跑,那个模型我能跑,永远不会具备模型设计的能力。

机器学习更多的是实际问题实际分析,很难有一个像传统的设计一个办公的集成软件,它好像能切合所有公司的办公,在AI的领域,其实你很难说用一个东西去切合解决所有的问题。

转型过程中要多学一些基础的理论,同时也鼓励多实践,要跑一些已有的模型,看它怎么设计的,然后自己去设计一些新的模型,对比学习。

AI科技大本营:您平常如何进行自我培训,会从哪些地方去获取这些知识?

董林:首先是多关注一些在行业中比较领先的企业,比如说谷歌、脸书,微软等。例如关注这些公司最新发布的论文,以及企业大牛的脸书,他们会陆续发布有关AI的动态。

另外,多看一些开源社区的东西、现有的成果,一些作者提供了一篇论文,但他可能没有具体的实现,如果你真的要学习一些新的东西,有的时候论文里的信息不多,你还要看它具体是怎么实现的?以及后期又是怎么被优化的?

对于学习的方式,我们都鼓励共享,所以网上会有各种各样的知识共享,也会有一些公开课,国内其实会做的比较好比如网易公开课,上面有很多国内和国外的理论课程大家可以多关注一些。

附比赛现场照片,一起来回顾比赛现场的精彩瞬间:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
Prowork 团队协同
ProWork 团队协同(以下简称 ProWork )是便捷高效的协同平台,为团队中的不同角色提供支持。团队成员可以通过日历、清单来规划每⽇的工作,同时管理者也可以通过统计报表随时掌握团队状况。ProWork 摒弃了僵化的流程,通过灵活轻量的任务管理体系,满足不同团队的实际情况,目前 ProWork 所有功能均可免费使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档