AI Challenger 2018启动:“中国版ImageNet”又有新目标

在AI Challenger 2018启动仪式上,联合举办方之一的创新工场董事长李开复在探讨深度学习时如是说。近年来,人工智能的热度有升无退,然而,实际上其在真实世界中的应用还面临着各种具体场景的局限。

AI Challenger最大的希望就是,未来三年,能消除中美年轻顶尖人才之间的差距。从这里走出去的优秀选手,最终能成长为中国乃至世界AI产业的领军人物。那么,AI Challenger 培养人才、创造AI人才交流平台的愿望是否达到了预期呢?在现场交流中,李开复告诉AI前线记者,据他了解,在上一届竞赛中优胜的人才中,相当一部分人已经进入到阿里巴巴、腾讯、百度、搜狗等企业中,还有一部分人选择创业。

赛道设置:以“用AI挑战真实世界的问题”为基础

相比2017年举办的第一届AI Challenger,AI Challenger 2018 联合了更多企业、大学和政府机构,开放了更多的数据集。今年的挑战赛由创新工场、搜狗、美团点评、美图公司联合主办,以“用AI挑战真实世界的问题”为主题,赛道也更贴近商业应用,参赛优胜者自然而然可以选择在相关领域创业。

2018年AI Challenger主赛道包括观点型问题阅读理解、细粒度用户评论情感分析、应中文机器翻译、短视频实时分类、无人驾驶视觉感知;实验赛道包括零样本学习、天气预报、农作物病害检测、眼底水肿病变区域自动分割、迁移学习商品实例分割等。

各赛道聚焦问题要解决的问题、数据集与应用方向等具体介绍如下图:

观点型问题阅读理解竞赛:机器阅读理解是让机器读懂人类语言、和人类更好交流互动的重要领域。此技术可广泛应用于智能搜索、智能客服、智能音箱、语音控制等场景,用AI实现基于文字、语音的人机智能互动。数据集包含30万问题以及相关文章与答案的语料集合,为业界最大。

细粒度用户评论情感分析竞赛:自然语言情感分析是机器理解人类表达和意图的重要领域。此技术可广泛应用于零售、电商、餐饮、服务等用户评价场景,用AI对用户反馈进行智能分析,监测用户喜好、满意度等。数据集包含15万条餐饮用户评论、6大类20个细粒度要素标签,为业界最大。

英中文本机器翻译赛道竞赛:机器翻译正越来越成为人们跨越语言障碍的重要工具,应用于各种领域。数据集在2017年数据集的基础上,总量达到1300万句对,为业界最大;且其中具有上下文情景的中英双语数据达到300万句对,为机器翻译的研究提供了更多探索空间。

短视频实时分类赛道:近几年发展极快的短视频行业具有明显的娱乐性和流行性,深受人们喜爱;基于短视频机器分类的技术还可以广泛用于视频内容分析、编辑与生产,监控、安防等领域。数据集包含20万条短视频、涵盖63类流行元素,为业内首个多标签短视频分类数据集。

无人驾驶视觉感知赛道:自动驾驶技术即将改变我们的出行和生活方式。本次大赛的自动驾驶竞赛采用了UC Berkeley DeepDrive(BDD)2018年最新发布的BDD 100K数据集,这是全世界最庞大、最复杂的自动驾驶数据集,包含原始图片1.2亿张、标注图片10万张,涵盖多样天气和昼夜光照条件。

除5个主赛道之外,AI Challenger 2018还开放5个实验赛道竞赛和相应的数据集,包括基于北京气象局3年气象数据的天气预报竞赛,世界上首个农作物病害检测竞赛和数据集,国内首个眼底病变医学图像检测竞赛和数据集,以3D虚拟图像训练机器“认识”真实世界物品的竞赛和数据集,让机器借助辅助知识学习从未见过的新概念的首个国际性零样本学习竞赛和数据集。

谈到今年赛事的设置,李开复提到了与几位创立ImageNet朋友的聊天,他们认为现在kaggle做得很好,但AI Challenger还是有着特殊意义的。这一是因为kaggle在国内遇到种种问题,不是每个赛道很畅通介入的;第二,kaggle每个比赛使用用英文作为各种规则,还有很多比赛,如图像用英文标注,其实对中国理解度、参与度、落地能力局限性很大,而AIChallenger想要作为一个AI完整训练的平台,做一些事情大大降低中美人才之间的差距。

另外,AI Challenger 2018的赛道设置更贴近实际应用落地,美团CTO表示,今年赛道的以解决现实世界实用场景为出发点,而如NLP、计算机视觉等赛道,均为机器学习领域比较热门,但近年来少有突破性进展的研究领域,而AI Challenger的设置,就是希望汇集智慧,来共同解决切实的问题。

5个主赛道数据集

图像属性数据集链接:https://challenger.ai/datasets/lad2018

英中翻译:https://challenger.ai/datasets/translation

场景分类:https://challenger.ai/datasets/scene

人体骨骼关键点:https://challenger.ai/datasets/keypoint

图像中文描述:https://challenger.ai/datasets/caption

数据集详情参见AI Challenger 官网:https://challenger.ai/

本届AI Challenger 整体奖金规模达到300余万人民币,数据集和竞赛8月29日正式开放,并于12月18、19日进行竞赛的总决赛答辩和颁奖。

AI Challenger 2018的竞赛主要分为三个阶段。第一阶段比赛从2018年8月29日至11月4日,参赛队基于训练集、验证集、测试集A,进行算法设计、模型训练及评估,并提交预测结果,系统会按照评测指标实时反馈分数,并更新榜单排名。个别竞赛采取参赛队提交代码、docker的形式进行比赛。期间进行双周赛排名和评奖。

第二阶段比赛从2018年11月6至8日,开放测试集B;各竞赛提交结果的时限不同。结果提交后即进入评分、排名、代码验证环节,个别比赛还将考察参赛队的算法运行效率。参赛选手在测试集B上的预测结果表现,将作为进入决赛的排名依据。

第三阶段于12月18、19日进行竞赛的总决赛答辩。

此外,AI Challenger还将同步在线上和线下举行活动,线上实验赛道的数据集和竞赛持续建设并于每季度开放新内容,并将在北京、成都等40多个城市举办技术论坛。

“中国版ImageNet”还要实现哪些小目标?

AI Challenger被称为“中国版 ImageNet”,而相比 ImageNet,李开复表示,AI Challenger的数据量更多,赛道设置也更多。今年,AI Challenger为自己设定了几个小目标:

首先,AI Challenger提出了“用AI挑战真实世界的问题”的口号,也就是说,AI Challenger希望在数据集的建设上,既具有科研和学术上的前瞻性,也希望数据集能紧贴AI商业化、AI落地的实际场景、实际需求,从产业需要出发,为学术研究和AI人才培养提供方向性的建议,也反过来帮助产业界更好地利用最新的科研成果,解决真实世界的最有价值的问题。例如,无人驾驶中的车道线识别问题,短视频的实时分类问题,细粒度的用户情感分析问题等,都是这一类的,从产业实际需要出发,又紧扣科研前沿内容的好问题。

第二,今年的AI Challenger希望花大力气,围绕AI数据集和AI竞赛,打造一个AI人才可以自由交流、开放讨论、取长补短、协作互助的世界级的平台。也就是说,AI Challenger不仅仅制作、发布高质量数据,举办大规模的竞赛,还利用数据和竞赛,把人才吸引到这个平台上来,形成一种良好的人才生态,真正促进AI大环境的健康发展。

第三,在AI人才选拔、培养方面,继续开放式社区和平台建设,积淀人才。

目前中国AI产业仍存在很多问题,比如中国欠缺一些深入行业的AI公司,比如说类似IBM Watson这样的、能够针对企业需求开发数据这样的公司,这些应用在医疗、零售、教育等领域的都会产生价值。从业界发展来看,中国科技公司相比国际AI巨头公司,目前也有巨大差距。因此,AI Challenger组委会希望本届挑战赛不仅仅是一场竞赛,更希望挑战者能从现实问题出发,创造出解决现实问题的成果。

“现在人人都在讨论人工智能,讨论深度学习,但我们应该多听取产业界的声音,因为还有太多场景需要探索,还有太多的实际问题需要解决,期待世界各地的AI人才汇集在AI Challenger平台上,用AI挑战真实世界的问题!”

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址http://www.infoq.com/cn/news/2018/08/ai-challenger-2018
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券