专栏首页量子位一个耗资数百万的AI数据集,和它背后的90后超人们

一个耗资数百万的AI数据集,和它背后的90后超人们

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI

不够智能的人工智能,往往被调侃成“人工智障”,但不是所有人都清楚知道“智障”的原因。

1994年出生的巨丹,属于清楚知道原因的那部分人。

这个23岁的化工大学化学专业毕业生,从第一份实习工作开始,核心任务就是人工智能中“人工”的那部分,现在她是一个AI视觉数据集审核团队的leader。每当一个新成员加入,她总会引用她的leader曾经向她解释的话:人工智能人工智能,先有人工才有智能,有多少人工才会有多少智能。

“人工要不够,就会从智能变智障。”

超人90后

巨丹领导的是一个12人规模的团队,完全由来自北京高校的实习生组成,专业不限,年龄不限,被核心在意的只有实习的时间。

今年立夏前后,他们开始了每天为期8小时的工作,主要内容就是为审核已被初步标注的数据集。其中一部分人阅读速度快,被分到了审核“看图说话”的工作,另一部分人则较为细心,于是领到了复核“人体骨骼关键点”标注的任务。

数据标注公司给他们开发了专门的审核平台,这些大学在校生人手一个帐号,他们需要审核的工作对象,要么是那些被框定的人物,要么是被标出14个人体骨骼节点的图像。

这是个枯燥的工作,但不时发生一些小趣事。

在验收中,有一张图片的“描述”写道:一个男孩拿着话筒坐在椅子上。但审核验收的同学认为如此秀气的一个女孩儿,怎么就被描述成“男生”了?理所当然驳回让标注组返工。

然而来自标注组的电话随之到来,电话那头一脸懵逼地反问说:难道鹿晗不是男孩吗?图片中拿着话筒端坐的人物正是鹿晗呀。

这样的例子还有很多,有时也确实是标注组的“错误”。比如有一张图片里,他们把王俊凯标注成了李宇春……

其实参与标注、审核验收的都是94、95年出生的年轻人,他们正是鹿晗和王俊凯影响辐射范围里的核心群体,但机械、重复的审核工作,对于青春偶像的认知变得更为“客观”、“理性”和“AI化”。

这样的工作任务日复一日,持续进行了很久,甚至在上线日期紧迫的前几周,他们这12人小组还在周末加班加点,以保证首批数据集如期推出。

5个月辛苦工作后,巨丹等到了第一批反馈。

9月4日,AI Challenger(全球AI挑战赛)数据集正式上线。数小时后,有参赛选手完成了第一波数据集评价,参与这个视觉数据集打造并最终审核验收的产品经理梁睿收到反馈:“数据集很赞,竟然有针对图片的如此丰富的中文场景描述,前所未见”。

听到这样的评价,23岁的巨丹为之前的辛苦工作感到值得。她告诉量子位,一线负责数据集审核验收的工作并不轻松,但收到这样的反馈会让他们由衷开心。

作为数据集审核验收组组长,巨丹比同组其他人更明白数据集的意义和价值,其中大部分来自程序员和工程师的“言传身教”。

毕业于康奈尔大学、本职为创新工场AI工程院产品经理的梁睿告诉她,人工智能之所以被称为人工智能,就是先有人工再有智能,如果人工付出不够,就会变成人工智障。而人工的多少,最后反应为数据集质量的高低。

尽管巨丹并无法详述数据集具体如何让AI算法更智能,但她知道核心原理:“数据不好,就会影响牛逼技术的产生”。

巨丹从事这份工作已有1年多的时间,她表示现在看到的世界“与众不同”,比如在商场人群密集区,她满眼望去都是“人体骨骼节点”的图像,哪些属于上肢,哪些又属于下肢,哪些很清晰,哪些又被遮挡住了……她好几次这样看着就自己笑出声来,觉得自己拥有了一项“超人”的新技能。

之前有外界对这样的工作表达过悲观,认为数据标注审核完全就是新时代的富士康工作,但显然巨丹不这样认为,她觉得有站在前面研发算法和技术应用的人,也不能缺像她一样的背后服务者,即便看起来没有那么光鲜。

AI Challenger数据集验收中

巨丹的观点也得到倪笑海认同,后者是Face++的第4号员工,也是此次AI Challenger提供的三个视觉数据集之一图像中文描述数据集的标注团队负责人。

倪笑海正在打造起一支数据标注方面的正规军,他常对自己的团队说,他们所做的工作可以说是“数字工人”,也可以看做AI前线的认知者,在每一个领域的数据标注中,他们都会因此成为对该领域AI化结合认知最深刻的人。

数据标注的工作,确实不轻松,但也并非外界想象的缺乏前景。

耗资数百万

在Face++,倪笑海承担了这家全球闻名的人脸识别公司光鲜背后的那部分工作,他出身金融财务专业,被印奇、唐文斌和杨沐等人拉拢参与创业,“负责了技术之外所有的事情”。

现在,倪笑海最核心的工作,是为Face++每一个垂直领域的开拓铺垫基础、准备好数据粮草。在Face++,每一名博士都会配备3-4名数据标注人员当助手。而倪笑海领导的300人规模的团队,有些类似于京东壮大过程中的“京东物流”。

这一次给AI Challenger提供图像中文描述数据集标注服务,倪笑海动用了团队中的250人,其中200人标注,50人检查,从2月份正式开工启动,直至近期才基本结束,历时超过7个月时间。

但这还未计入“标准定义”时期的时间。倪笑海认为,这才是一个数据集标注最具挑战的部分。

原本这个数据集标注项目2016年10月就开始寻找团队接手,但在公开标注市场找寻一圈之后,并没有在“客服和运营转型”而来的标注公司中寻得满意的供应商。

于是创新工场投资公司Face++的标注团队进入主办方视野,希望借助经验丰富的Face++标注团队来实现借图像中文描述数据集”标注这一具有挑战的任务。

实际的标注工作并没有马上开始,AI Challenger组委会与Face++标注团队聚在一起,又花了一个月多时间进行任务的“重新定义”。如果不把这个标准工作变成一个可标准化执行的工作,那后期一定问题不少。例如标注的数据会偏,训练出来的模型准确性也会大打折扣。

他认为这个前期定义的需求,需要“产品经理”式的人物定义和梳理,把每一个“描述点”抠清楚。

这也是人类传授机器“智慧”、使其更加“智能”的过程。

比如在最初的设想概念中,图像中文描述数据集中标注“描述”的任务,原始概念是“看图说话,描述图片中的场景”。

但在实际情况出发,这是一个无法标准化完成的任务,因为每一个标注人员之间的主观重心不同、关注点不同,最后描述出的图片可能也会差别巨大。于是在正式启动标注前,组委会和标注团队会花很多时间去明确“场景描述”里的主体,哪些主体需要描述,哪些可以忽略,如何量化描述的正确度。

主干线索明确后,还需要通过多个主观描述让机器算法在学习中找到“客观”,于是在多组对比尝试后,最终选用了5人独立描述1张图片的方式,确保描述的多样性。这是一项对于标注团队来说前所未有的任务。

因为之前的数据集标注,更偏向于垂直领域的算法或自家技术的自检自查,但这次更多出于产业化去做事,试图覆盖学术界到产业界,从落地的角度去看问题,于是标注起来的普适性要求更明显——涉及场景更多,需要的图片数据更广泛,而按照关键词分类,场景数量超过了250个。

倪笑海还透露,在沟通“定义”的过程中,他可以感受到AI Challenger执行委员王咏刚的期望:希望能够倾力投入,从无到有打造一个中文世界的数据集和竞赛,让更多人才和AI交流愈加活跃起来。

量子位请倪笑海对比AI Challenger和ImageNet、MS COCO等数据集,他表示现在后二者在垂直领域上的高精尖地位还无法马上被撼动。此次的数据集建设,创新工场、搜狗、今日头条等主办方致力于广泛参与和影响力,但在将来持续的数据集建设中,超过ImageNet等经典数据集并非没有可能。

关于未来的规划,AI Challenger执行委员兼创新工场AI工程院副院长王咏刚说,主办方将会花几年时间,建成一个具有世界级影响力的科研数据集和竞赛平台。今年的“图像中文描述”、“人体骨骼关键点”、和“翻译数据集”在各自的领域,都形成了独特的优势。但这仅仅是一个开始。接下来,主办方将与最顶尖的学者一起,为最前沿的科学研究建设更多顶级数据集。

然而这并不意味着一切轻而易举,背后的付出很容易被忽略。

王咏刚告诉量子位,这次AI Challenger的数据标注,光成本就花费了数百万元,严格时间投入超过7个月,熟练标注员工投入400人。至少从数据集的角度将,这已是中文世界最具标志意义的AI开发大赛。

数据集

在AI狂飙突进的这几年中,最成功也最经典的数据集,非李飞飞和她的ImageNet莫属。

ImageNet诞生于2009年,在2017年CVPR宣布合并到kaggle,在这8年历程中,完全改变了AI研究的认知、方法,以及留下一个全新的数据集驱动的AI世界。短短7年内,ImageNet优胜者的识别率就从71.8%提升到97.3%,超过了人类,并证明了更庞大的数据可以带来更精确的结果。

很多人都将此视作当今这轮人工智能浪潮的催化剂。更为关键的是,“数据集重新定义了AI从业者对模型的思考方式。”

参与ImageNet挑战赛的企业遍布科技行业的每个角落。2010年的第一场竞赛优胜者都出任了百度、谷歌和华为的高管。马修·泽勒(Matthew Zeiler)利用2013年赢得ImageNet挑战赛时的程序创办了Clarifai公司,目前获得了4000万美元风险投资。

2009年以来,数十个新开发的人工智能研究数据集已经引入了计算机视觉、神经语言处理和语音识别等子领域。如何打造一个ImageNet一样的经典数据集,成为后来者最核心讨论的关键。

在中科院自动化所研究员王亮博士看来,打造ImageNet一样的经典数据集,至少要有三方面的核心投入。

一方面是数据规模,至少是100万级以上的规模,这样才更有说服力;

二是多样性,能够有不同场景下的覆盖,比如人脸识别中,光照、表情、各种角度的多样性是否丰富,都会影响最后结果的准确性和泛化;

三则是数据最好接近真实应用,这样不仅对于学术研究有正向作用,对于技术和产品研发落地,也能不断补足算法开发。

这位国家模式识别重点实验室副主任坦承,做到以上几方面并不容易。

在以往国家模式识别重点实验室的研究中,他们通常的做法是先找可共享的数据集,再不行就自建数据集,但自建则意味着精力和成本投入,即便国家项目中有专门为数据集创建留出的预算,但承担上限也极为清晰,他们尚未有超过50万元规模的投入,这其中还不包括采集相关的费用,真是一件耗时费力的事情。

此外,更便利的方式是和企业合作,企业中的数据集偏向应用,规模和场景也符合,但涉及企业版权、保密等原因,企业开放数据需要机会和运气。

这是王亮博士对此次AI Challenger饱含期待的原因之一。也是这个AI挑战赛从无到有背后最大的挑战。

发起这样的比赛,不仅要投入时间、金钱、人力等各种资源,还要找到并说服合作企业开放数据,而且从结果看,最后搜狗和今日头条开放的数据,也在中国互联网史上堪称前所未见。

在AI challenger宣布推出后的第二天,赛事发起人李开复写下了一篇题为《从1983到2017,我的幸运与遗憾》的文章,详细回顾了1983年至1988年李开复的博士研究往事。

当时在卡内基-梅隆大学攻读计算机博士学位的他,从无到有用统计学的方法,通过建立大型的数据库提升语音识别准确率,并打破了导师坚持的专家系统的研究方式。这让26岁的李开复一战成名。不仅是当年《商业周刊》评选的“1988最重要科学发明”,也让李开复破格留校,成为卡耐基-梅隆大学的助理教授。

其间幸运的是,李开复的博士导师瑞迪(Raj Reddy)给予了这个当时“离经叛道”的学生莫大的支持和鼓励,这位图灵奖得主、CMU终身教授,不仅在精神上表现出“和而不同”的风度,而且在数据库打造和计算资源支持方面,提供了共计30万美元的研发经费支持。

“这在30多年前,我还是一个AI科研人员的时代,能接触到真实世界里如此海量的数据,是个遥不可及的梦想”,谈到这次开放出来的数据集李开复说:“我当年受惠于瑞迪教授的帮助和指导,今天也非常希望能给更多和我一样的年轻人,创造研究机会和条件”。

本文分享自微信公众号 - 量子位(QbitAI),作者:专注报道AI

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 快手AI技术副总裁郑文:为什么说AI是短视频平台的核心能力

    7月初举办的中国软件研发管理行业峰会(CSDI)上,快手AI技术副总裁郑文针对AI技术在短视频领域的应用做了精彩演讲。他介绍了人工智能技术是如何在快手整个业务流...

    量子位
  • AI在中国,还没到抢切蛋糕的时候

    李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI ? 他们中的不少名字,之前并不广为人知。 刘全全、王宇杰、王昌宝、帅靖文、张顺丰、蒋尚达、余革年...

    量子位
  • 明略数据(现在)是一家怎样的公司?

    今年4月,当这只低调独角兽官宣10亿元C轮融资,腾讯和华兴资本加码时,就有不少人问:明略是一家怎样的公司?

    量子位
  • 第一批被AI累死的人

    一眼望过去,一排排的电脑屏幕上,都是类似的画面。也许是因为窗帘的遮光效果太好,略显昏暗的办公环境加上电脑屏幕上被放大的各种物体细节,颇为惊悚。

    镁客网
  • 第一批被AI累死的人

    一双眼睛的局部细节图出现在电脑屏幕上,小慧对着放大的眼睛,一步步地做好标记点。一眼望过去,一排排的电脑屏幕上,都是类似的画面。略显昏暗的办公环境加上电脑屏幕上被...

    CSDN技术头条
  • 还觉得智能是靠人工堆出来的?AI下半场,这家公司要为数据正身

    数据、算法、算力是人工智能的基本三要素。在资本的催化下,算力和算法都得到了“大跃进”式的发展,但作为三要素之一的数据却一直站在聚光灯之外。随着AI的商业化的不断...

    大数据文摘
  • 一张图搞懂美国大数据产业(上)

    ? 数据科学早已不是新鲜事物了,不过对数据质量的需求却是这几年才激增起来的。这可不是一阵时尚或旧词新用,而是一场革命。大至总统选举,小至总部设在厨房餐桌的小创...

    灯塔大数据
  • 李开复看好AI创业为天使投资人支招,谷歌大牛分享处理极大复杂数据的三类实际建议 | 大咖周语录

    数据猿导读 对于大数据的概念以及大数据在各行业的应用,每个人心中都有不同的看法。小编每周都会整理大数据牛人们的精彩观点,让你在最短的时间获得最精的思想荟萃。后续...

    数据猿
  • 大而有用:当大数据遇上征信

      相信在十年前,不,甚至可以缩短到3年前,没有人能想到自己登陆QQ、浏览网页的行为可以影响到今天能否获得一笔资金。如果这笔资金用来解燃眉之急,你会感恩或痛恨曾...

    腾讯研究院
  • PDFMV框架的D

    PDFMV框架是“问题-数据-特征-模型-价值”英文字母的缩写,是一个闭环的系统,具有持续性迭代优化的功能。

    陆勤_数据人网

扫码关注云+社区

领取腾讯云代金券