首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人工智能的崛起背后,是无数“人肉智能”的沉积

导读:人工智能的发展对于数据的渴求,没有奇点,没有临界值,只有多多益善。

从一则“人肉智能”欺诈说起

最近一则高科技诈骗的消息传遍了各大媒体,一家名叫Engineer.ai的明星AI初创公司被爆出用人肉智能代替人工智能。这家以ai作为域名的公司由两名印度创始人创建,号称可以通过人工智能程序,辅助缺少工程师的公司,自动“组装”新的代码。可以像定制披萨一样,为任何人和公司自动生成自己的各种网站和手机app。

Engineer.ai自我宣传的这种模式,收费低、速度快、市场大!这一想法迅速获得买单,吸引了包括软银旗下人工智能专项基金Deepcore Inc.以及其他几家知名投资公司,共2950万美元的风险投资,成就了去年欧洲最大的一笔A轮融资。

但是就在8月14日,《华尔街日报》报道称,有内部员工透露,Engineer.ai并无AI。其所声称的大部分demo制作和软件生成,目前都是依靠印度,以及其他地方的人工工程师来完成的。甚至,这家公司连一个像样的人工智能专家团队都没有,内部能称得上技术的东西,就是决策树了。网民和投资人斥其为人工欺诈,但话说回来,创始人在初始解阶段用人工做原始数据积累训练模型,似乎并不无道理,万一以后训练成了呢,这也是初级阶段必经之路啊!玩笑话,勿当真。但是,人工智能是基于“人肉智能”的原始数据训练而来,这确是不折不扣的真理。人工智能越发达,就越依靠数量庞大的“人肉智能”数据。

| 深度学习绕不开的“人肉智能”标注

今年4月11日,彭博社披露了亚马逊在全球雇佣数千名员工,收听Echo用户家中和办公室录制的对话。这些员工由亚马逊正式员工和承包商组成,他们签署了保密协议被禁止公开谈论这件事。无独有偶,7月12日,谷歌也被披露通过Google Assistant记录用户语音信息并发送给人类进行审查。

为什么这些标榜人工智能的公司,不好好的利用人工智能专家去编程,反而收集大量的用户数据,发给一些与人工智能毫不相干的公司和员工,这样做的意义是什么?答案很明确,为了获得大量带精确标签的原始音频数据,来训练和改进人工智能模型。这些带精确的标签的原始数据对于人工智能有多重要呢?毫不夸张的地说,没有他们就没有深度学习的快速发展。

在2005年以前,整个人工智能学术界和工业界重心都放在如何做出更好的算法,认为无论数据如何,只要算法好就会有好的决策。直到毕业于加州理工大学电子工程学的李飞飞意识到了这样做的局限,并且想到了一个解决方法,就是做一个能详细描绘出整个世界物体的数据集,这个数据集就是后来大名鼎鼎Imagenet 数据集,其中包含320万张经过标记的图片,共分成5,247种类别,12个子树,像“哺乳动物”、“汽车”和“家具”等。一开始,学界对这个数据集的认识是:衡量分类算法在当时最复杂的图像数据集上的表现的一个基准。随着时间推移,研究人员很意外地发现用ImageNet训练过的模型可以做其他识别任务的启动模型,之后经过微调就能完成任务,这不仅是神经网络的突破,也是常规认知的飞跃。2012年的ImageNet挑战赛,计算机视觉领域取得了重大成果,多伦多大学提出了一种深度卷积神经网络结构:AlexNet,成绩比当时的第二名高出41%。AlexNet现在依然在研究中被广泛使用。更令人惊奇的是,通过深度学习不断改进它, 神经网络之间的层能容纳处理更复杂的模式,直到2014年,所有竞赛高分者的研究领域都是深度神经网络。

“ImageNet改变了人们的思维模式:虽然很多人仍然关心模型,但也很关注数据。”李飞飞说,“数据重新定义了我们对模型的思考方式。”

此后的学界和工业界,准确的数据集成为和模型一样重要的资产。各大科技公司都在构建自己更强劲的数据集。大公司希望能利用其自身用户所产生的海量图像、语音片段和文本片段来构建更大的数据集,而初创科技公司也开始通过各种渠道或互联网数据构建自身的大规模数据集。这就出现了上文的那一幕,亚马逊和谷歌都拼命获取用户的数据,构建自身的数据集。

深度学习神经网络,目前最主流的训练方式是“有监督学习”,为了让算法有更高的准确率,数据不嫌多。Google的技术大牛Jeff Dean曾在一次公开课上展示一张图,展示了海量数据的训练结果与准确度的关系,如下图所示:横轴代表数据规模,纵轴代表准确率,蓝线是深度神经网络算法,绿线是传统训练方法。

可以看到,蓝线的准确率和数据规模及质量持续成正比,没有奇点,没有临界值,有的是对于数据的无限渴求。而数据集又是如何获取的,那就是依靠“人肉智能”沉积下来。在创造Imagenet 数据集的时候,为了给庞大的数据集分类和打标,李飞飞首先想到的就是雇佣本科生手工寻找图片,然后添加到数据集中。但她很快发现,按照这样的速度大约需要90年才能完成。后来又想到能否让计算机视觉算法从互联网上选取图片,人工来验证图片的准确性?但经过几个月的研究后,发现同样不可行——算法将会随着时间的推移受到限制,只能在整理数据集时才能发现哪些算法具有识别能力。直到有一次和一名研究生闲聊时,知道了亚马逊有一个众包平台 Mechanical Turk,可以把任务分发给全世界坐在电脑前的人。李飞飞得知后非常兴奋,感觉自己的ImageNet一定能做起来。最终借助Mechanical Turk花了两年半时间才完成这个数据集。其中包含320万张经过标记的图片,共分成5,247种类别,12个子树,像“哺乳动物”、“汽车”和“家具”等。

这种数据集的生产方式影响了整个一代研究者和大型科技公司,从此以后,亚马逊和谷歌这样的科技公司通过各种渠道组织的庞大的人工标注队伍,对获取的用户数据进行分类打标,并筛选,最后用于训练更加优秀的模型。而广大的用户对智能音箱,谷歌助手等工具的吐槽,都成为了海量数据当中的那一搓。

|“人肉智能”标注的行业现状

首先应该提到的就是李飞飞使用过的外包平台 -- AMT(Amazon Mechanical Turk ) 。亚马逊Mechanical Turk是一个众包市场,使个人或企业能够使用人工智能来执行计算机当前无法执行的任务。作为全球最大的众包市场之一,提供按需、可扩展的员工队伍。创业公司、企业、研究人员、艺术家、知名科技公司和政府机构与个人联系起来,以解决计算机视觉、机器学习、自然语言处理等方面的问题。Mechanical Turk 原意为“土耳其机器人”是一个很有内涵的名字,源于欧洲中世纪的一个故事:一位发明家号称发明了一件会下棋的机械,能够与人对弈,而且带着它横扫欧洲的各位象棋大师。后来一位国王下令拆掉这台机器,才发现里面藏着一个真人,真正与人对弈的不是机械,而是其中藏匿的真人。

AMT是一个双赢的平台,跟证劵交易所和大众商品交易所类似,让资方和劳动者的需求都得到了满足。这里资方是requester,在AMT上发布数据标定任务,劳动者是worker,标定数据挣钱。在计算机视觉和人工智能领域,很多数据库和基准都是通过AMT标定出来的,比如ImageNet,ActivityNet,Places。这些大规模数据库推动了整个领域的进展。对于Amazon自己来说,AMT也是个金钵钵,一年多以前Amazon把AMT的收费从10%加到20% (也就是说,requester发布10美元的任务,得多交2美元给Amazon),赚钱妥妥地。

当然,对于资方来说这是一门生意,能压榨的地方绝不手软,比如AMT上的任务支付给“worker”通常都不高于10美分。但对于劳动者而言,这是一个不用出门对着电脑动动手就能赚钱的活,对于一些生活困难的人而言(尤其丧失运动能力的人),这是一项绝佳的的工作。其中有美国某州的单身母亲,说她非常感谢这些图片标定任务,她自己一人在家带孩子,只能靠AMT挣钱养家。另外一语言障碍者,说通过做这些看图写话任务,让他突破了自己的语言障碍重新建立起了生活信心... 大家各取所需。

类似的平台,在中国有:百度标注众包平台、阿里众包、京东众智慧等平台。凡是亚马逊干过的业务,中国的巨头一定有跟随;凡是中国巨头踩过的地方,必然是寸草不生。有知名的自媒体平台采访过国内这个行业的现状,形象称之为:数据折叠 – 光鲜靓丽的语音识别,自动驾驶都是基于海量的“人肉智能”标注数据。

国内外情况都类似,人工智能的发展需要大量人力对原始的数据进行加工,以用于机器学习。而创业团队和巨头公司,为了集中精力研发或保持团队的高学历占比,很少完全自建数据标注团队。由此产生了大量的外部标注需求,外包江湖门派众多、良莠不齐。在“外包方”一端,有 “众包”和“工厂”两种模式。前者是把任务通过平台转接给网民,如“百度众包”、“京东众智”、“龙猫数据”;后者是自己经营团队,对整个流程进行控制,如贵阳梦动科技经营了一个500人的“数据工场”;BasicFinder与二十来家“数据工厂”有长期业务合作,少则几十人,多则两三百人。而在规范的机构之外,还游离着三五人到十几人规模不等的“小作坊”。许多机构在众包和自营工厂两方面都有涉足,众包平台上也有许多以团队为单位接单的“公会”。算法公司和人才多集中在北深杭等科技核心区域,而作为一个“劳动密集型”的低收入行业,数据标注人员散落三四线城市。同样,这个行业为聋哑人和特殊人群提供了一份体面而有价值的工作,在这份工作中,这些人群的专注力和执行力,为他们的赢得了尊重。

时代在快速前行,人工智能就是时代车轮的一部分,载着人类,也碾压着人类前进。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190823A0DVN700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券