前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >实现无监督学习?谷歌雇百名语言学家为训练数据“镀金”

实现无监督学习?谷歌雇百名语言学家为训练数据“镀金”

作者头像
新智元
发布2018-03-26 15:47:02
6650
发布2018-03-26 15:47:02
举报
文章被收录于专栏:新智元新智元

【新智元导读】自然语言处理大师 Fred Jelinek 有一句名言:“我每开除一名语言学家,我的语音识别系统错误率就降低一个百分点。”不过,在谷歌搜索 app 背后,则有一支超过百人的语言学家团队,专门为神经网络的训练数据“镀金”,提供“金数据”。监督学习下,需要人来处理的“金数据”不可或缺,而无监督学习仍很遥远。

试试向谷歌的搜索 app 询问:“地球上飞得最快的鸟是什么鸟?”,它会回答你:“游隼”。根据 YouTube,游隼的最快速度达到 389 公里/小时。

回答正确,但这个答案不是从谷歌内部的主要数据库中来的。当你问它上述问题时,谷歌的搜索引擎会精确定位到一个 YouTube 视频,这个视频是介绍地球上飞得最快的五种鸟类的,搜索引擎随后从视频中提取出需要的信息来回答你的问题,而没提其他四种鸟类。如果你问它:“光明节有多少天?”或者“Totem 持续多长时间?”,谷歌搜索引擎会知道这里的 Totem 是指太阳马戏团的演出,回答你它持续两个半小时,包括30分钟的休息时间。

谷歌搜索 app 能做到像这样回答问题是利用了深度神经网络。深度神经网络作为人工智能的一种形式,不仅改进了谷歌搜索引擎,甚至让整个谷歌公司,以及 Facebook、微软等其他互联网巨头改头换面。深度神经网络是一种模式识别系统,能够通过分析大量数据学习执行特定的任务。在谷歌搜索 app 的例子中,深度神经网络学会了从互联网上的相关网页中获取长句子或段落,然后从中提取出有关问题答案的信息。

谷歌搜索桌面版最近应用了这些“句子压缩算法”(sentence compression algorithms)。这些算法处理的任务对人类来说非常简单,但一直以来对机器来说是相当困难的,即自然语言处理任务。句子压缩算法显示了深度学习对自然语言理解的促进作用,以及理解并回应人类语言的能力。谷歌搜索部门的产品经理 David Orr 就谷歌的句子压缩研究说:“你需要使用神经网络,起码这是我们发现的唯一的方法,我们使用了我们拥有的所有最先进的技术。”

更不用说其背后还有一大批拥有高等学位的人。谷歌组织了一个由大量语言学博士组成团队,它把这支团队称为“Pygmalion”,使用这些语言学家人工筛选的数据来训练神经网络。实际上,谷歌的机器通过观察人类的做法来学习如何从长段落中提取相关答案,这个过程需要重复多遍,相当漫长。这些艰苦的努力同时证明了深度学习的能力和局限性。为了训练像这样的人工智能系统,需要大量的、由专业人士筛选过的数据。这些数据不容易得到,也不便宜,而且对这种数据的需求不会很快消失。

金数据和银数据

为了训练谷歌的人工智能 Q&A大脑,Orr 的团队还使用过去的新闻报道作为训练数据,让机器学习新闻报道的标题是如何凝缩整个长篇文章的。但谷歌仍然需要这样一支语言学博士团队。他们不仅做句子压缩的示范,而且要标记词类以帮助神经网络理解人类语言。Pygmalion 团队包括了来自全球各地的约100名语言学博士,Orr 称这支团队处理过的数据为“金数据”(Gold Data),而新闻报道之类没有处理过的数据为“银数据”(Silver Data)。银数据当然是有用处的,因为其数量非常大。但金数据是必不可少的。Pygmalion 团队的负责人 Linne Ha 说,这支团队还将继续扩大。

这种有人类协助的 AI 被称为“监督学习”,而且目前为止,神经网络也正是以这种方式起作用的。有时,企业可以以外包的方式做这项工作。例如,人们已经为数百万张猫的照片进行了标记,使得训练神经网络来识别猫相当容易。但其他情况下,研究人员别无选择,只能自己标记数据。

深度学习创业公司 Skymind 的创始人 Chris Nicholson 认为,从长远来看,这种人工标记的方式无法规模化。他说:“未来不应该是这样的。这种无聊到难以置信的工作,我可不想让我的博士生来做。”而且考虑到谷歌需要雇佣来自世界各地,使用各种语言的语言学家,不然这个系统就工作不了,这让深度学习的限制更加明显。Orr 说,当前谷歌 Pygmalion 团队使用的语言有20至30种。希望谷歌之类的公司最终能够实现自动化程度更高的 AI 形式,这种形式称为“无监督学习”。

无监督学习下,机器可以从未标记的数据中学习,谷歌、Facebook 以及马斯克创立的 OpenAI 等公司已经开始这方面的研究。但这仍有很长很长的路要走。今天,AI 仍然需要一个语言学博士团队。

原文链接:https://www.wired.com/2016/11/googles-search-engine-can-now-answer-questions-human-help/

责编:XJ

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档