首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌大脑是如何炼成的:万字无删减版全解密(上)

谷歌大脑是如何炼成的:万字无删减版全解密(上)

作者头像
AI研习社
发布2018-03-29 16:18:31
9700
发布2018-03-29 16:18:31
举报
文章被收录于专栏:AI研习社AI研习社

唯物按:如果说到在机器学习领域领先的公司,想必你不会忽略谷歌。从谷歌翻译到从机器视觉,谷歌一直努力将机器学习应用于可能想象的任何地方。文章从技术、制度、思想演变三个方面讲述了 Google 翻译向 AI 的成功转型的历程。

文章源自纽约时报,作者Gideon Lewis-Kraus,雷锋网编译,将分为上下两部分推送。本文为上半部分,讲述了Google Translate 的转变与谷歌大脑的诞生过程。

从Google Translate 讲起

序:你=你所读的东西

在十一月初的一个周五晚上,东京大学人机交互教授 Jun Rekimoto 正在电脑前准备演讲。当他在浏览网页时,Rekimoto 突然发现社交媒体的时间流上出现了一些有意思的内容。虽然这些内容很轻易就看出是谷歌机翻的,但质量已经有了很大的提升。在访问了 Google Translate 并进行测试之后,Rekimoto 惊讶不已。虽然已经夜深,但 Google Translate 的进展之快依然让 Rekimoto 久久无法入眠。

随即,Rekimoto 在他的博客中记下了这一发现。首先,他在 Google Translate 上输入了菲茨杰拉德的代表作《了不起的盖茨比》里的一个英文节选段落,点击翻译后,与两个日文版本(一个是 1957 年 Takashi Nozaki 的版本,一个是现代 Haruki Murakami 的译版)进行对比。Rekimoto 在和我沟通的一封邮件中提到,Murakami 的译文带有强烈的个人风格,用语非常细腻。而谷歌翻译的版本虽然还带着机翻的痕迹,但更加通俗易懂。

随后,Rekimoto 通过日译英对 Google Translate 进行测试。他把自己口头翻译的《乞力马扎罗的雪》的开头部分简单地输入进电脑中,发现翻译结果几乎可与海明威的原作媲美。当然,海明威是以行文通俗易懂闻名的,雷锋网也请大家来猜猜,哪一段是 Google Translate 所作,哪段是原版文字呢?

NO. 1: Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai「Ngaje Ngai,」the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude. NO. 2: Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called「Ngaje Ngai」in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.

即使对于一个美国土著而言,如果不发现 2 号段落的小小瑕疵,其实很难分辨其中的差别。Rekimoto 表示,其实他对 Google Translate 再熟悉不过了:毕竟在 24 小时前,它只是一个会翻出如下文字的机器:

Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west,「Ngaje Ngai」in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.

在 Rekimoto 把测试结果发在有着一万多关注者的 Twitter 后,在短短几个小时内,上千人也 po 出了他们「调戏」机器翻译的结果。有些几乎完美,而有的则啼笑皆非。

在东京破晓之时,Google Translate 就在这一夜攀上了日本推特的头条热搜,甚至把 cult 动画和人气偶像少女组合都挤了下去。每个人都在困惑:谷歌翻译怎么会突然这样让我们眼前一亮?

四天之后,全球的上百名记者、企业家和广告商蜂拥到谷歌位于伦敦的办公室中,聆听谷歌的特别发布会。宾客们享受着谷歌翻译 Logo 形状的小饼干,手中拿的是印有不同国家语言的纸张(我的是挪威语),此外还被邀请下载 Google Translate 的软件。桌子上的甜甜圈和冰沙都用小牌子标注出各种国家的风味。过了一会,大家被引到了一个黑暗的小剧场中。

Sundar Pichai,Google CEO

伦敦市长 Sadiq Khan 首先上台致辞。他以「我有一位朋友」开场,提起对方对他说,市长大人总让他想起谷歌。市长说,「为啥,因为我什么都懂?」朋友否认道,「不是的,是因为你就像谷歌一样,总是试图把我的话补完。」会场传出了善意的笑声。随后,谷歌 CEO 桑达尔•皮查伊上台发表演讲。

皮查伊此行的一项议程是莅临庆祝谷歌伦敦国王大道新大楼的建成。此外,基于他在不少场合都宣告谷歌的未来将以「AI 为先」,这句话引来了不少猜想。在他的演讲中,皮查伊提到了这句话的真实含义:在未来,谷歌的产品不再是传统计算编程的结果,而是「机器学习」。

谷歌大脑——这是谷歌一个鲜少被提及的部门,实际上已经成立了五年时间。这个部门一直遵循着一个原理:人工「神经网络」能够像婴儿一样,通过不断试错来理解世界,而这能让机器拥有像人类一样的灵活性。这条圭臬并不是什么新主张——早在上世纪 40 年代,也就是现代计算机早期阶段就出现了。但少有科学家将这一想法落地,毕竟它看起来太遥远也太神秘了。

直到 2011 年,当谷歌大脑计划采用这一方法攻克人工智能,采用机器学习来优化谷歌的移动平台。比如,安卓的语音识别现在已经能媲美人类水平;比如,图像识别也已经在一年前首次运用于消费者产品上。

Google Translate 于 2006 年上线,目前已经成为谷歌最受信赖及流行的应用之一。每天,Google Translate 会面对 5 亿个月度活跃用户的 1400 亿个不同语种的单词。它不仅仅是作为一个独立应用而存在,而且作为 Gmail、Chrome 及许多其它谷歌产品的集成功能,我们将它作为一个按钮——一个毫无障碍、非常自然的电子组成方式。

皮查伊在台上提及,直至叙利亚难民危机之时,公司才意识地区间的翻译交流是何等重要。在他背后的屏幕显示,在那段敏感时期,阿拉伯语与德语互译的谷歌翻译请求增长了五倍之多。(这也与皮查伊的想法一致,他在印度出生成长,而雷锋网要指出的一点是,印度是一个多语种国家。)谷歌翻译在此后也已经在稳定增加语种的丰富性,并完善功能,但在过去四年来,质量提升的速度已经大不如前。

直至如今。上个周末,雷锋网也提及了 Google Translate 的大更新,系统已经将大部分请求转换到基于人工智能的系统进行处理。这一更新在美国、欧洲和亚洲都已经上线,包括西班牙语、葡萄牙语、法语、德语、中文、日语、韩语及土耳其语在内的语言,都可以实现与英语的互译。而其它上百种语言也在紧锣密鼓地更新中,以每月预期八个的速度计划在年底前更新完毕。而对于谷歌工程师而言最大的惊喜在于,他们只用了九个月时间就提前完成了。A.I. 系统所取得的进展速度之快,大概就相当于在一夜间掌握了以往技术的总和。

皮查伊对于含蓄的古典文学尤为着迷,一个月前,他曾告诉我,在他山景城的办公室里发表演讲时,PPT 上有些文字还是需要 Google Translate 来辅助显示,毕竟并不是所有人都像物理学家 Robert Oppenheimer 一样能读原版的《博伽梵歌》(雷锋网注:印度圣典,由梵语写就)。因此在伦敦的发布会上,幻灯片上出现了博尔赫斯的经典名言:「Uno no es lo que es por lo que escribe, sino por lo que ha leído.」(评判一个人不应看他所写,而应看他所读。)

带着微笑,皮查伊大声地读着由旧的 Google Translate 展示的令人有些尴尬的直译版本:「One is not what is for what he writes, but for what he has read.」

而在大屏幕的右边,新版的 A.I. 系统版本则展示了一个更加信达雅的译文:「You are not what you write, but what you have read.」

这句话用来描述新版的 Google Translate,却也恰如其分:在某种意义上,Google Translate 的确是第一台通过「饱读诗书」而通晓知识的机器。

谷歌决定围绕 A.I. 而重组公司,实际上是全球机器学习热潮的第一批拥趸。在过去的四年里,谷歌、Facebook、苹果、亚马逊、微软及中国的百度,这六家公司都围绕人工智能展开了一场声势浩大的「人」备竞赛,而大学自然成为了兵家必争之地。企业纷纷向顶尖的学术院系抛出橄榄枝,许以极大的资源和自由。

比如硅谷众人皆知 Facebook 惜才如命,CEO 小扎会亲自通过视频和电话来了解公司即将纳入麾下的优秀研究生,七位数的年薪起跳根本不在话下。而参加人工智能的相关学术会议的人士几乎增加了四倍。科技巨头们在关心的,不仅仅是小打小闹的技术进步,而是如何掌控接下来即将来临的计算平台:普适性极强、无处不在的人工智能。

「人工智能」这个词似乎总是出现得这么理所当然,但实际上它一直是引起混乱和争议的源头。想象你正置身上个世纪 70 年代,在路上拦住了随便什么人,掏出了一个智能手机并向她展示里面的 Google 地图。如果你尝试说服她,你不是什么奇怪巫师,而你拿出的「黑色护身符」也只是一个比阿波罗时光机更为强大的微型电脑,谷歌地图实际上毫无疑问,就是一个能向她展示什么是「人工智能」的东西。

的确如此,这个应用能够为你制定更棒的路线,比如从酒店到机场——显然,机器能比你做得更快更好,此外,它还能对交通进行评判,规划最佳路线,并当你「误入歧途」时,重新判断你的位置并推荐新的路线。

实际上,今天没有人会把谷歌地图与「高贵的」人工智能相提并论。当我们在使用智能这个词的时候,是带着情感色彩的。我们所理解的人工智能,是能与其它初级简单的事物所能完成的东西不同的。现在,我们能用自动化完成一项任务,那么所涉及的相关技能就会降级为一种单纯的机制。

而今天的谷歌地图,似乎还不能对应上我们所想象的「人工智能」这个词,而只能充其量叫作「机器」(robotic):只接受一个明确的请求(从某处到另一处),并尽力满足这个需求。因此,人工智能这个词所能对应的实际工作已经在缩小。

皮查伊将目前的人工智能应用与「通用人工智能」这个终极 boss 区分开来。后者不会涉及具体的指令,而将是一个通用工具,为一般情况下的一般用途而设计。皮查伊认为,公司未来的运转将主要依赖通用人工智能。想象一下,如果你告诉谷歌地图,「我要去机场,但我中途要停下来为我侄子买个礼物,」一个通用版本的人工智能服务——就像三年前的电影《Her》中,斯嘉丽•约翰逊所配音的那个无所不在的助手一样。她能够像你的亲密朋友一样,知道你的一些基本情况:侄子的年龄、喜欢给孩子买什么、哪能找到一个购物商店。

但一个真正智能的地图也能做一些亲密朋友所考虑不到的事情,比如你侄子的学校里,孩子们最近最时髦玩些什么。一个智能的机器能够通过错综复杂的数据抽丝剥茧,并寻找出那些甚至我们自己都浑然不知的需求。

人工智能的新浪潮,也就是 AI 助手——就像苹果的 Siri、Facebook 的 M 及亚马逊的 Echo,都是机器学习的产物,作用大同小异。这些公司在消费者身上做着机器学习之梦,但是机器学习并不一定只局限在消费者身上。三星的医学影像子公司今年宣布,其新款的超声设备能够检测乳腺癌,而管理层也在努力增加人员贮备,以扩大计算机的行业应用。DeepMind 在 2014 年被谷歌纳入麾下,虽然当时的预测显示,人工智能在十年后才能战胜人类,但 3 月份,AlphaGo 就以 4:1 战胜了围棋大师李世石。

1950 年,艾伦•图灵提出的测试指出,计算机如果能在五分钟的文本交流中成功欺骗一个人类对话者,那么就算测试成功。是否机器能在两种语言中自由切换,并能很好地理解人类的语言进行对话?谷歌大脑的成员们正在推动和帮助监督 Translate 项目,满怀信心地相信这样的机器能够成为未来的一位通用人工智能助手。

接下来雷锋网要展示的,就是 Google 的研究人员和工程师们(刚开始只有一两个人,后来变成三四个,最后成长到了上百个)沿着这一方向取得巨大进步的故事了。

这是一个非常少见的故事,尤其是因为它与我们惯常对硅谷的印象相悖。这个故事里面,没有那种在车库里捣鼓一些东西,认为自己可以改变世界的人。它不是一个关于科技解决所有问题的故事,也不是一个关于技术会导致世界毁灭的故事。它也与颠覆无关,至少不是我们通常认为的那种颠覆。

事实上,里面有三个重叠的故事,它们在 Google 翻译向 AI 的成功转型中整合在了一起:一个技术故事,一个制度故事和一个关于思想演变的故事。

  • 技术故事与一个公司专注于一个产品的团队有关,在这里他们只用了别人四分之一的时间,对一个旧产品进行了改进和测试,并形成了全新的版本。
  • 制度故事与公司内一个小而有影响力的人工智能团队有关,他们对一些古老、未经证实和广泛不适用的计算概念出于直觉的信念,颠覆了几乎每一家公司。
  • 思想的故事与一些长期坚持不懈的认知科学家、心理学家和工程师有关,他们看似不合理的信念,最终激起了我们对技术以及意识本身理解上的范式的转变。

第一个故事是 Google Translate 的故事,它发生在山景城的九个月时间里,解释了机器翻译的转变。第二个故事是谷歌大脑的故事。第三个故事是深度学习的故事,它发生在苏格兰、瑞士、日本、加拿大等地遥远的实验室,时间跨度七十多年,它甚至改变了我们对那个会思考的自我的认知。

这三个故事都与人工智能有关。七十年的故事与我们对人工智能的期待与渴望有关,二十五年的故事与它在近期可以做什么有关,而那个九个月的故事则与它现在能做什么有关。这三个故事都是对概念的验证,而所有的一切都只是开始。

谷歌大脑——超级学习机器

Jeff Dean

谷歌大脑(Google Brain)的诞生

虽然 Jeff Dean 顶着高级研究员的头衔,但其实他才是谷歌大脑部门的真正大脑。Dean 长着像卷福一样的长脸,眼窝深陷、身材健壮且精力充沛,总是在谈话中透出一股热情。

Dean 的父亲是一位医学人类学家兼公共卫生流行病学家,经常辗转于世界各地。因此, Dean 的童年也是在周游世界中度过的,明尼苏达州、夏威夷、波士顿、阿肯色、亚特兰大和日内瓦、乌干达、索马里等地都留有他的身影。

同时,Dean 从小就擅长制作软件,他在高中和大学时编写的软件就被世界卫生组织买走使用。1999年,Dean 正式加入谷歌,当时他才 25 岁。从那时起,他几乎参与了谷歌所有重大项目的核心软件系统开发。作为一位功勋卓著的谷歌人,Dean 在谷歌内部甚至成了一种文化,每个人都会拿他当俏皮梗的素材。

2011 年年初,Dean 在谷歌的休息室遇见了吴恩达,后者是斯坦福大学的计算机科学家,同时也是谷歌的顾问。吴恩达表示自己正在帮助谷歌推进一个名为 Project Marvin 的项目(以著名的 AI 先驱马文·明斯基命名),模仿人类大脑结构的数字网格,用于研究“神经网络”。

1990 年在明尼苏达大学读大学时,Dean 也曾接触过此类技术,当时神经网络的概念就已经开始流行了。而最近五年里,专注于神经科学研究的学者数量再次开始快速增长。吴恩达表示,在谷歌 X 实验室中秘密推进的 Project Marvin 项目已经取得了一些进展。

Dean 对这个项目很感兴趣,于是决定分出自己 20% 的时间投入其中(每位谷歌员工都要拿出自己 20% 的时间从事核心职务外的“私活”)。随后,Dean 又拉来了一位得力助手,Greg Corrado 拥有神经科学背景。同年春季末,该团队又迎来了第一位实习生——吴恩达最出色的学生 Quoc Le 。在那之后,Project Marvin 项目在谷歌工程师口中变成了“谷歌大脑”。

“人工智能”一词诞生于 1956 年,当时大多数研究人员认为创造 AI 的最佳方法是写一个非常高大全的程序,将逻辑推理的规则和有关世界的知识囊括其中。举例来说,如果你想将英语翻译成日语,需要将英日双语的语法和词汇全部囊括其中。这种观点通常被称为“符号化 AI ”,因为它对认知的定义是基于符号逻辑的,这种解决方案已经严重过时。

说这种方案过时主要有两个原因:一是它非常耗费人力和时间,二是只有在规则和定义非常清楚的领域才有用:如数学计算和国际象棋。但如果拿这种方案来解决翻译问题,就会捉襟见肘,因为语言无法与词典上的定义一一对应,而且语言的使用中会出现各种变形和例外。不过,在数学和国际象棋上符号化 AI 确实非常强悍,绝对无愧于“通用智能”的名头。

1961 年的这个纪录片点出了人工智能研究中的一个共识:如果可以让计算机模拟高阶认知任务(比如数学或象棋),就能沿着这种方法最终开发出类似于意识的东西。

不过,此类系统的能力确实有限。

上世纪 80 年代,卡耐基梅隆大学的研究人员指出,让计算机做成人能做的事情很简单,但让计算机做一岁儿童做的事情却几乎不可能,比如拿起一个球或识别一只猫。十几年后,虽然深蓝计算机在国际象棋上战胜世界冠军,但它离理想中的“通用智能”差的还很远。

关于人工智能,研究人员还有另一种看法,这种观点认为电脑的学习是自下而上的,即它们会从底层数据开始学习,而非顶层规则。这一观点上世纪 40 年代就诞生了,当时研究人员发现自动智能的最佳模型就是人类大脑本身。

其实,从科学角度来看,大脑只不过是一堆神经元的集合体,神经元之间会产生电荷(也有可能不会),因此单个神经元并不重要,重要的是它们之间的连接方式。这种特殊的连接方式让大脑优势尽显,它不但适应能力强,还可以在信息量较少或缺失的情况下工作。

同时,这套系统即使承受重大的损害,也不会完全失去控制,而且还可以用非常有效的方式存储大量的知识,可以清楚区分不同的模式,同时又保留足够的混乱以处理歧义。

其实我们已经可以用电子元件的形式模拟这种结构,1943 年研究人员就发现,简单的人工神经元如果排布准确,就可以执行基本的逻辑运算。从理论上来讲,它们甚至可以模拟人类的行为。

在生活中,人类大脑中的神经元会因为不同的体验而调节连接的强弱,人工神经网络也能完成类似任务,通过不断试错来改变人工神经元之间的数字关系。人工神经网络的运行不需要预定的规则,相反,它可以改变自身以反映说吸纳数据中的模式。

这种观点认为人工智能是进化出来而非创造出来的,如果想获得一个灵活且能适应环境的机制,那么绝对不能刚开始就教它学国际象棋。相反,你必须从一些基本的能力,如感官知觉和运动控制开始,长此以往更高的技能便会有机出现。既然我们学语言都不是靠背诵词典和语法书的,为什么计算机要走这一道路呢?

谷歌大脑是世界上首个对这种观点进行商业投资的机构,Dean、Corrado 和吴恩达开始合作不久就取得了进展,他们从最近的理论大纲以及自 20 世纪八九十年代的想法中吸取灵感,并充分利用了谷歌巨大的数据储备和庞大的计算基础设施。他们将大量标记过的数据输入网络,计算机的反馈随之不断改进,越来越接近现实。

一天,Dean 告诉我“动物进化出眼睛是自然界的巨变。”当时我们正在会议室里,Dean 在白板上画出了复杂的时间线,展示了谷歌大脑与神经网络发展历史的关系。“现在,电脑也有了‘眼睛’,我们也可以借助‘眼睛’让计算机识别图片,机器人的能力将得到巨大的提升。未来,它们能够在一个未知的环境中,处理许多不同的问题。”这些正在开发中的能力看起来虽然比较原始,但绝对意义深远。

重量级实习生 Geoffrey Hinton

Geoffrey Hinton

Dean 表示,诞生一年后,谷歌大脑就在开发具有一岁儿童智力机器的实验中取得了巨大进展。谷歌的语音识别部门顺势将自己的老系统中的一部分改成了神经网络,借此该系统取得了 20 年来最好的成绩。

同时,谷歌的物体识别系统也跃升了一整个数量级。不过,这并非因为谷歌大脑的团队想出了什么新点子,而是因为谷歌在该领域投入了大量人力物力,填补了原本研发领域的空缺。

随后,Geoffrey Hinton 的到来将谷歌的战果再次扩大。成立第二年,吴恩达离开谷歌(现任百度首席科学家,领导 1300 人的 AI 团队,雷锋网此前也做过相关报道),Dean 则请来了 Hinton,原本 Hinton 只想离开多伦多大学在谷歌待三个月,因此他成了谷歌的重量级实习生。

在实习生培训过程中,辅导人员会说“输入你的LDAP(目录访问协议)”,从没在此类公司任职过的 Hinton 举手问道:“什么是LDAP ?”在场一起接受培训的年轻人,虽然只是刚刚弄清深度学习与人工智能的关系,却都在想“这个老家伙是谁?为什么他连 LDAP 都不懂?”

直到有一天,一位学生在餐厅见到 Hinton 教授并问道“Hinton 教授!我选修了你的课!你在这里做什么?”一切关于他的质疑才烟消云散。

几个月后,Hinton 在两位学生的帮助下,在 ImageNet 大型图像识别竞赛中技惊四座,计算机不仅识别出猴子,而且能区分蛛脸猴和吼猴,以及各种各样不同品种的猫。随后,谷歌马上对 Hinton 和他的学生伸出了橄榄枝,他们也欣然接受。“我本以为谷歌要买我们的知识产权,”Hinton 说道。“结果它们是对我们这几个人感兴趣。”

Hinton 出身于一个传统的英国家族,他们家非常重视教育,因此出了不少著名学者。他的曾祖父 George Boole 在符号逻辑方面的基础工作为计算机专业打下基础,Hinton 的另一位曾祖父是著名的外科医生,Hinton 的父亲则是一个热爱冒险家的昆虫学家,而 Hinton 父亲的表哥则在 Los Alamos 研究所工作。

Hinton 也很争气,他先后在剑桥和爱丁堡两所高等学府进修,随后又到卡耐基梅隆大学教书,现在 Hinton 则转到了多伦多大学。笔者曾在 Hinton 的办公室对他进行采访,当时 Hinton 衣帽整齐,一副英国绅士形象。不过,一开口 Hinton 的个人色彩就挡不住了,他甚至打趣说“电脑恐怕都比美国人更早理解讽刺为何物。”

上世纪 60 年代在剑桥求学时,Hinton 就开始了对神经网络技术的研究,他是该领域当之无愧的先驱。不过,由于该理念过于超前,每次他向别人提到机器学习,人们都觉得他是在胡扯。

由于受到了感知机(Perceptron ,50 年代末研发的人工神经网络)这一概念被过去热炒的影响,当时搞神经网络的研究的人简直就是学术界的异端。当时,《纽约时报》还曾撰写报道称,感知机未来有可能会“走路、说话、阅读、写作甚至再造自己,并意识到自己的存在”。结果这证明这一切只是幻想而已。

1954 年,马文·明斯基在普林斯顿的论文中就将神经网络选做研究主题,但他对Rosenblatt 关于神经范式所做的夸张说法已经厌倦了。后来,明斯基与麻省理工的同事合作出版了一本书,证明了有些问题即使非常简单,感知机也永远无法解决。

不过,当时的条件下明斯基抨击的只是“单层”的神经网络,而 Hinton 则认为若使用多层神经网络,就可以执行复杂的任务。简单来说,神经网络就是一台机器,能够从数据中发现模式并以此进行分类或预测。有一层神经网络,你可以找到简单的模式,但如果层数增多,就可以找出模式中的模式。

如果将这一理论套用到图像识别中去的话,执行图像识别的神经网络主要使用“卷积神经网络”(这是 1998 年的一篇开创性论文中阐述的概念,该论文的主要作者是法国人 Yann LeCun ,他曾是 Hinton 的学生,现在则是 Facebook 人工智能实验室负责人),网络的第一层负责学习识别图像最基本的视觉效果“边缘”,也就是判断一个像素旁边是否有东西。

随后的各层神经网络都会从前一层寻找模式,“边缘”可以是圆型也可以是矩形,而这些形状可能就是人脸。这种识别方法与人眼类似,都是将信息组合在一起,从视网膜中的光线感应器将信息回传到大脑的视觉皮层。在处理过程中,那些不相关的细节会被即可丢掉,因为如果各种形状结合成一张脸后,你无须在意脸部的位置,只需明确它是一张脸就行。

在 1993 年的一段演示视频中,Yann LeCun 展示了自己卷积神经网络的早期版本,该系统随后派上了大用场,在 20 世纪末处理了美国银行经手的 10%-20% 的支票。现在,卷积神经网络则成了图像识别系统背后的超级大脑。

不过,多层的深度神经网络可不像单层的那么容易搭建。假设你在训练一个小孩子,让他拿起绿色的球放进红色的盒子,这一动作很容易学习,但如果你要求那个孩子拿起绿色球穿过三号门再放进 A 盒子可就不容易了,他很容易在过程中出错。你如何教会孩子完成这一系列动作呢?总不能一直在他耳边喋喋不休的重复吧?

为了解决多层出错的问题,Hinton 和其他几个人找到了一种解决方案(也可以说是改进了一个老方案)。当时还是 70 年代末、80 年代初,这一方案重新点燃了学界对神经网络的兴趣。“人们对此非常兴奋,”Hinton 说道。“但其实我们错估了其他人的兴趣。”很快,Hinton 这样的人又成了学界眼中的怪人和神秘主义者。

不过,在哲学家和心理学家那里,Hinton 的想法依然很有市场,他们将其称之为“连接主义”或“并行分布式处理”。虽然加拿大政府一直对 Hinton 全力支持,但它们也难不出计算能力足够前行的计算机和数据。“我们只能自我安慰,一旦时机成熟,我们就能做出点什么。”Hinton 说道。

详解深度学习

当皮查伊抬出“AI 为先”的概念时,他可不止是在描述公司的商业战略,也同时把这一长久以来都没有起到多大作用的概念扔给了公司。皮查伊大方的资源分配让 Dean 和 Hinton 这样的专家能获得有力支持,他们有足够的数据和计算能力来推进自己的研究。从科学角度来说,人的大脑拥有 1000 亿个神经元,而每个神经元则会与其他 1 万个神经元连在一起,这就意味着神经突触的数量在 100 万亿到 1000 万亿之间。

如果以上世纪 40 年代的标准来看,想复制这样的复杂网络根本是不可能的。我们离真正的神经网络还差着十万八千里。不过,谷歌持续的投资至少让我们通过人工神经网络实现了小白鼠大脑部分切片的功能。

要理解规模的重要性,你就得理解更多相关细节,即机器究竟对数据作做了什么?我们对 AI 的恐惧,大都因为觉得它们会像一个神秘的学者一般在图书馆挖掘学习知识,然后,从前只会玩曲别针的机器或许有一天能像对待一只蚂蚁或者莴苣一样轻松碾死人类。

不过,AI 可不是这样工作的,它们每天只是在搜索并寻找共同点。开始其模式非常简单,随后逐渐深化。现在最大的危险则在于我们是否最初就给它灌输了一些包含偏见的信息。

假设你想用老式的符号化 AI 模型打造一个猫咪识别程序,首先就必须花大量时间给机器灌输到底什么是“猫”。随后在对照片进行学习时,程序会遵循一大堆“如果”,并通过这些限制条件来识别猫咪。不过,如果你拿来一张苏格兰折耳猫的图片,它就会在耳朵这一“如果”上卡住,符号化 AI 根本就不认这种耳朵出现变化的猫咪,这样的识别水平连蹒跚学步的小孩都不如。

不过,换到神经网络的话,就根本无需猫的定义这个限制了,二进制会处理一切。得到指令后,神经网络会自动对相互连接的交换机进行调教,将输入的数据变成准确的输出数据。训练时用到的数据越多,得到的输出数据就越准确,一旦整个训练过称完成,神经网络就能稳定的处理数据并做出可靠的预测,这就是所谓的“监督式学习”。

不过,需要注意的是,神经网络有一定的概率性,因此它并非万金油,不能通吃所有任务。所以,如果它将狗狗识别成了猫咪,无需惊慌。但如果将这一情景换到自动驾驶领域,我们可就要惊慌了,因为 0.1% 的错误率可能就会要了你的命。

此外,由于监督式学习是基于标记过的数据的,因此人类依然会扮演重要的角色,如果在输入时做了错误的分类,未来在情境识别时神经网络可能就会出错。

猫咪识别论文

谷歌大脑部门推进神速,一年多的时间,它们就成功让机器掌握了一岁小孩的技能。随后,它们的部门成功从谷歌 X 实验室“毕业”,升级成高一级的研究机构。不过,当时的谷歌大脑团队依然只有不到 10 个工作人员,对于未来,他们也只有一个较为模糊的概念。

不过,就像人一样,在学会了形状并开始认识皮球这一事物后,我们会为之满足一段时间。但最终,人类会开始产生关于皮球的问题,这就是语言出现的原因。

在探索过程中,谷歌先整出了一篇关于猫的论文。这篇论文向我们展示了带有超过 10 亿个“突触”连接的神经网络,这比当时任何公开的神经网络模型都要大好几百倍,不过与人类的大脑相比,依然小了好几个数量级。这个神经网络能识别原始的、无标签的数据,并识别高难度的人类概念。

谷歌大脑的研究者向神经网络展示了几百万帧的静态 Youtube 视频,然后,神经网络的感觉中枢开始运转,分离出了一个稳定的模型。和所有的小孩一样,这一模型能毫不犹豫地识别出猫的脸。

这一神经网络在识别猫脸前可没有让研究人员“开小灶”,它对猫的定义和知识一无所知。神经网络直接与现实世界交互并且抓住了“猫”这一概念。(研究者发现,这一神经网络就好像核磁共振成像一般,猫的脸部的阴影会激活人工神经元)。

其实,大多数的机器学习都受限于标签数据的数量,但该论文却显示,神经网络同样能识别原始的无标签数据,有时甚至是人类自身都还没建立起知识的数据。这一成果并不只是让神经网络识别猫脸这么简单,它对于人工智能的整体发展都有很大意义。

这篇论文的第一作者是 Quoc Le 。这位大学者个头不高,说话轻声细语但语速极快。

Quoc Le 从小在越南长大,父母都是普通农民,小时候家里甚至连电都没有。不过,他在童年时就显示出了超强的数学天赋。20 世纪 90 年代 Quoc Le 还在上学时,就曾经尝试开发聊天机器人。他在想,这会有多困难呢?现实告诉他,开发聊天机器人确实不是个轻松活。

毕业后,Quoc Le 离开了越南到澳大利亚的堪培拉大学学习,主要研究计算机视觉一类的 AI 任务。当时,这一领域使用的方法,是要给机器填入大量的关于事物的定义性概念,这让他觉得像是在作弊。Le 当时并不清楚,世界上同样有很多计算机科学家跟他有类似的想法,他们都认为机器是能够从零开始学习的。

2006年,Le 在德国的马克斯普朗克研究所生物控制部门任职。在那里的一个读书小组中,他读到了 Geoffrey Hinton 的两篇论文,他觉得自己的任督二脉瞬间被打通了。

“当时这两篇论文引起了很大的争议”,他说道。“非常非常大”。随后,他看了一眼自己画在白板上曲线,又轻声重复到,“我从来没有见到过那么大的争议。”

他清楚的记得,当时自己在阅读小组中站了起来并表示:”这就是未来。“当时,这并不是一个很受欢迎的决定。他远在澳大利亚的导师还曾写邮件问他:“你为什么做了这个决定?”

“当时我没想好怎么回答,”Le 说道。“我只是非常好奇。它们提出了一个很成功的范式,但老实说,我只是对这一范式感到好奇。2006 年时,这样的观点非常稀有。”随后,Le 转到斯坦福并加入了吴恩达的团队,随后他开始顺着 Hinton 的道路向前迈进。“2010 年年底,我已经非常确信会有大事发生了。”

随后,Le 到伦敦进行实习,而关于猫的那篇论文,就是在这一段时间打下的基础。在一个简单的层面上,Le 想看看计算机是否可以被训练,并实现对给定图像绝对必要信息的识别。他给神经网络输入了一个他从 YouTube 采集的静态片段。随后他告诉神经网络丢弃图像中包含的一些信息。

神经网络随后抛弃了一些信息,最初是随机的。接着他告诉计算机:“刚才是开玩笑,现在重新创建初始图像,你只需根据你保留的信息进行显示就行。这种要求就像他要求计算机找到一种方法来“总结”图像,然后从摘要再回溯到最初的图像。如果摘要是基于不相关的数据,如天空的颜色,而不是胡须,计算机就不能执行完整的重建。

计算机的表现就像是原始人,他们对于剑齿虎的印象是在逃跑过程中建立的。Le 的神经网络与前人不同,它需要进行一次一次又一次的尝试。从数学的层面上来说,它每一次都会选择对不同的信息进行优化,然后表现会越来越好。

这样看来,神经网络就是一个黑箱,它确实生成了某种范式,但人类很难从外部对其进行观察和理解。

关于猫的论文虽然让 Le 声名鹊起,但他自己并未感到自己掌握了业界的话语权。不过,他感受到了一种动力,未来的研究要跟他早年开发的聊天机器人联系在一起。在发表那篇著名论文后,他意识到,如果你能让一个神经网络对照片进行总结,你也可以让它对一些句子进行总结。在接下来的两年中,这些想法一直在 Le 和他在谷歌大脑的同事 Thomas Mikolov 大脑中萦绕。

有段时间,谷歌大脑团队由于发展过快甚至占领了高管的办公室。随后,管理处还专门发邮件让他们不要在公司 CEO 办公室门口的沙发上睡觉。

在谈到那位“同路者” Mikolov 时,Le 神情有些变化,但总是不断提起他的名字和两人之间的合作。后来才知道,原来 Mikolov 已经去了谷歌的对手 Facebook。

2012 年时的谷歌大脑团队

在这段时间里,他们试图搭建出新的神经网络架构,不但能应付简单的静态图片分类,还能搞定更为复杂的任务,如语言或音乐。他们用到的理念上世纪 90 年代就诞生了,Le 和他的同事们专门回溯了那些长期被忽视的概念,一边找寻其中被忽略的闪光点。

他们知道,一旦你建立了一个具有基本语言预测能力的设施,你就可以继续做其他各种智能的事情, 比如预测一个合适的电子邮件回复,或智能地预测一个谈话的过程。这样,你就可以侧重于那种从表面看起来很像思维的能力。

本文为雷锋网编译的上半部分,敬请期待后续的下半部分。

via NewYork Times

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 序:你=你所读的东西
    • 重量级实习生 Geoffrey Hinton
    相关产品与服务
    语音识别
    腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档