首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌大脑背后的大脑Jeff Dean:最快15年实现通用人工智能

谷歌大脑背后的大脑Jeff Dean:最快15年实现通用人工智能

作者头像
新智元
发布2018-03-27 14:32:19
5870
发布2018-03-27 14:32:19
举报
文章被收录于专栏:新智元新智元

【新智元导读】《福布斯》网站今日刊文,专访“谷歌大脑背后的大脑”Jeff Dean。Dean回顾了他自1999年加入至今在公司的不同角色,重点介绍了谷歌大脑的项目内容。Dean 认为,谷歌保持创新的源泉在于保持部门的灵活性。软件开源与开放的文化有助于这家公司吸引顶级人才,从事研发。他个人猜测,实现通用AI最快仅需15年。

Jeff Dean 是谷歌最早的雇员之一,他1996年从华盛顿大学计算机系获得博士学位,1999年加入谷歌。他是谷歌成长过程的关键人物,谷歌分布式计算基础构架主要由他设计和完成,该构架支持了谷歌的大部分产品。

谷歌 CEO Sundar Pichai 曾说谷歌将从根本上成为一家人工智能公司。作为系统和基础构架部门的资深研究员,Dean和他的团队对于实现这一目标至关重要。在这篇内容广泛的访谈中,Dean 描述了他在谷歌的多种角色、公司的 AI 愿景,他对于谷歌如何在成为巨头后保持企业奋斗精神的看法,以及许多其他话题。

谷歌如何与官僚主义战斗

Peter High:Jeff Dean,你从1999年起就加入了谷歌,见证了谷歌的大部分岁月。请简要介绍一下在谷歌的 17 年间你的角色演变。

Jeff Dean: 当我加入时,公司还很小。我们都挤在帕洛阿尔托的大学街上的一座小办公室里。我做的第一件主要任务是建造我们的第一个广告系统。而后我用了四五年时间做抓取、索引和搜索系统,这些是每一次谷歌检索都会用到的服务。之后,我大多与我的同事 Sanjay Ghemawat 等人一起工作,建造软件基础构架,谷歌用该构架来存储和处理大数据集、做建立搜索索引或处理卫星图像之类的事。最近,我一直在做机器学习系统方面的工作。

High:你的涉猎范围如此广阔,你的职责也如此多样,我猜想你不会有模式化的工作日常。你怎样决定与公司内外的哪些人互动?我很感兴趣的是,你如何在你现在从事的不同事务上分配时间。

Dean:我没有典型的工作日常。在前十四到十五年里,我没有担任任何管理职位,因此我有更多的自由时间来专注写代码。在过去的几年里,我在一些机器学习项目上担任了管理职位,这对我来说很有趣,也是一种新的学习体验。在公司历史上我做过许多项目,我想要与这些不同项目的进展保持联系,所以我常常会收到很多电子邮件。

我花许多时间来处理电子邮件,大部分时间用来删除邮件,或是浏览邮件以了解正在发生什么。我有几个只要有时间就会去做的技术项目,我在各种会议和设计评审之类的事之余抽时间去做这些项目。

High: 谷歌在经过戏剧性的增长之后仍然是创新的典范。它仍然像当年小企业时期那样雄心勃勃、富于创新,另一方面它已拥有了科技巨头的人力和财力资源。公司如何与停滞和官僚主义战斗,以便能让自己保持敏捷,不被规模拖累?

Dean:从我加入时起,我们一直经历着公司的持续增长。在早年,我们每年都会将雇佣人数翻倍。如果用百分比来衡量,我们现在大大放慢了招聘新员工的速度,然而如果用绝对数量来衡量,我们仍然在经历着实质性增长,大约每年新增10%、20%的雇员。每当公司规模翻倍,这都会驱使我们重新思考公司做事的方式。那些在X规模水平上有效的方法,在2X规模水平上就不再有效了。我们已经解决了如何让我们的企业风格、工程方法、组织结构、团队动力适应新的规模。

我认为,对我们的成长帮助很大的一件事是,我们倾向于把工作分岔成许多不同领域,这些领域与谷歌正在做的其他东西保持一定的独立。建造能带来互联网接入的高空热气球,这种项目就和搜索服务之间没多大关系。我们实质上拥有多个不同的活跃项目,这些项目不像核心业务内部的项目那样需要大量的沟通,由此我们可以获得规模和效率。

High:据我理解,谷歌/Alphabet之间的分离也体现了这种逻辑——试图保持敏捷性,同时将各种不同的活动分离开。可以这么说吗?

Dean: 可以。我认为这使得 Alphabet下的其他一些部门能更独立的运行。关于这种规模上的翻倍,我想说的第一点是,这确实带来了一些变化,过去我们每个人都在同一座办公楼里工作,现在每个人都需要在不同的办公楼间往返。

另一件事是,过去我们的工程人员都位于山景城,后来我们在苏黎世、纽约、东京和西雅图都建立了工程机构。有一段时间,我们同时拥有这五个机构,而它们也都发展得更庞大。之后的短短几年里,我们从五个工程机构发展到三十五个工程机构,因为我们感到,我们可以在世界各地找到那些有天分的人,并在他们附近建立机构吸引他们。这使得我们必须重新思考我们如何将工程方面的努力组织起来。

如果你只有一家小机构,那么你大概不应该让员工去做一百件事;他们应该只去做少数几件事,并专注于将它们做好。一些小机构曾经以山景城总部的做法为榜样,他们会去看山景城的人在做什么;他们发现山景城的人在做一百件不同的工作,于是他们以为自己也应该去做一百件不同的工作。我们经历周折才找到一种更好的方式,把分布在各地的工程机构的员工都调动起来。

个人猜测:最快 15 年实现通用人工智能

High:谷歌 CEO Sundar Pichai 曾说,从长期看,硬件设备将退隐,而计算将从移动优先演化到人工智能优先。关于这个人工智能优先的世界,你将如何表述谷歌的愿景?

Dean:我认为我们已经从桌面计算转移到了移动计算,现在每个人都随身携带者计算设备。随着设备持续降价,语音识别和其他替代性的用户界面变得更加实用,这些将改变我们与计算设备互动的方式。设备将隐退到背景中,环绕在附近,让我们能够随时与他们说话,就想我们能与信赖的同伴说话一样。

它们将帮助我们获得更多信息,或帮我们完成各种任务。我认为这是机器学习前进的主要目标之一:让计算机能像人类同伴一样提供建议,在需要时搜寻更多的信息,以及这一类的事情。我认为未来五到十年将会令人振奋。

High:随着技术进步以及人工智能各种目标的实现,似乎人们不再将这些已实现的东西称为人工智能。也就是说,人工智能似乎总是以“将来时”的形态被谈论。你如何定义人工智能的界限?

Dean: 我认为真正的人工智能将是这样一个系统,它能执行人类水平的推理、理解,完成复杂任务。我们很明显尚未达到这一点,但你说的很对,我们已取得了很多进展。五年前,还根本不可能让电脑从图像中生成对图片进行人类水平的语句描述。如今,电脑生成的句子可能会说,“这是一张男子在网球场上手持网球拍的图片”。与此同时,人类可能会说,“这是一张网球手准备发球的图片”。

人类所做的描述更精妙,不过计算机已经可以生成接近人类水平的图片说明,这一事实本身就是一个巨大的进步。这只是过去五到六年里人们将更复杂的机器学习模型投入应用所取得的进展之一。当人们将模型应用于更大的数据集和更多的计算时,结果将变得更好。

High:你认为我们离通用人工智能还有多远?

Dean:如果你问不同的人,就会得到不同的答案。出于纯粹的猜测,我认为我们离通用人工智能的距离是 15 年到 50 年——或许 15 年左右的可能性更大。

High: 正如你提到的,语言是关键要素,而谷歌的许多人工智能创新都围绕着语言,无论是从网络中读取和理解事物,还是从事智能对话或理解文本。你能否谈谈,通过什么路径能让机器更好地阐释信息?在你看来,什么是能够让我们哪怕不能实现也至少能接近通用人工智能的阶梯?你在这方面做哪些工作?

Dean: 我认为,一个重要的领域是信息检索领域,而这一领域正是谷歌早期工作的基础。按照传统,信息检索并不试图真的理解当用户输入查询时想要什么。它更多地是关于查找那些包含某个单词或相近单词的文档。有趣的是,最近四五年来,我们已能够开始研发一些技术,这些技术能更好地理解“汽车”这个单词的本质。当我们知道“汽车”、“汽车们”、“车”、“客车”、“皮卡”等单词都以某种方式联系在一起时,我们就能够以平滑的方式匹配文档,使许多语言理解任务导向更好的结果。

我们不仅能理解词语,我们也已经快要能够理解两个句子互为同义句。这一点是新的语言理解水平的起点,在新的水平上,我们将能够以机器学习的方式理解长得多的文本。

我们对未来几年的一个良好目标是,我们希望实现:输入数百或数千份文件,然后可以就这些文件的内容进行对话。或许系统将会总结文件的内容,或许系统将对文件内容进行提问或回答。我认为,这才是真正能展现高水平语言理解的东西。

谷歌大脑:谷歌的产业研究院

High: 似乎你和你的团队的一些进展已经开始进入谷歌产品了,例如谷歌新的对话虚拟助理“Google Assistant”、谷歌用来与亚马逊 Echo 竞争的”Google Home”、用来提供面向谷歌服务的对话界面的消息应用”Allo”。你对近期谷歌推出的这些新产品和服务有何看法?

Dean: 我现在领导的研究团队名叫谷歌大脑。我们专注于建造可用于机器学习的大规模计算系统,以及进行高级机器学习研究。我们同时拥有这两方面的人才,而他们联合起来解决问题,这常常会带来显著的进步,这种进步是只具有机器学习技能或只具有大规模计算技能的人无法单独取得的。我认为这是我们团队取得众多成功的原因之一。它使我们既在这两个领域取得成功,也让我们能够将“为问题投入多少计算”和“如何为我们关心的问题训练大型、强大的模型”方面的最高水平进一步提升。

我们认识到,我们的一些研究成果能被用来改善谷歌目前的产品,这使得我们对于从事长程研究感到相当乐观。我们将和产品团队一起工作并对他们说,“嘿,我们认为这个机器学习研究将会在你的产品的这个情境中有用处”。有些时候我们只是简单地把东西移交对方。有些时候,需要我们团队和产品团队之间的深度协作才能让研究成果在产品中实现。

谷歌大脑研究团队的一项工作,是研发一个名叫“序列到序列学习”的模型。这里的想法是,你使用一个输入序列来预测某个输出序列。这听起来很小,但它可以和许多你很想解决的现实问题匹配起来。他们发表的论文最初是在语言翻译语境下的。输入序列可能是一个句子中的英文单词,每次输入一个句子的序列。

这个模型被训练为输出等效的法语单词以创造一个与英文句子同义的法语句子。这与其他机器翻译系统很不一样,别的系统通常是运用机器学习或统计模型对问题编码和分割,再把它缝合起来。与这些方法相反,新的模型是彻底的端到端的机器学习系统,你只要向系统喂入不同语言的同义句对子,系统就会学习从一个语言翻译到另一个语言。

在其他情境中,这个一般模型也很有用。Gmail 团队采用了该模型,把它用作“智能回复”功能的基础。在该功能中,输入序列是一段收到的电子邮件,而输出序列是对来信情境下可能回复的预测。例如,你可能收到一封邮件说,“嗨,我们想邀请你参加感恩节晚餐,请告诉我们你能否参加。” 系统所产生的回复可能是“是的,我们很想参加。需要我们带点什么来?”或者“抱歉,我们不能来”,或者其他与情境相关的内容。这里使用的是同一个模型,只是在不同的数据集上得到了训练。

High:谷歌大脑的研究和突破应用,怎么样在谷歌更加传统的产品中进行部署?

Dean:我们已经开始正式推进这一进程。5年前,当我们第一次开始组建机器学习研究组,调查使用大量的计算和深度卷积网络处理问题的情况,当时公司里还没有多少人在使用这种方法。后来,我们发现少数看起来可以有效应用的几个地方,其中包括语音识别系统,所以我们跟语音识别团队的同事紧密合作,把深度神经网络加入到语音识别系统中去,从而在识别精准度上获得了显著的提升。然后,我们又与几个计算机视觉相关的团队合作,比如图像识别和一些街景团队,其中包括,用图像中的原始像素去训练模型做一些有意思的事情,从图像中提取文本或者理解图像(是美洲豹,垃圾车或是别的什么东西)。

有趣的是,随着时间的过去,更多的团队开始采用这些方法,因为他们会听到别的团队说在尝试一些别的东西,并且获得了好的结果。不然就是,我们可以把他们与这些团队联系起来,或者我们可以提供一些在他们特定的问题语境下如何使用这些方法的建议。后来,我们把这些都正规化,所以现在我们就有了一个团队来做这些扩展工作。首先是联系想要在产品中用到这些机器学习模型的团队,他们会描述自己遇到的难题,一般情况下,我们团队会说:“这似乎跟其他团队所遇到的难题很像,我们的解决方案很有用,试试看我们的方案,然后给我们反馈”。

2011年到2012年间,公司使用深度神经网络技术的团队只有十几组,现在已经超过200多组,有上千人在训练这类的模型,使用的就是我们团队搭建的软件。

谷歌的开源和开放

High:你也是TensorFlow的主要创建者之一。和其他公司一样,谷歌也聚焦于开发开放资源的AI技术。你对使用开放资源AI技术的原因和优势有什么看法?

Dean:现在有许多不同的框架,用于展示不同的机器学习算法,它们都是开源的项目。我认为,能有很多的选择是一件不错的事,但是,如果我们能开发出一些东西,让机器学习社区中更多的人可以在后台使用并且努力去改进,并且,这些努力中,很多都是在做相同的工作,所以,把他们都集中在一个资料库,让多数人都能采用,这就再好不过了。

其背后的原因是,这会让机器学习的新想法得以更好地表达。传统的方法是,人们如果有了新的想法,会写一篇论文,做实验,并且不会把代码也发表出来,让人们去重复这些实验。作为一个研究者,你会看别人的论文,并且尝试对比自己和他人的技术。通常,由于这是用论文而不是代码进行表示,你需要猜测他们究竟做了什么。论文,从本质上看,会忽略掉许多细节,而这并不是有意的。他们可能会说:“我们使用了一个较低的学习率”,但是,你关心的是,他们使用的学习率是0.0001,并且经过几万步的调整后,怎么降到了0.005。如果有一个软件框架,让人们能够用代码展示想法,并用表格的方式发表这些研究模型和想法,会让社区内的思想流动更加迅速。

对于我们来说,这也便利了我们与谷歌之外的人的合作。通常,我们会有暑期实习生。过去,这些实习生在实习结束后还要写实习期间工作的论文,但是,那时候他们已经离开谷歌了,所以无法再使用谷歌的计算机,所以这会让他们很难继续完成论文,或者再进行一两次实验。现在, 他们可以随时使用这些开放资源或TensorFlow来做这件事,甚至也可以在平台上找到其他能帮忙的人。我们正在教许多谷歌的工程师使用机器学习,其中最通用的工具就是TensorFlow。

High:谷歌的一个优势在于拥有很多人工智能和机器学习人才。谷歌研究部门负责人 Peter Norvig 估计全球超过5%的机器学习菁英都在谷歌工作。谷歌是如何让自己对机器学习顶尖人才变得有如此吸引力的?考虑到机器学习或者说人工智能涉及到计算机科学、工程学、神经科学、生物学、数学等不同学科,你认为如何才能确保招聘来的这些人才任人适用呢?

Dean:我们工作的范围很广,人才也各种各样。我发现,当你把一批不同专业背景的人聚在一起解决问题时,往往比召集一批专业背景类似的人效果更好。从整体上说,你做完了一件没有人能够单独做出来的事情。我们的机器学习团队就是一个很好的例子。里面有像我这样的人,拥有很多开发大规模计算系统的经验,也有世界顶级的机器学习研究者。把这些不同类型的人聚在一起就组成了一个非常强大的团队。机器学习正在影响医疗、机器人等等很多不同的领域,这是非常好的现象。我们团队中还有几位神经科学家。

很快我们将开始一个叫做“谷歌大脑实习培训”(Google Brain Residency Program)的计划。我们招人到谷歌和Google Brain一起工作一年,基本上是学习如何进行机器学习相关的研究。我们现在已经得到了大量的申请简历,最终项目会留下 28 个人。他们来自不同的背景——计算机科学、统计学、数学、生物学、物理学,处在职业生涯的不同阶段——有人刚刚读完本科,有些人则博士后毕业,还有的已经在产业界工作了一两年。我认为这将是一个很好的组合,解决问题时都带来很多不同的观点。

High:我很好奇,有很多不以技术为中心的传统公司也会使用人工智能和机器学习,你会在多大程度上与这些传统公司交流和工作?你怎样看AI技术的发展曲线?显然,这在公司之间甚至是行业之间都是不同的。但也有一些领先的传统行业开始利用人工智能,包括医疗和金融领域,这些机构有着大量的非结构化数据需要处理。你曾经是否与这些传统行业的公司打过交道,或者和它们讨论人工智能在更为传统的环境中的发展过程?

Dean:其他行业的大多数公司可能没有谷歌或者其他科技公司在应用机器学习方面表现的好。我认为,随着时间的推移,最终大多数公司都将越来越多地使用机器学习,因为机器学习将会变得非常强大,为他们的业务带来变革。我们已经与一些大型的医疗机构讨论了要建立合作关系,看看机器学习可以为该领域的某些问题做些什么。我们最近推出了一个云机器学习产品,可以让人们在谷歌的云平台上运行机器学习算法。显然,有许多公司有兴趣了解在他们的业务的环境中该如何使用该产品。

我认为这种转变可能要经过几个阶段才会发生,在这些阶段中,你可以使用AI技术和机器学习的方法来解决问题。在一些领域里,理解图像的内容东西对很多行业来说都是有用的。谷歌和其他公司正在提供简单易用的界面,而你无需知道任何机器学习的东西。你可以只给出一张图片,然后说“告诉我这张图里有什么”,任何没有机器学习专业知识的软件工程师都可以这么使用。他们得到的信息可能是“照片里有个体育场,人们在那里打棒球,而且图像中还有一堆文字,文字是……”即使没有应用机器学习,这也会是非常有用的。

然后将会有已经开发好的模型,可以用公司的数据重复训练这个模型来得到一个定制化的解决方案,而且无需研究核心的机器学习技术来开发一个全新的模型。一个很好的例子是序列到序列的工作,我们现在已经应用到谷歌的六七个不同的问题中。另一个很好的例子是一个采集图像的模型,它能发现图像中有趣的部分。这个通用模型的一个应用是,检测街景图像中的文本位置。你想阅读所有的文本,但是首先,你必须能在店门、路牌上等这类地方找到它们。这种通用模型在医疗环境中也有用,比如在诊断糖尿病性视网膜病变时,你有一个视网膜的扫描图像,你想找到该扫描图像上的疾病指标,这时你就能用上这个模型了。用的是相同的模型结构,你只是在不同的数据中指出病变。你不是在用文本高亮显示的街景图像,而是在医生已经圈好病变部位的视网膜图像上指出它。我认为该通用模型的方法将很好地解决很多不同类型的问题。


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档