AI行业实践精选：机器学习在Google的昨天，今天与明天

AI科技大本营

发布于 2018-04-26 11:31:04

7850

发布于 2018-04-26 11:31:04

文章被收录于专栏：AI科技大本营的专栏

【AI100 导读】你知道吗？早在十多年前，Google 就已经在内部教自己的工程师机器学习的相关知识了。本篇文章将告诉你 Google 是如何使用机器学习来不断优化产品，从而使其成为最优秀的人工智能公司之一的。

如果你想让自己的产品走向人工智能的道路，你最好重构你的代码，然后检查一遍！

卡尔森·霍尔格特（Carson Holgate）正在接受训练，意欲成为一名忍者。

但是此次接受的训练并不是武术领域的训练——卡尔森·霍尔格特早就已经通过了武术训练。霍尔格特如今26岁，已经达到跆拳道黑带二级了。关于本次她接受的训练，实际上是在算法领域。她已经在一个项目上花费了数周的时间，接下来将会参加比体能对抗强度更大的训练——机器学习（ML）。霍尔格特是谷歌公司安卓方向的一名工程师，本次共有18名程序员被选中参加年度机器学习忍者项目（Machine Learning Ninja Program），霍尔格特就是其中之一。该项目的目标是从团队中挑选出才华横溢的程序员参加《安德的游戏》（Ender’s Game-style）项目。本次训练中，他们要学习人工智能的相关技术，使其研发的产品更加智能。即便是创造软件，他们也要将其升级得更加复杂难懂。

Carson Holgate，Google的一名工程师，现在正在进行机器学习的忍者训练

“我们的宣传口号是：你是否愿意成为一名机器学习忍者？”Christine Robson 说。克里斯汀是谷歌内部机器学习报告的产品经理，主要负责协助管理项目。“所以我们邀请谷歌内部员工加入，在机器学习团队中深入地学习六个月。他们会在导师的指导下，扎实地学六个月，做些项目，让项目启动并在这个过程中不断学习。”

霍尔格特拥有电脑科学和数学双学位，毕业后在谷歌公司工作已经将近四年了。对于他来说，这是一个近距离接触软件领域最热的范例的好机会：运用学习算法（也就是学习者）和庞大的数据“教“应用软件完成任务。多年以来，机器学习一直被认为是精英阶层的专属领域。如今时代变了，最新的研究结果表明，由”神经网络“驱动的机器学习，可以模仿生物大脑的运行模式。通过灌输知识将电脑打造成人脑的想法（如超级大脑）是行得通的。

谷歌正在致力于打破所谓的精英围墙，让机器学习变得大众化。对于霍尔格特这样的工程师来说，忍者项目就是迈向技术最前沿的良机，从最优中学习最优。“这些人都有博士学位，同时还在建立这些难以置信的模型”，她说话的时候敬畏之情溢于言表。她已经度过了最初的困难期，现在正置身项目之中，成为其一员被叫做“忍者“了。”最初我想打退堂鼓，但是我学会了接受现实。“她说。

谷歌员工数目众多，6万多名员工中近一半是程序员。比较起来，忍者计划的规模实际上是很小的。但是这个项目却标志着公司在认知层面上的转变。尽管机器学习一直都是谷歌公司技术的一部分，谷歌也一直在募集相关领域的专家，但是自2016年以来谷歌几乎痴迷于这个领域分支了。在去年下半年的一次电话会议中，谷歌 CEO Sundar Pichai 提出了公司的发展思路：““机器学习对于我们反思行为模式是至关重要的，它是变革性的。我们在考虑将其应用于所有的产品中，包括核心搜索、广告、Youtube 以及谷歌游戏中心等。虽然还是在实验初期，但是总有一天，我们会把机器学习系统化地应用于所有领域。”

诚然，如果谷歌想将机器学习应用于所有产品中的话，必需要有相关技术的工程师，机器学习与传统的编程是不同的。著名机器学习宣言“The Master Algorithm”的作者 Pedro Domingos 在书中提到的：”机器学习是一项新的事物：它能自己构建自己。” 想写出这样的系统程序需要识别出正确的数据，选择正确的算法，同时确保建立起正确的环境才能最终获得成功。之后的工作（也是对于程序员来说很难的一步）就是要信任系统可以完成任务。

“按这种方式思考解决问题的人越多，我们就会越成功。”机器学习领域的领导人 Jeff Dean 这样说。在 Tom Brady 打进美国橄榄球联盟成为一名四分卫之时，杰夫·迪安就已经在谷歌编软件了。据他估计，如今微软虽然有25,000名工程师，但其中大约只有几千名工程师是精通机器学习的，大概也就占10%。他希望这个数据有朝一日可以接近百分之百。“如果我们的每一位工程师都能掌握一些机器学习的知识就好了”他如是说。

他的愿望会实现么?

“我们正在努力”，他这样回答。

这些年来，John Giannandrea 一直担任谷歌公司机器学习的关键推广人。根据公司荧光显示屏上的公示，最近他又成为了核心搜索部分的带头人。2010年他刚来到公司的时候（当时谷歌并购了 Metaweb，原公司的员工，办公室和所有产品都并入了谷歌核心搜索部，现在成为知识图像分支），当时他对机器学习或者神经网络都没有任何概念。大概在2011年的时候，一个叫作神经信息处理系统（NIPS）的会议给了他启发灵感。似乎每年在这个会议上，都会有一些团队宣布自己运用机器学习来解决某些问题，如翻译、声音识别、图像识别等，其中的一些尝试让人印象深刻。这时，神奇的事情发生了。’当我第一次参加这个会议的时候，我觉得人工智能前途渺茫 ”，他说，’但在过去三年时间里，整个行业（不管是学术领域还是工业领域）忽然就崛起了。据我所知，去年大概有6000人参加 NIPS 会议。”

Jeff Dean：规范的Google计算机科学家，现在在构建机器学习的工具并领导机器学习的团队。

这种态势使神经网络算法得到了改进和提高，同时，摩尔法则效应使得更多有效的计算机算法出现，谷歌和 Facebook 公司庞大用户群体的行为数据呈指数式暴涨，开启了优势机器学习的新纪元。他相信参加大会的都是公司的高层，其中就包括谷歌大脑的联合创始人安迪。谷歌大脑是谷歌X（现在以此代号而熟知）远程学习分部的一个神经网络项目。

谷歌对于机器学习如此狂热的态度并不仅说明了程序技术的转变，还很严肃地赋予了大脑前所未有的权力。该领域最前沿的技术是“深入学习”算法。它是受到大脑构造的启发建立起来的复杂的神经网络。谷歌大脑就致力于搜索深入学习。谷歌于2014年1月以5亿美金的价格收购的 DeepMind 公司也致力于相关领域的研究。DeepMind 公司创造了 AlphaGo 系统，也就是那个大名鼎鼎的在人机围棋大战中获胜的系统。它的成功给了那些对智能机器表现不抱期望的人一个良好的回击·，也撼动了那些对智能机器和机器人杀手有顾虑的人。当吉安德里亚击碎“AI 即将灭亡”组织的邪恶预言时，他对机器学习系统带来的转变性效果十分满意，不管是在医学诊断还是在驾驶汽车上。尽管机器学习并不会取代人类，但是它却会确确实实地改变人类的生活。

Giannandrea 引用了谷歌相片的例子来证明机器学习的效力。谷歌相片最离奇或者说最困扰人的一大特点就是它可以定位出用户指定的图像。让我来看一下博德牧羊犬的照片。’当人们第一次看到这个功能的时候，他们以为会发生不同的事情。因为电脑并不只是给你算出一个你的偏好或者是给你推荐一个视频那么简单了” ，他说，“电脑慢慢理解了图片里的内容 ”。他解释说，电脑通过学习能够 “知道” 博德牧羊犬的样子，然后它会按照这个样子寻找类似的有些老、毛又很长经过剪绒的小狗。当然，人也是可以这样做的。

但是没有人可以同时从一百万张图片中辨认出一万种不同品种的狗，而机器学习系统可以。只要它学习了其中一个品种，它就能用同样的方法识别其他9999种狗。“这才是真正新鲜的地方”，他说，“从狭义上来讲，你所看到的就是这些学习系统中被某些人称之为超级人类行为的表现。”当然了，谷歌一直都深谙机器学习的定义，它的创始人是人工智能力量的终生追随者。虽然植入的可能不是最先进的并与神经网络相关的技术，但机器学习确实已经被植入到许许多多的谷歌产品中（早期的机器学习一般依赖更为直观的数据方法）。

事实上，在十年前，谷歌已经在内部教自己的工程师机器学习的相关知识了。早在 2005 年年初，研究分支的相关负责人 Peter Norvig 就曾向一位名叫 David Pablo Cohn 的研究科学家提议，让他来评估一下谷歌可否引入一门卡耐基梅隆大学（Carnegie Mellon University）的相关课程。科恩最后的结论是：只有来自谷歌的员工才可以教授相关的课程，因为谷歌的运行机构是他人无法模仿的（大概只有国防部可以与之媲美）。因此彼得预约了43号楼（当时还是研究团队大本营）的一间大教室，每周三举办一次为期两小时的课程，包括 Jeff Dean 等在内的人均参加过其中几期的课程。“这是世界上最棒的课”，科恩这样说，“他们都是比我还要成功的工程师！”这门课程在当时风靡一时，上课的人太多了。为了能听这门课，班加罗尔分部的员工甚至守到午夜零点。几年之后，一些谷歌员工把当时上课的情况制成了视频；面对面授课的形式得以结束。科恩相信这是大规模开放在线课堂的起始。之后几年谷歌又开展了几轮不同的机器学习培训，但都不如当初那样组织良好且课程连续了，也不是当初的大班上课的形式。2013年科恩离开谷歌，用他自己的话来说，那时候正好是“机器学习突然在谷歌变成无比重要的事情”的时候。2012年的时候还没有这种流行的概念，吉安德里亚有一个想法”把这件事的人都聚到一起”，把他们都放在一座单独的大楼里。从X 分支独立出来的谷歌大脑团队也加入其中。’我们把一群团队连根拔起，把他们放到一座大楼里，再放一些新的咖啡机” 他这样说。“那些之前在从事与我们所谓的知觉相关工作的人，就是那些研究声音演讲理解的人，开始和研究预言的人在一起交流了。”

那些工程师研究出的机器学习成果开始在越来越多受欢迎的谷歌产品中体现出来。因为主要的机器学习领域集中在图像视觉、演讲、声音识别和翻译上，所以自然而然地，机器学习在很大程度上都是在研究声音搜索、翻译和照片。但是现在它在大规模向所有领域进发。Dean 说他和他的团队已经开始了解更多的机器学习的知识，比原来他们探索时期了解的更多，更雄心勃勃。“之前，我们通常只将机器学习用于系统中的次要部分“，他说，”但是现在我们要用机器学习来代替整套的系统了，不再单单局限于系统的某一部分。“Dean 表示，如果他现在还有机会重写谷歌公司的内部结构的话，对于 BigTable、Map Reduce 等游戏挑战系统（Dean 是联合创作者之一），他很可能会采用机器学习的方法，而不是当初的编程方式。

Google Brain的联合创始人Greg Corrado与产品团队合作，将AI融合到自己的软件中

同时，机器学习也让之前一些难以想象的产品特征变得有可能。其中一个例子就是，谷歌于2015年11月所推出的智能邮件回复功能。这一功能源于谷歌大脑项目的联合创始人 Greg Corrado 和一名名叫 Bálint Miklós 的谷歌邮件工程师之间的一次对话。克拉多早前在邮件团队工作，致力于用机器学习算法来识别垃圾邮件并对邮件进行分类，但随后米克洛斯提出了一个看似疯狂的想法：如果团队能用机器学习来自动回复邮件会怎么样呢？这不就能让那些手机用户从窄小的键盘回复中解脱了出来么！“我当时大吃一惊，因为我觉得这个想法有点疯狂。“克拉多回忆说，”但之后我细想了一下，我们已经在研究预言式神经网络技术，它其实是可以实现的。一旦意识到有可能实现，我们就会去尝试。“

谷歌很支持这个想法，让克拉多和他的团队与谷歌邮件开发小组保持紧密及时的联系。如今，机器学习专家深入各产品团队的现象越来越普遍。“机器学习简直就是科学里的艺术，“克拉多说，“就和做饭一样——要想得到有趣的化学反应结果，你需要知道如何调制手头的佐料。”传统的研究语言理解的人工智能方法依赖于系统中语言的嵌入规则，但是在这个项目中，全部都是现代化的机器学习。机器学习系统能自己吸收学习的知识，就像一个小孩子一样。

“我没有学习如何像一个语言学家一样讲话，我都是听其他人的对话学来的”，克拉多说。但真正让智能回复变得可行的，是它的成功与否很容易就能被定义出来——并不是说要创造一个虚拟的达科他·乔纳斯来和你调个情又喋喋不休，而是要让现实生活的邮件中实现可以以假乱真的回复。“成功的标志就是，机器能够生成一个候选回答，而这个答案人们觉得可以用于邮件的真人回复中，”他说。这个系统是通过用户在提供的回复中不停打对勾选择实现的。

最初团队开始测试邮件的智能回复功能时，用户会注意到一个奇怪的现象：总是在推荐那些不怎么不恰当却非常浪漫的表达方式。“我们有一个失败的模型，人们总是想歇斯底里地说‘我爱你‘，这就很尴尬了，”克拉多说，“这并不是软件程序上的错误——错误在于我们的要求。” 这个程序不知怎地学会了一个很微妙的人类行为：“如果你被逼的走投无路，说’我爱你‘是一个很好的自我防卫使的回应方式。”克拉多已经帮助团队克制住这种热情了。

谷歌去年十一月推出的智能回复功能炙手可热。手机软件谷歌邮件收件箱的用户现在都会习惯性地在三个候选邮件回复中选择其一，只需轻轻一点。有时候这些手机用户会对候选邮件的内容十分惊讶。如今在手机用户所发送的回复中，有十分之一是由机器学习系统所创建的。“我依然有点不相信它的存在”，克拉多笑了一下。

智能回复只是机器学习中的冰山一角，谷歌已经证实了其有效性。但是，只有当机器学习真正成为搜索、谷歌标杆产品、字体以及所有可变现产品的一部分的时候，终极的转折点才会到来。在一定程度上，搜索功能已经依赖于人工智能了。但是多年以来，谷歌公司引以为傲被尊崇的算法是那些曾经可以对核心搜索查询进行回应的“十个蓝色链接”，它们对于机器学习算法至关重要。“因为该搜索是公司的重要组成部分，它的级别非常之高。因此会有很多查询你需要非常小心行事。” 吉安德里亚如是说。

这里有一个文化阻碍——那些有控制欲的技术黑客通过 zen-ish 机器学习的方法来挑战顽固的微观世界。Amit Singhal 长期致力于搜索的研究，曾是传奇电脑科学家 Gerald Salton 的助手。杰拉德在文件核心研究领域的先驱成果为森海尔带来很多启发，使森海尔帮助改写了 Brin 和 Page 的研究生代码，与现代互联网时代相适应（这就是后来在学校应用的“猎犬”程序。）

他曾嘲笑用20世纪的老方法所得到的结果，同时对谷歌的重要决策——让学习者聚集到复杂系统中——持怀疑态度。“在谷歌的工作的头两年，我工作的部门是搜索质量部，致力于利用机器学习提高排名。”David Pablo Cohn 说，“结果证明 Amit 的直觉是全世界最棒的。在他的指导下，我们的工作做的越来越好了。他的方法是我们能找到的最好的方法。”

在 2014 年早期的时候，谷歌的机器学习大师认为应该有所改变。“我们与等级评估团队进行了一系列的讨论，” Dean 说，“我们当时说至少应该尝试一下，看看所做的改变是否行得通、能不能有所收获。”。他的团队所构思的实验最终成为了搜索的核心：排列的文件与查询的匹配度有多高（这是通过用户的点击数来决定的）。“正如刚才说的那样，我们试图将这个额外的评分录入到神经网络之中，看看它是不是一个有效的评分规则。”

最终的结果是肯定的，这个体系现在已经成为了搜索的一部分，叫做 RankBrain，于2015年4月正式上线。谷歌对于它到底对搜索起了多大的推进作用对外表示的十分模糊（这和长尾理论有关？或者说是野心的另一种解读？但是 Dean 表示，这个体系 “涉及到了查询的方方面面”，同时又影响着实际的排行，可能不是每一次都受影响，但起码大部分查询都会受到影响。更为重要的是，它非常之有效。在谷歌搜索计算排行使用的数百个“信号”（一个信号可能是用户的私立位置，或者是和查询文字想匹配的网页头条）中，RankBrain现在被评为第三重要的体系。

“成功地利用机器学习让搜索变得更好，这对于公司来说意义重大。”吉安德里亚说，“这吸引了很多人注意力。” 著有《大师算法》一书的华盛顿大学教授 Pedro Domingos 以一种独特的方式解读道：“长久以来，猎犬派和机器学习派一直争论不休，但机器学习最终获得了胜利。”

谷歌面临的新挑战是转移工程师的工作能力，以使每位工程师都能熟悉机器算法，即使不精通也没关系。这也是很多其他公司当下正在追求的目标，包括 Facebook。Facebook 对机器学习和深度学习的痴迷程度完全不亚于谷歌公司。抢夺相关领域的毕业生的竞争是十分激烈的，谷歌一直想保持领先的地位；多年以来，业内一直有一个笑话说谷歌即使在不需要的情况下也会雇佣最顶尖的学生，只是为了不在这场人才的竞争中输掉。（可惜这个笑话忽略了一个事实，那就是谷歌确实需要这些人才。）“我的学生，无论是谁，都能从谷歌获得一份工作。“多明戈这样说。这一情况现在变得更加严峻了：就在上周，谷歌宣布在苏黎世建立一个全新的机器学习研究实验室，急需大量的劳动力。

但由于学术课程还没有培养出大量的机器学习专家，对现有员工的再教育就显得尤为重要了。当然这项工作并不轻松，特别是对于谷歌这样的公司，这里有很多世界顶尖的工程师，他们终其一生都在致力传统编程的研究。

机器学习需要的是完全不同的思路。传统的编程大师可能对其有点难以接受，因为他们喜欢完全掌控的感觉，而这种感觉只有通过编程一个完整体系来实现。同时机器学习也需要相关领域的数学和统计学知识，但是对于许多程序员乃至愚蠢的黑客来说，由于他们能够解开巨人长度的复杂程序，所以不愿去学习。

Christine Robson致力于向Google员工和其他人传授机器学习的技巧

当然这也需要一定的耐心。“机器学习模型并不是一系列的静态的数字编码，你需要不停地提供给它新的数据，” 罗宾孙说，“我们在不停地升级模式并使其学习，同时不停增加更多的数据，尽可能的预测接下来要做的事情。这听起来就像是一个有血有肉有生命的东西一样。这是完全是一种不同的编程手段。”

“它的规则真的和其他算法的实践模式完全不同，或者说和现在的使用案例中悬链数据工作模式完全不同。”吉安德里亚说。吉安德里亚如今不仅是搜索团队的带头人，还在积极推广机器学习。“电脑科学部分永远不会消失。但是我们真的应该更关注一下数学和统计学，少花点注意力在那50万行的代码上。”

谷歌目前最主要的需要跨过的障碍就是智能再训练。“终有一天，数学在这些模型中的应用将不会那么复杂”Dean 说，“我们谷歌雇佣的软件工程师绝大多数都可以掌握。”为了能够更多地增加机器学习的专家骨干，谷歌已经建立了一套有效的工具，以帮助工程师在选择训练自己的算法时做出正确的选择，同时这套系统还能帮助加速神经网络的建立。TensorFlow 是谷歌大脑计划的一部分，是由 Dean 和他的同时 Rajat Monga 共同创立的。通过标准化作用，系统中晦涩难懂的步骤和细节将会逐渐被大家所接受和理解——特别是谷歌在2015年11 月将之公布于众之后。

在谷歌尝试将它作为一项利他福利惠及其他社区时，它也意识到，在招聘时直接招聘一批了解机器学习工具的新一代程序员将会是个很好的主意。（已经有质疑说谷歌的开放式资源 TensorFlow 是为了追赶 Facebook，在此之前，Facebook 曾于2015年1月公开了其机器学习系统 Torch。）当然，TensorFlow 的特征得到了谷歌的许可，并迅速成为了机器学习程序圈的大热门。据吉安德里亚说，当谷歌第一次开放该课程的时候，有75,000人报名参加了。

当然谷歌还是为自己的程序员保留了不少好东西。在公司内部，谷歌有一套关于机器学习修补学的无与伦比的工具箱，已经使用了很多年，只不过到最近才被公开。这个工具箱叫做张量处理单元。这是一个微型处理芯片，可以对特定的机器语言程序进行优化，方法与为了加速显示屏上像素处理而单独设计的图像处理单元是一个道理。几千个单元（当然只有上帝和拉里·佩琪知道到底有多少）安插在公司庞大的数据中心的服务器中。通过对神经网络操作的超级控制，TPU 给谷歌建立了一个极大的优势。“没有它我们就实现不了 RankBrain。”Dean 说。

但是谷歌最大的需求其实是人才，只有人才才能设计并完善这些系统，就像公司在狂热地改善软件训练工具一样，它在疯狂地通过训练来打磨机器学习工程师。他们涉及的范围有大有小。最近的一次训练是一个为期两天的“TensorFlow 终极鸡血学习课程”，课上既有讲课用的幻灯片也有练习题。谷歌希望以此做一个尝试，让工程师找到学习的资源，以使他们学到更多。“对于下一次的课程，已经有几千名员工报名了。”Dean 说。

除此以外，谷歌的机器学习还吸引了很多外行人。早在今年春天的时候，谷歌开启了一个大脑住处项目（Brain Residency program），这个项目旨在吸引更多的局外人，使他们加入到谷歌大脑项目组开发的为期一年的强化学习课程之中。“我们把它看做深度学习生涯的一块跳板。”Robson 说。罗滨孙也是这个项目的协助管理者。尽管这27位从各行各业中来的参与者会被谷歌忽悠被迷得团团转进而改行，但课程的主要目标还是让他们回到之前的领域中，用他们掌握的超能力来把谷歌机器学习的构想传播的更远。

因此，从某种意义上来说，Carson Holgate 在她的忍者项目中所学习到，就是谷歌打算在全世界所有研究人工智能领域的公司中保持领先地位的核心知识。

她参加的忍者计划的第一阶段是为期四周的新手训练营。在那里，谷歌会用最先进的人工智能项目中的领头产品来训练他们，使机器学习成为一个项目。“我们把忍者扔到一个会议室里，克雷格·克拉多在白板前向大家解释 LSTM 的含义是长短期记忆，是让神经网络非常有效的一种技术。他一边讲解一边夸张地做着各种动作，展示真正的工作过程，解释什么是数学，如何在产出中使用等一系列问题，“罗滨孙介绍说，“通常我们只在前四周一一展示我们的技术以及我们的工具箱中有的工具，这会让他们沉浸其中。”

Holgate 已经通过了新兵训练，现在正在使用机器学习工具在安卓上构建一个沟通特征，这个沟通特征能够辅助谷歌用户之间相互交流。现在她正在调整各种超参数。同时她也要清除输入的数据，除去含有停止意义的动词。对于她来说没有回头路，因为她知道这些人工智能技术就代表着谷歌的现在和未来，甚至可能是谷歌全部的技术所在，甚至是全世界的技术核心。

“机器学习，”她说，“在这里非常庞大。”

本文由 AI100 编译，转载需得到本公众号同意。

编译：AI100

原文链接：https://backchannel.com/how-google-is-remaking-itself-as-a-machine-learning-first-company-ada63defcb70

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-03-04，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 AI科技大本营微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

AI行业实践精选：机器学习在Google的昨天，今天与明天

AI行业实践精选：机器学习在Google的昨天，今天与明天

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐