【谷歌I/O李飞飞】计算机视觉下一个突破在“Vision + X”，我要发明AI 杀手级应用

新智元

发布于 2018-03-28 14:51:46

9060

文章被收录于专栏：新智元新智元

【新智元导读】北京时间今天凌晨，谷歌的 I/O 大会第三天的论坛《人工智能和机器学习的过去、现在和未来》由谷歌云负责人 Diane Greene 做主持，嘉宾包括刚加入谷歌不久，负责谷歌云 AI 团队的李飞飞教授；谷歌的 Francoise Beaufays；谷歌 Fernanda Viegas，以及 Coursera 联合创始人、现 Alphabet 旗下号称要“治愈衰老”的 Calio 部门首席计算家 Daphne Koller。几位语音、视觉的专家，她们从各自的角度，结合实际例子，分析了 AI 和 ML 的变化及趋势。

视频长度近 1 小时，谷歌 5 位 AI 女性代表齐聚，共论 AI 和 ML 的过去、现在和未来。建议在 WiFi 环境下观看哦~

Diane Greene：大家好，我是 Diane Greene，我负责谷歌云这一强大的部门，是 Alphabet 董事会成员之一。今天非常荣幸能够在这里主持这场论坛，嘉宾都是来自人工智能（AI）和机器学习（ML）领域的顶级研究人员和专家。我们的论坛内容构成将是讨论 AI 和 ML 的过去、现在和未来，以每位的个人对整个行业及个人职业生涯的反思作为结尾。

在讨论开始前，我先快速介绍一下论坛的嘉宾。从左往右，首先是谷歌首席研究员、谷歌语音识别项目组负责人 Françoise Beaufays，她加入谷歌已有 12 年，我们每个人都会用到她开发的产品。

其次是谷歌云首席科学家李飞飞，她致力于将 AI 和 ML 推广到整个谷歌以及世界；加入谷歌前，李飞飞是斯坦福 AI 实验室主任，开创了 ImageNet，后者对如今 AI 中深度学习的发展做出巨大贡献，她在 STEM 教学中表现优异，是 AI For All 的创始人。

接下来是谷歌高级主任研究员 Fernanda Viegas，她也是一位计算设计师（computational designer），关注整个信息可视化方面的研究，也是谷歌大脑“大数据可视化团”队的联合领导人；关于 Fernanda 最著名的是她的一些基于信息可视化的作品，被纽约现代艺术博物馆（MoMa）收藏为永久展出的一部分。

最后是 Daphne Koller，她现在 Alphabet 旗下致力于延长人类寿命和让生活更健康的部门 Calico 实验室工作，担任首席计算管；在此之前，她在斯坦福工作了 18 年，是当时斯坦福 AI 团队的联合负责人；Koller 还与人联合创办了 Coursera，也是目前最大的开源 MOOC 在线教育平台。你们知道 Daphne 2012 年入选《时代杂志》“最有影响力的100 人”榜单，凭借优异的计算机能力，Koller 在运营首届 ACM 计算奖期间赢得了麦克阿瑟奖学金；此外，她还是美国科学院和工程院的成员，这些都是说明她能力卓越的一些证明。

从机器学习、计算机视觉、语音识别、数据可视化 4 大方面看深度学习的变迁及其影响

Diane Greene：从历史的角度开始，Daphne 你作为 ML 领域最著名和多产的作者之一，能谈谈你对我们现在转变到深度学习的现象怎么看吗？

Daphne Koller：我认为深度学习革命是真正令人激动的强大作用，解决了现实世界中很多时候很多方面的问题。但是，这场革命源于很早之前的 ML 研究，是这些研究为深度学习提供了基础。大概在过去 10 到 15 年之间，我们努力研发了很多更为手工制作（hand crafted）的模型，这些模型需要更多的先验知识，你必须想清楚具体细节以及模型与领域之间的关系，因为当你没有很多数据的时候，你必须更多依靠人类的直觉去解构模型。

随着文本、图像等领域的数据越来越多，我们开始用大量的数据去替代这种直觉，我认为在这方面需要做一些平衡。很多 10 到 15 年前研发的方法，比如优化算法，到如今依然至关重要，也是深度学习之所以取得成功的关键因素之一。现在我们大概认为大数据能够解决一切问题，但某些领域仍然只有中等乃至小型的数据体系，因此，我认为在人类对领域知识方面的直觉和不断涌现的数据之间必须取得平衡，模型要将结合这两部分的最佳优势。

Diane Greene：飞飞，你负责斯坦福的人工智能实验室，你领导的 ImageNet 项目又如此成功。现在你在探索如何将 AI 带入世界的每家公司。你对此有什么看法呢？

李飞飞：谢谢 Diane。首先我想简单回顾一下，在人类文明进程中，AI 实际上是一门非常年轻的科学，只有 60 年的历史。但在我看来，从人类文明诞生之初我们就一直在追寻智能究竟是什么，想知道灵感是从何而来。所以，在 60 年前几期开始做简单计算的时候，像阿兰·图灵这样的思想家就已经对全人类提出了这个问题——“机器能够思考吗？机器也具有智能吗？”同样，在大约 60 年前，像马文·明斯基、约翰·麦肯锡这样的计算机科学宗师，还有很多人聚在一起，思考这个问题。

如今掀起热潮的 AI，与 AI 的众多奠基人从技术上看是非常不同的。但是，核心思想都是让机器能够思考，能与人交流。AI 经历了几次起起伏伏，从最初的命令逻辑到专家系统，再到早期机器学习浪潮，最后到今天的深度学习革命，我认为过去 60 年 AI 是处于一种“in virtual”的状态，在实验室里。在这 60 年的过程中，我们打下了基础，发展了对 AI 而言至关重要的领域，比如机器人技术、计算机视觉、自然语言处理、语音处理等等。同时，我们也衡量对数据的理解，发明很多工具，因此在 2010 年左右，统计机器学习工具的成熟和互联网、传感器带来的大数据有幸融合在一起，再加上摩尔定律让我们拥有了更好的硬件设备，也即强大的计算力，这三者合在一起，共同支撑起了如今 AI 的发展，也就是我所谓的“invivo AI”，对现实世界产生实际影响。如今由 AI 和 ML 给谷歌云带来的转变，我认为这才是 AI 的历史时刻，AI 将对更多产业造成实质上的影响。但是，我想强调这一切都还只是开始。

我们目前所发明的方法，目前探知的 AI 好比大海中的几滴水，我们不能过分夸大。不过，我认为前面有许许多多令人振奋的工作在等待着我们。

Diane Greene：我非常同意你的观点。现在很多公司都在用 AI 去做一些以前我们完全无法想象的事情，而且涉及的范围还很广，AI 似乎随处可见，不仅仅在云里。

如果我们看到问题的更深一些的层面，Françoise 你是做语音识别的。现在语音识别可以说是最普遍的 AI 应用之一。你能分享你对这一转变的看法吗？

Françoise Beaufays：我 12 年前加入谷歌时，我们一帮人有个梦想，就是用语音识别做一些既有用又好玩的东西。语音识别实际上很早就有了，但我们想做一些与众不同的东西，这在当时很困难，因为那时候的语音数据没有今天这么多。于是，我们从很小的产品开始做起，不能识别太复杂的东西。我们不断尝试去拓展，但又不能往前推进太多，毕竟我们需要作出让人想用的成功的产品，然后开始收集数据，构建模型，再不断迭代。

我不知道你们还记不记得一款叫“Google 411”的产品，当时只是一个很简单的电话应用，你拨打一个号码，系统会告诉你这是哪个州哪个城市，然后你说你对什么东西感兴趣，系统会问你具体对什么公司（business）感兴趣，你告诉系统一个具体的名字，它就会自动将那个州那个城市的那家公司跟你连接起来。

要知道那是 12 年前，没有 iPhone 也没有安卓手机，只有翻盖机，能做的事情非常有限。但好在谷歌领导层对这一技术针对是非常有远见，很积极地鼓励我们研发，我们才得以继续探索。

后来，iPhone 和安卓手机的出现让一切都变了样。很显然，视觉反馈成为最主要的，于是我们开始设想其他的应用，最后想到的就是语音搜索。

所以，谷歌语音搜索是那个时候起，才真正开始有专人全心投入。随着手机上的麦克风位置不断变化，能用声音做的事情也变得越来越多。最近，我们开始研发将手机上的语音识别转移到 Google Home 这样的家居设备上，因为人们对使用语音完成任务的需求越来越多。这可以说是打开了整个语音助理行业的入口。能用语音完成的任务越来越多，你可以用自然语言与机器交互，不再需要很麻烦的键盘输入。

Diane Greene：谢谢。Fernanda，你之前提到想要普及将数据可视化，这跟数据之间有着密切的关联。如何实现你的目标？你是怎么看数据可视化分析的？

Fernanda Viegas：我 10 多年前开始从事数据可视化，当时条件要艰苦困难得多，无论是机器的性能，还是可以获得的公开数据，都不能与现在同日而语。但如今，人们似乎处处都通过数据可视化的方法沟通交流，我看见新闻业中使用数据可视化真的很开心，当说起很复杂的与统计学相关的故事时，我们总是开玩笑说，数据可视化就像是统计学“入门毒品”（gateway drug），就好像你正在做统计学但完全没有意识到你在做统计学一样，因为我们人类实在是太擅长在通过视觉识别模式、看出重点等等。

所以数据可视化的方法渐渐得到推广普及，而且我认为我们在将数据可视化的能力和工具方面也不断提升。例如 AI 在数据可视化的发展当中就起到了飞跃性的作用，像 Hinton 和他的学生在可视化方面取得的巨大成功。

这让我明白了高维空间系统中的数据对人类而言很难理解，因此，数据可视化是试图去理解在这些系统里发生了什么的一种方法。例如 Hinton 发明的技术能够让我们明白数据是怎么聚集在一起的，不同的概念之间有什么区别，这些系统是如何吸收数据的。这一点我认为是十分重要的进步。

所以，我觉得我们正处于一个开始，可视化能够帮助我们更好地理解 AI。

李飞飞：计算机视觉的下一个突破在“Vision + X”

Diane Greene：接下来我们的话题会转向技术层面。Françoise 你先说一下在语音识别中最大的技术转变是什么吗？目前最大的技术挑战又是什么？

Françoise Beaufays：好的。要知道语音识别是很复杂的，每个人都有不同嗓音、不同口音，在不同环境中每个人说话，这导致了语音数据多种多样。我认为很大程度上语音识别一直是基于机器学习的，也不是说哪种机器学习，总之随着机器学习的发展，语音识别也在不断进步。过去 10 年很重要的一点，我认为是使用了神经网络，大约在 8 年前的样子吧，或者更早。

实际上神经网络很早就出现了，有很多相关的研究，也取得了一些不错的结果，但当时的计算力不足以支撑得到现在这样好的结果，所以神经网络被抛弃了一段时间。与此同时，语音识别继续使用更加基础的方法，比如高斯混合模型。

当我们真正涉及深度神经网络后，在工程的角度上我们需要全新的视角，应对延时问题，还有训练等等。再后来，当深度神经网络变成现实，我们开始实际使用并真正在产品上应用的时候，打开了一条全新的通道，因为现在我们有强大的计算能力，能够快速的将一个神经网络转移到另一个架构上。于是，我们开始探索递归神经网络（RNN），比如 LSTM，还有CTC 建模，我们有了一系列的序列建模。

因此，转向神经网络开启了全新的可能，让我们从技术的核心去创新，驱动系统，持续优化，比如提供多种语言，提升识别的精确度。

Diane Greene：好的，说完了深度神经网络对语音识别的影响，Daphne 你能谈谈神经网络在让我们更健康、延长寿命方面有什么作用吗？这是个相当开放的问题了。

Daphne Koller：你知道为什么 Calico 需要全世界最好的分子生物学研究人员的。Calico 虽然宣传不多，但我们的目标是理解衰老这个问题，从而帮助人们更加健康长寿。衰老实际上可以说是致死率最高的原因。想起来或许很好笑，但实际上很多疾病都是在 40 岁以后出现的，并且在这之后发病率呈指数级增长。每年死于糖尿病、心血管疾病或癌症有多少人？没有人知道为什么 40 岁以后，每年我们患病的几率就会成倍增长。

为此，我们真的需要去研究衰老从分子层面到系统层面在生物中是如何展现的，并且弄清楚衰老的真正原因。

我不认为我们会长生不死，但或许我们可以通过干预措施活得更长更健康。从 UCSF 来到 Calico 的科学家 Cynthia Kenyon 证明了，单个特定基因的突变可以将寿命延长 30% 到 50%。而且，实验中的线虫不仅仅是活得更久了，也更年轻了，这可以从繁殖健康和运动水平上观测出来。

如果我们能在人类身上实现这一点，那就真的酷极了。但为了能实现这一点，我们必须一大堆我们还不明白的东西。所以，我们需要收集各种生物系统的数据，线虫的也好、苍蝇的、大鼠的、人类的。我们在分子层面上有很多共同点，所以科学家才有幸在过去 20 年开发设备、测量模型，让我们有所了解，或者说至少得到了有关生物系统衰老的数据，比如基因测序、低水平微流体，以及所有健康检测仪、可穿戴设备。

这些数据都隐含着衰老的信息，但没有人有能力将所有这些不同类型和范畴的数据统合起来，要整理、归类、分析这些数据耗费的时间太长，一个人一辈子也可能做不完。所以，我们真的很需要利用科学家收集数据，并从中得到灵感的过程和从事机器学习的研究人员很好得协作，两方面的人哪一方都是是无法单独完成这项任务的。

我很幸运成为进入这一领域的研究者之一。计算生物学从 21 世纪初兴起。生物学家和计算机科学家互相合作，才能从大量我们获取的数据中发现意义，从而真正理解衰老的生物学原理，同时研发有助于减慢这一过程的干预措施。

Diane Greene：感谢 Daphne 的深度分享。那么，飞飞，上次你在接受 TechCrunch 采访时说，“视觉是 AI 的杀手级应用”，你能具体解释一下吗？

李飞飞：我的话的确很刺激（provocative），但我还是坚持这样认为，因为很多人问计算机视觉的杀手级应用是什么，我则在想视觉是 AI 的杀手级应用。下面我具体解释一下。

这样说有两个原因，一个是从5.4 亿年前起，物种数量突然增多了，也被称为寒武纪生物大爆发。为什么会发生这种情况？最近有一项非常令人信服的著名推论认为，这是由于眼睛出现了。

当生物演化出视觉以后，整个演化进程都改变了，有了捕猎者和猎物。5.4 亿年后，人类成为地球上最有智慧的生物。根据自然演化，人脑的一半都用于处理视觉信号，因为视觉是如此重要。

另一个则是技术层面。现在，我们生活在互联网时代，有人预计整个网络上超过 80% 的数据都可以说是某种类型的像素，无论是肉眼可见的，还是传感器收集肉眼不可见的。从医院、无人驾驶汽车到安防摄像头，到处都是像素形式的数据，而企业如何通过云服务应用这些数据，为消费者带来真正的价值，是问题的核心。

我一直在说，现在对图像识别、视频处理、视频分析有大量的需求。对于计算机视觉而言，这是一个令人激动的时代，与语音识别一样，视觉也是经由深度神经网络才在过去 10 年有了一个真正的腾飞。从 2010 年到 2017 年，我认为计算机视觉最大的进步在于基本的感知任务，比如物体识别、给图像打标签、物体检测……这些都可以从谷歌推出的各种产品中看到。

但是，要在计算机视觉中做下一步的投资，我认为则是“视觉 + X”，视觉十分重要，是基础的基础，而语言交流也很重要……所以我认为将视觉和语言结合起来将极其有趣，不论是生物学可视化也好，还是医疗图像等等，我认为视觉在这里面都有巨大的机会。

最后一个例子，就是机器人视觉。作为一名研究人员，在机器人视觉方面最近有很多令人激动的进展。但是，至少从我记事时起，机器人大多还处于相对原始的状态。我确信视觉将成为机器拥有智能的关键一环。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-05-20，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

登录后参与评论

0 条评论

热度

【谷歌I/O李飞飞】计算机视觉下一个突破在“Vision + X”，我要发明AI 杀手级应用

【谷歌I/O李飞飞】计算机视觉下一个突破在“Vision + X”，我要发明AI 杀手级应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐