首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌科研成果 2018 年年终总结

雷锋网 AI 科技评论按:年终总结可能会迟到,但不会缺席!

圣诞节+元旦假期过后,谷歌资深 Fellow、谷歌 AI 负责人 Jeff Dean 代表所有谷歌的研究部门发出了他们的 2018 年度科研研究年终总结。这一年,谷歌的科研人员们在人工智能、量子计算、计算图形学、算法理论、软件系统、TPU、开源软件与数据集、机器人技术、AI 应用、医疗保健等许多方面做出了许多新的成果,不仅有许多论文,更有许多实际的技术产品。雷锋网 AI 科技评论在 2018 年中也曾单独报道过其中的许多项目。

现在我们把这篇 Jeff Dean 代表全体谷歌科研人员撰写的谷歌科研成果 2018 年年终总结全文翻译如下。

谷歌资深 Fellow、高级副总裁、谷歌 AI 负责人 Jeff Dean

对于谷歌的研究团队来说,2018 年又是充满激情和干劲的一年。我们的技术研究成果在许多个不同的方向上继续开花结果,包括计算机科学方面的基础科研成果和论文、科研结果在谷歌的更多新兴方向中的应用(比如医疗保健和机器人)、对开源软件的贡献以及和谷歌的产品开发团队之间的紧密协作,所有这些的目标都是为了创建更多有用的工具和服务。下面我们来一起看看 2018 的一些成果,以及对未来的一年做一些展望。更详细尽的汇总可以参见我们的 2018 年论文发表清单(

https://ai.google/research/pubs/?year=2018

)。

道德准则和 AI

造福整个社会的 AI

如今大家都已经知道,在社会的许多方面、在许多重要的社会问题上,AI 都有潜力带来剧烈的影响。我们在 AI 洪水预测方面的研究就是一个绝佳的例子,它展示了 AI 可以如何在真实世界的问题上帮助人类。在多个谷歌内部团队的合作下,这项研究的目标被定义为「为洪水发生的可能性和可能覆盖地区提供准确、细时间粒度的信息」,而那些在洪水高危地区生活的人们就可以根据这些信息作出更好、更及时的判断,能更好地保护自己、保护自己的财产。

洪水预警系统已经在印度的部分地区投入使用

另一个例子是我们研究如何预测地震的余震,我们展示了机器学习模型预测余震地址可以比传统的基于物理模型的方法准确得多。这项研究还有一个也许影响更为深远的方面,那就是因为我们设计的机器学习模型是具备可解释性的,科学家们得以在这个模型的帮助下对余震的活动作出更好的观察,这不仅让余震的预测变得更加准确,也让我们对余震本身有了更好的了解。

谷歌之外也有许多我们的伙伴。许多研究者和谷歌的研究员、工程师一起借助 TensorFlow 之类的开源软件钻研各种各样的科学和社会学问题,比如用 CNN 识别座头鲸的声音,发现新的系外行星,识别生病的木薯等等。

为了鼓励这个领域产生更多的新点子,我们与 Google.org 一同发起了「谷歌 AI 社会影响竞赛」,参加比赛的个人和组织研究需要一些从想法转化为现实之后可能会带来重大社会影响的项目,然后他们可以获得总数为 2500 万美元的资助资金,而且可以获得谷歌研究科学家、工程师、其它专家的指导。

辅助性技术

在我们围绕机器学习和计算机科学展开的研究中,有很大一部分都是希望帮助我们的用户们更快、更高效地达到他们的目标。通常这都需要科研团队和各种产品团队之间展开合作,研究成果也发布成为各种各样的产品功能和设置。其中一个例子是谷歌 Duplex,这个系统的建设需要我们把自然语言处理、对话理解、语音识别、文本转语音、用户理解以及高效的用户界面 UI 设计多个方面的研究成果集中整合,而它的最终效果是,只需要用户对着自己的手机询问「能不能帮我预定明天下午 4 点做头发」,一个虚拟助手就会替你打电话到理发店敲定相关的细节。

我还可以举一些例子,比如智能写作Smart Compose这个工具会通过预测模型给出写作提示,帮助用户写作邮件,写作过程可以更快、更轻松;声音搜索 Sound Search,它构建在 Now Playing 功能的基础上,可以快速、准确地帮助用户找到环境中正在播放的音乐;还有安卓系统中的 Smart Linkify,它展示了我们可以使用运行在移动设备上的机器学习模型分析屏幕上正在显示的文本,理解文本内容之后把它划分为不同种类的小节,接着就可以直接点击文本访问对应的应用程序。

Smart Linkify 智能地把连续的文本分成了一段地址 + 一个时间

我们目前的研究中一个重要的关注点就是让谷歌助手这样的工具支持更多的语言,以及让系统更好地理解语义相似性,就是说即便使用了完全不同的方式来表达,我们也希望它能理解人们希望表达的概念和想法是相同的。我们在提升语音合成质量以及缺乏训练数据的文本转语音任务中的研究成果,未来也可能为谷歌的产品增加新的功能。

量子计算

量子计算是一种正在逐渐发展壮大的计算范式,它有能力解决经典计算机无法解决的非常困难的问题。在过去的几年中我们一直积极地在这个方向上进行科学研究,我们也相信,量子计算机展现出解决多种问题能力(所谓的量子霸权)的那个时刻即将到来,而这也将成为这个领域的分水岭。2018 年里,我们的量子计算实验产生了一系列令人兴奋的新成果,其中包括一个新的 72 位的量子计算设备 Bristlecone,它极大地拓展了量子计算机可以解决的问题的大小。我们距离量子霸权的距离越来越近了。

位于 Santa Barbara 的谷歌量子 AI 实验室中,研究科学家 Marissa Giustina 正在安装一块 Bristlecone 芯片

我们也发布了 Cirq,这是一个为量子计算机开发的开源编程框架,我们也借助它探索了如何在量子计算机上运行神经网络。最后,我们分享了研究量子处理器性能涨落的问题的及经验和技巧,也分享了关于「量子计算机有可能可以成为神经网络的计算性基础设施」的想法。2019 年里,我们期待在量子计算空间里做出更多惊喜的成果。

自然语言处理

在极具挑战的 GLUE benchmark 中,相比之前的最佳水平模型,BERT 把分数的绝对值提升了 7.6%

除了和许多谷歌内部的产品团队合作开发了上文提到的 Smart Compose 和 Duplex 之外,我们也探索改进了谷歌助手,让它能够更好地处理多语言混用的场景。我们的最终目的是希望所有的用户都可以与它自然地用语言交流。

感知

我们在感知方面的研究攻克了让计算机理解图像、声音、音乐和视频等有难度的问题,同时也为图像捕捉、压缩、处理、创意表达以及增强现实提供了更多更有力的工具。2018 年,我们把新技术融合进了谷歌照片 app,它可以更好地整理用户在意的照片内容,比如人和宠物。谷歌 Lens 和谷歌助手则可以帮助用户了解自然世界、实时回答问题,谷歌图像中的 Lens 还有更多新功能。我们曾经表示过,谷歌 AI 的使命中有一个重要的方面就是要给人类赋能、让他们从技术中受益,这一年中我们也对谷歌 API 做了许多升级,改进了它的功能、更新了它的基础组件。一些例子包括谷歌云机器学习 API 中的视觉和视频的升级的新功能,以及通过 ML Kit 实现的许多运行在移动设备上基础组件,提供了面部识别相关一些功能。

谷歌 Lens 可以帮助你更好地了解身边的世界。比如,Lens 就分辨出了这条小狗的种类

计算图像学

在过去的几年中,手机摄像头画质以及易用性的提升可以说是叹为观止。其中一部分改进自然来自于手机摄像头使用的感光器越来越先进,但同时更大的功劳在于计算图像学领域的科学技术改进。我们谷歌的研究团队发表了自己的最新研究成果,也和谷歌的安卓系统团队、消费级硬件团队紧密协作,把这项成果搭载在最新的 Pixel 手机以及其它的设备上,并最终送达用户手中。早在 2014 年,我们就发布了 HDR+ 技术,它让手机快速连拍多张曝光不同的照片,然后在软件中对齐这几张照片,并通过计算软件把它们合并为一张照片。最初 HDR+ 的设计目的是让照片具有比只拍一张照片更大的动态范围,后来,快速连拍多张照片并基于它们做计算性分析已经成了一种通用的模式,2018 年的手机摄像头基于这种模式开发了更多的功能,比如 Pixel 2 手机中的运动照片,以及动作静止照片中的增强现实模式。

动作静止照片中的增强现实模式中的一只小鸡

今年,我们在计算图像学研究上的主要努力是为手机摄像头开发了一种新的能力,夜视,可以让 Pixel 手机在夜里看得更清晰,这项功能也获得了媒体和用户的一致好评。当然了,夜视仅仅是谷歌团队开发的帮助用户拍出完美照片的众多功能之一,这些功能都基于软件、服务于摄像头,它们包括:用机器学习带来更好的人像模式照片,通过超级清晰变焦看得更清楚、更远,以及用 Top Shot 和谷歌 Clips 捕捉特殊瞬间。

左:iPhone XS;右:带有夜视功能的 Pixel 3 手机

算法与理论软件系统

我们对于软件系统的研究很大部分都继续与构建机器学习模型有着种种联系,尤其是与 TensorFlow 有许多联系。比如,我们针对 TensorFlow 1.0 发布了动态控制流的设计和实现(https://dl.acm.org/citation.cfm?id=3190551)。我们在后来的研究中介绍了一个称作 Mesh TensorFlow 的系统,通过它可以很方便地定义具有并行模型的大规模分布式计算,这样的系统可以包含多达几十亿个参数。另一个例子是,我们还发布了一个用于可拓展的深度神经排序的 TensorFlow 库。

TF 排序库支持多项目评分架构,是传统的多项目评分的拓展

层次化分配器(https://openreview.net/pdf?id=Hkc-TeZ0W)对一个四层的神经机器翻译模型的计算量的分配。其中白色表示 CPU,四种不同的彩色表示 GPU。值得注意的是,每一层的每一步计算都是分配给了多个 GPU 在执行的。这种分配方式比人类专家设计的分配方式快 53.7%。

2018 年里我们也结识了 Spectre 和 Meltdown 这两个现代计算机处理器带有的严重安全漏洞,它们也正是在谷歌的零计划(Project Zero)团队与其他团队的合作中发现的。这些漏洞以及其它相关的漏洞着实让计算机架构研究人员们忙活了一阵子。在我们持续地对 CPU 的行为建模的过程中,我们的编译器研究团队把他们的测量机器指令延迟和端口压力的工具集成进了 LLVM 中,这让编译器得以做出更好的决定。

(未完,下半篇见这里)

viahttps://ai.googleblog.com/2019/01/looking-back-at-googles-research.html,雷锋网 AI 科技评论编译

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190117A0H06F00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券