Google传奇Jeff Dean最新演讲:如何构建未来的机器学习芯片

允中 编译整理 量子位 出品 | 公众号 QbitAI

如何构建未来的机器学习加速芯片?

Google大脑负责人Jeff Dean是最有资格回答这个问题的人之一。昨天,还是在NIPS大会期间,Jeff Dean详细介绍了Google在AI芯片方面的最新研究。

以下是Jeff Dean最新演讲的主要内容。

众所周知,深度学习需要大量的计算资源支持,深度学习正在改变我们设计电脑的方式。例如,降低计算精度也是OK的。

Google在新机器学习方面的成果之一,就是TPU。这个专用的AI加速芯片,主要用来执行神经网络的推理计算。Google的搜索、神经机器翻译、语音图像识别,以及大名鼎鼎的AlphaGo背后,都是TPU在提供计算支持。

第一代TPU在推理方面取得了巨大的进步,但是训练怎么办?

于是Google又研发了第二代TPU。第二代TPU被设计用来同时执行训练和推理计算。第二代TPU的架构如下图所示:

Google还用64块TPU组成阵列(TPU Pod),这进一步提升了计算效力。具体有多厉害?例如,训练Resnet-50达到75%以上精确度,单个第二代TPU要耗时一整天,而阵列只需要22分钟,速度提升31倍,不需要任何额外代码优化。

成绩属于过去,未来挑战依然严峻。2009年以来,arXiv上机器学习论文的增长速度,已经超过摩尔定律。

所以,接下来要思考的问题还是:应该如何构建未来的机器学习加速器?如果现在开始着手,如何设计一个两年内能投入使用,五年内不会过时的AI芯片?

需要考虑的问题包括精度、稀疏和嵌入、Batch大小、训练算法等等。但首先是整个系统都应该有所改变。传统的low-level系统代码(操作系统、编译器、存储系统)还没有广泛利用当今的机器学习。

对于更高性能的机器学习模型来说,并行性非常重要。但是在多个计算设备上获得良好的性能,是并不是一件易事。

为什么这样?

因为Learned Index结构,不是传统的索引结构。这部分实际上是Google最新的研究成果。

在这个研究中,Google从假设现在所有的索引结构都可以用其他类型的模型来代替,包括深度学习模型,这被称为Learned Index。核心思想是,一个模型可以学习查询的排序顺序或者结构,并且利用这个信号来有效预测记录的位置。

Google还从理论上分析了Learned Index在哪些条件下,表现优于传统的指标结构,描述了Learned Index结构设计中的主要挑战。

初步的结果显示,在神经网络环境中,这能让经过缓存优化的B-Tree提速70%,同时节省了一个数量级的内存占用。

另外,GPU/TPU让Learned Index更加可行。当然,GPU/TPU还面临高调用延迟等挑战,但是使用批量请求等技术,可以分摊调用成本。

重要的是,Google认为通过学习模型取代数据管理系统核心组件的想法,对未来的系统设计有着深远的影响。

如果对这部分研究的细节感兴趣,可以查看Google的论文The Case for Learned Index Structures,地址在此:https://arxiv.org/abs/1712.01208 。

在量子位微信公众号(QbitAI)对话界面,回复关键词“jeff”,就能下载此次Jeff Dean演讲PPT的全文。

One more thing…

Jeff Dean终于在推特上开了账号~

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-12-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

统治世界的十大算法

28190
来自专栏机器之心

从冷战到深度学习:一篇图文并茂的机器翻译史

选自Vas3k.com 作者:Ilya Pestov 英语版译者:Vasily Zubarev 中文版译者:Panda 实现高质量机器翻译的梦想已经存在了很多年...

33960
来自专栏AI研习社

Google Brain:NMT训练成本太高?用大规模神经机器翻译架构分析给出解决方案

编者按:十年前,Google Translate发布。当时,这项服务背后的核心算法还是基于短语的机器翻译。 而十年后的今天,更先进的神经网络机器翻译( Neur...

34950
来自专栏数据魔术师

机器学习|刘博士谈机器学习--开篇

20260
来自专栏AI2ML人工智能to机器学习

机器学习平台的优化器 (平台篇)

机器学习的开源平台越来越多了, 绝大部分平台都是牛人读博期间的产物 (所以大家一定要珍惜读博能做开发的日子)。 先说一下, 主流平台也分工业和研究, 大体这...

12800
来自专栏CDA数据分析师

真正统治世界的十大算法,你知道吗?

本期责编:Sophie 文|Marcos Otero 译|伯乐在线 - Justin Wu 不久前的某一天,我在浏览Reddit发现了一篇有趣的文章《统治世界的...

27280
来自专栏大数据文摘

认罪吧,你的代码已经出卖了你!

近日,在Drexel大学任职计算机科学的副教授Rachel Greenstadt,及其他的博士学生(现为George Washington大学助教)Aylin ...

8210
来自专栏大数据

100000个故事的情节分析:一个简单案例

最近我从马克·里德尔 那拿到了很棒的自然语言方面的数据集 :从WIKI下载了112000个故事作品的情节。其中包括了书籍,电影,电视剧集,视频游戏等有“情节”的...

53740
来自专栏CreateAMind

X君和T君关于通用学习机的对话 - 之三

X君和T君是老朋友。X君是数学家,对通用学习机比较有心得。T君是物理学家,资深程序员,软件专家。他们已经两次在纽约城谈通用学习机。今天他们通过电话第三次谈通用学...

9420
来自专栏AI科技评论

开发 | NMT训练成本太高?Google Brain用大规模神经机器翻译架构分析给出解决方案

AI科技评论编者按:十年前,Google Translate发布。当时,这项服务背后的核心算法还是基于短语的机器翻译。 而十年后的今天,更先进的神经网络机器翻译...

365100

扫码关注云+社区

领取腾讯云代金券