回到终端：AI 促进分布式智能落地

AI研习社

发布于 2018-09-25 16:09:42

4740

发布于 2018-09-25 16:09:42

文章被收录于专栏：AI研习社

本文为 AI 研习社编译的技术博客，原标题 Back to the Edge: AI Will Force Distributed Intelligence Everywhere，作者为 azeem。翻译 | 江舟校对 | Lamaric 审核 | Lamaric

在第一部分中，我们探讨了人工智能如何加速了对计算周期的需求。

在这一部分中，我们将探讨人工智能是如何推动这两个转变：边缘处理的复苏，以及新处理架构的到来。

本文受到了 NewCo Shift 的大力协助。

云端将蓬勃，边缘将绽放

1996 年底时，康柏公司的两名高管 George Favaloro 和 Sean O'Sullivan 意识到无处不在的互联网连接存在会改变信息处理的位置。计算过程可以在通过互联网访问的服务器上进行，而不是在办公室服务器室或桌面上。这种被他们称为“云”的计算方式在发生着这种转变。不过，这个词（在那时）并没有被坚持下去，那之后，康柏在 2002 年被惠普吞并。

但是，他们确定的关于“云”的主题却扎根了下来。2006 年，当时的谷歌首席执行官埃里克施密特说：“我认为人们并不真正了解这个机会究竟有多大，它的前提是数据服务和架构应该在服务器上。我们称之为云计算，他们存在于某个‘云’上”。

从那时起，云计算已成为 IT 企业发展最快的领域之一。亚马逊的 AWS 业务部门成立于 11 年前，它有着超过 120 亿美元的收入。云计算为软件带来了全新的商业模式：软件即服务模式。这个模式创建了 Salesforce、Workday 和 Zendesk 等巨头。

今天，许多企业计算都发生在私有或虚拟私有云的远程数据中心上。当然，企业计算是当下很重要的。我们有着智能设备，比如智能手机，平板和功能强大的笔记本电脑。然而，我们作为消费者体验的大部分聪明的东西，比如在 Facebook 上的排名内容，亚马逊上推荐的产品，Siri 中响应的口头命令，都发生在互联网这庞然大物拥有的基础设施的云端。

这种向“云”的转变并不是计算中的第一次变化。从大型机和小型计算机转向台式个人计算机已经将处理器周期从受到严密保护的计算机房转移到数百万用户的个人办公桌上。如果你愿意，这就是计算的边缘化。这种转变始于 20 世纪 70 年代中期，并且随着 DOS 和 IBM PC 标准的发展而加速到 80 年代。

互联网的到来使我们能够将计算转回“云”，远离网络边缘和用户的桌面。但即将发生的人工智能海啸将使云计算能力的增长，以及计算能力的转变，从云端又回到网络边缘。

猛烈地发展，为什么？

最终，你要在被需要的地方提供智能。随着一切变得聪明，从灯泡到相机，再到简单的传感器，他们需要有自己的能力来决定做什么并最终从身边环境中学习。

为了大大简化过程，一个智能设备需要做两件事。首先是学习（或接受训练）其环境。第二个是弄清楚（或推断）在任何阶段要做什么。

但今天的 AI 系统在设备上很少有这些东西。在大多数情况下，AI 系统（如 Amazon Echo）将数据发送回云服务器进行处理和思考。你的 Echo 就像鹦鹉一样回应，它重复着在全球数据中心的某个服务器上为它计算出来的洞察力。

此外，这些设备不会从他们的环境或经验中学习任何东西。学习过程是发生在云端的。目前，他们通过基于云的人工智能的偶尔更新而变得更聪明。

智能需要本地化的原因是多方面的。一个原因是延迟。如果需要快速做出决定，那么将数据发送回云端的过程可能对整个过程是有害的，这是因为发送回云端最有可能通过移动网络并需要等待响应。

一个处在 4G 网络的欧洲的设备要连接到数据中心，其延迟可能为 50 毫秒。如果要发送大量的数据（比如来自视频流的剪辑），那么总的传输时间将会达到以秒为单位级别。即使机器视觉过程只需要几毫秒，整个端到端交易也可能会持续一两秒钟。

对于许多应用来说，延迟是不可接受的。现阶段没有哪种运输方式可以依靠云端，无论自动驾驶汽车或无人机。因为汽车行驶速度太快，而行人太弱。机器人外科医生也不能容忍这种延迟。患者的代谢紊乱不会等待 IP 数据包穿越大西洋到亚马逊网络服务的服务器。如果智能门铃，智能指甲钳或智能微波炉需要在响应简单的请求之前有上 1-2 秒的延迟，消费者将变得非常不满。

第二个原因是设备很快就需要变得足够强大才能在网络边缘学习。为什么？因为这些设备将在原地使用，并且他们将越来越多地进行环境化。放置设备的环境将是其操作的一个关键输入。我知道这在现如今听起来很奇怪，尤其想到身边相对愚蠢的设备时。但自治的本质就需要去学习和适应本地环境。我们希望自动驾驶汽车能在行驶时自动处理在巴黎，波特兰或浦那的道路，这种处理不是基于在帕洛阿尔托广阔的林荫大道上学到的一些柏拉图式的理想。对于自动驾驶汽车来说是正确的东西，也将会被运用于自动护理器，自动吸尘器和自动图书管理器。

然而现如今大部分 AI 系统都没有这种智能水平。即使他们可以推断设备上的行为，他们也很少了解设备上自身的环境。大部分学习都发生在云端上面。

是的，推理预测（即让人工智能在给定环境的当前状态下预测下一步该做什么）显然是一个推动边缘的候选者，但这也成为推动模型训练（学习）的必要条件

边界情况下的训练

人工智能的训练阶段传统上需要比推断或预测阶段更多的处理能力。任何父母都知道这一点，教孩子如何打开门（训练阶段）要比他们知道之后再去打开（推理阶段）要困难得多。

举个例子，在 2011 年，Google Brain 通过观看 YouTube 视频进行了训练，来识别猫和人，它在谷歌的一个数据中心运行着 2000 个 CPU。许多开发人员在云中训练模型，在那里可以存在机架式 GPU，然后将计算成本较低的推理模型推向边缘更便宜的设备。

但这已经开始发生了变化。苹果公司的 iPhone 在夜间使用空闲 GPU 周期来了解你的图片。谷歌最近推出了“联合网络学习”，它可以实现：

更智能的型号，更低的延迟和更低的功耗，同时还确保隐私性。此方法还有另一个直接的好处：除了提供共享模型的更新外，更新后的模型可以被立即使用，并通过你使用手机的方式为个性化体验提供动力。

谷歌应用这些智能的一个例子是他们应用在 GBoard Android 键盘上的打字预测。所有用户体验到的将是根据其他用户行为进行改进后的预测。

我们可能会看到的是一个多方面的基础设施，其中学习过程发生在网络边缘和云端上。这种联合网络学习将是很有效的。它将允许网络从数千（或数百万甚至数十亿）边缘设备的经验和他们的环境经验中学习。但是，在联合环境中，边缘设备可以进行一些学习并且有效率地将增量（或权重）发送回云端，其中的中心模型可以被更有效的更新，而不是将原始经验数据既费力又迂腐地发送回云进行分析。

这种机制可以嵌入有损的方法，比如差分隐私，来确保数据库中的聚合数据不会泄露关于特定个人或他们习惯的信息。但这仍然允许捕获数据中的重要模式，也同时保护个人隐私。

从云转移到云和边缘的智能转移轨迹也会产生其他影响，包括必须制造的芯片类型。

硅在新架构上的应用

自英特尔 4004 型处理器于 1971 年推出以来，英特尔的通用微处理器，即中央处理器（或称 CPU ) 一直主导着技术行业。几十年来，英特尔、通用 CPU 和摩尔定律一直是三巨头。通用 CPU 为我们提供了非常好的服务。它允许标准操作系统（首先是 DOS，然后是 Windows ) 的出现，这创建了一个公共平台，而它反过来又降低了 IT 开发人员和用户的成本（它还创造了 Wintel 垄断，这种垄断首先不是因为反垄断，而是因为互联网和移动电话的出现而被打破）。

然而，由于机器学习的差异化需求，事实证明 CPU 性能太普通了。更糟糕的是，制造业和量子物理的局限使得摩尔定律的改进停滞不前。2016 年 8 月份的《自然》杂志的封面上以此为标题。业内大部分人都同意。

事实上，目前人工智能投资的繁荣是由通用 CPU 的一个转变所推动的。这是在 2012 年由一个神经网络触发的，这个神经网络运行在一对图形处理单元（GPU 等）而不是一组 CPU 上。

在研究员 Alex Krizhevsky 和他的同事们赢得 2012 年 Imagenet 竞赛后，深度神经网络与 GPU 配对的优势变得显而易见。其余都是近期的历史。

如果说前 30 年的计算能够在通用 CPU 上创造价值，未来几十年将在更复杂的处理体系结构生态上创造价值。其中一些已经开始出现：Nvidia 的 GPU 及其 CUDA 生态系统；谷歌的 TPU 芯片和 Tensorflow 控制软件；基于人工智能的 FPGAs（可在微软的 Azure 云中找到）；新的神经形态芯片；和快速接近的量子计算。

从电子游戏到数学矩阵

深度学习的核心要求是需要执行大量（通常是数十亿）的大规模计算。现代机器学习方法，基本上是神经网络，代表了所谓张量中的数据结构。

理解张量并不简单，除非你参加了一门严肃的数学课程，或者观看了这段精彩的 12 分钟 YouTube 视频。张量是一种数学结构，是一种成熟的多维形式的矩阵。简单地说，矩阵就是一个包含值的行和列的表格（就像电子表格）。

神经网络的 Commons 方法使用矩阵来表示高维数据。在一个简单的计算机视觉应用的基本机器学习模型中，可能需要将数百或数千或行或列的矩阵相乘，并且要这样做很多次。这会导致数千万或数十亿的计算量。

这些类型的计算在电子游戏中司空见惯，GPU 最初是在铁杆 PC 游戏玩家中站稳脚跟的。这些 GPU 有专用管道，有数千个处理器针对矩阵数学进行了优化。当涉及矩阵计算时，它们会把通用 CPU 远远的丢在身后。

有趣的是，加密货币的矿工也喜欢 GPU。在中国，世界上大部分比特币都是采用加密方式开采，对 GPU 卡的需求使得热衷游戏的玩家买不到心仪的显卡。（当比特币价格下跌时，矿工们迅速将他们的 GPU 卡在 eBay 上出售。）

加速张量和网络

当然，如果神经网络的底层数据结构和计算是通过张量进行的，为什么不直接优化处理器来处理硅中的张量计算，而不是将其转换成矩阵表示呢？

谷歌就是这样做的。它自身巨大的处理需求导致了它开发自己定制的硅芯片——即传感器处理单元。TPU 是专为加快谷歌数据中心的深度学习而设计的。这些算法被用于许多谷歌服务，包括谷歌照片和安卓手机上的语音识别。这些 TPU 运行速度比传统芯片快 15 - 30 倍。据估计，TPUs 的使用使得谷歌能够满足不断增长的深度学习需求，并使公司免于建立十几个数据中心。（更多关于 TPU 的技术细节可以在谷歌团队的这篇博客上找到）

Google 一直为其 TPU 做准备。很快，任何开发人员都可以在 Google 的云计算平台 Google Cloud 上访问 TPU（通过 Googles TensorFlow 的控制框架）。最初，这将为开发人员提供 180 万亿次优化的深度学习处理能力。（该计划目前正在进行封闭性测试）

这看起来有点像典型的云软件生态系统。硬件是谷歌 TPU，控制软件是谷歌 TensorFlow，容量提供商和计费接口是谷歌云。目前，TPU 驻留在数据中心，还没有进入边缘设备。

Google 并不是唯一一个得出芯片可以针对张量计算进行优化结论的公司。一家英国初创公司 Graphcore 得出了类似的结论。其仅在今年就筹集了超过 6000 多万美元，正在开发自己的智能处理单元，本质上是另一个名称的张量处理单元。这些是为处理网络图而优化的芯片。（网络图只是表示编码神经网络的高维张量的一种不同的方式）

Graphcore 承诺其专用芯片将在单个芯片上拥有 1000 多个独立处理器，这大大超过了 Nvidia 的顶级 GPU，并有望击败谷歌的第二代 TPU。（为了对 Graphcore 的方法有一个非常清晰和略有技术性的介绍，我推荐这位来自 Graphcore 的知情 CTO Simon Knowles 的 30 分钟的演示）

其他主要公司也在纷纷效仿。微软已宣布推出专用的硅硬件，以加速其 Azure 云中的深度学习。今年 7 月，该公司还透露，其增强现实耳机 Hololens 将会有一个定制芯片，用于优化机器学习应用。

苹果公司在为专业需求设计自己的硅产品方面有着悠久的历史。今年早些时候，苹果结束了与 Imagination Technologies 公司的合作关系，该公司一直在为 iPhone 中的 GPU 提供设计支持，并开展自己的 GPU 设计。随着一套软件工具 CoreML 的发布，让在 iPhone 上的机器学习变得更加容易，我们可以期待被优化的芯片将会随之而来。英特尔在 CPU 方面的主导地位正受到威胁，它已经通过收购（如 Altera、Nirna Systems 和 Movidius）以及新的非传统架构的研发来应对。

结论

正如我们在第一部分中指出的那样，人工智能将为计算创造大量的需求。仅仅用一个例子，为自动驾驶车辆提供动力，就相当于几个 iPhone 行业的计算需求。但这也只是一个用例。这些要求比摩尔定律更需要改进。这一额外需求的大部分将通过芯片设计和体系结构的创新以及自 20 世纪 70 年代以来推动该行业大部分进步的通用 CPU 的逐渐减少来满足。

但光靠这一点还是不够的。如今，驱动计算体验的大部分处理都发生在「云」中。随着人工智能应用变得越来越普遍，我们需要将一些预测和学习的智能转移到需要的地方。这将导致网络边缘的智能数量相对增加。

变化来临了！

在第三部分中，我们将探讨它为投资者和企业家提供了哪些机会。

原文链接：https://medium.com/s/ai-and-the-future-of-computing/back-to-the-edge-ai-will-force-distributed-intelligence-everywhere-6b458d7aae5d

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-09-02，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 AI研习社微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度