The Brain vs Deep Learning（完结）

哒呵呵

发布于 2018-08-06 17:32:16

2910

发布于 2018-08-06 17:32:16

文章被收录于专栏：鸿的学习笔记

--所以计算机计算能力的瓶颈限制了人工智能的发展

Part IV: Predicting the growth of practical computationalpower

在高性能计算（HPC）中有一个主要的性能测量方式，这个测量是在高性能LINPACK（HPL）基准测试中的每秒浮点运算（FLOPS），它测量系统在一秒钟内可以进行多少次计算，比如在数百或数千台计算机上进行分布式密集矩阵操作。有一个超级计算机的TOP500列表，就是基于该基准的历史列表，用于新的超级计算机系统的性能的主要参考点。

高性能计算社区的每个人都知道这一点，但它在这方面的业务例程中根深蒂固，当你设计一个新的超级计算机系统时，你基本上必须证明你的系统将能够在TOP 500中，以获得该超级计算机的资金。

有时这样的系统实际上是不可用的，如天河2超级计算机，在超过三年后仍然是LINPACK基准的顶尖。这种超级计算机的潜力在很大程度上未被使用，因为它运行（耗电）太昂贵，并且定制硬件（定制网络，英特尔至强融核）和需要新软件，这需要多年的开发才能达到标准HPC软件的复杂程度。天河2只运行了大约三分之一的能力，或者换句话说，它在3分钟内空闲2分钟。 2010年，天河2（天河1，世界上最快的计算机）（根据LINPACK）的前身，由于官僚原因而没有使用。

在中国以外，类似设计的超级计算机表现地更好，但在实际应用中它们的表现通常不佳。这是因为使用的加速器（如图形处理单元（GPU）或英特尔Xeon Phis）可以在这样的设置中提供高FLOPS，但是它们受到网络带宽瓶颈的严重限制。为了纠正LINPACK基准不断增长的无用性，开发了一种新的性能测量：高性能共轭梯度基准（HPCG）。这个基准执行共轭梯度，需要比LINPACK更多的通信，因此更接近实际应用的性能数字。我将使用这个基准创建我的奇点估计。

The TOP500 for the last decade and some data for the HPCG(data collection only began recently). The dashed lines indicate a forecast.The main drivers of computational growth are also shown: Multicore CPU, GPU,and in 2016-2017 3D memory, and some new unknown technology in 2020. Will thisgrowth be sustainable?

然而，当我们假设这些应用程序是基于深度学习时，这个基准仍然大大高估了人工智能应用程序可以达到的计算能力。

深度学习是目前获得人工智能最有前途的技术。可以肯定的是，深度学习现在是不够的，但可以肯定地说，类似于深度学习的东西将到达到强AI。

与其他应用程序不同，深度学习对网络带宽的需求异常高。它是如此之高，对于一些超级计算机设计，深度学习在TOP 500的运行速度比在您的台式计算机上运行还慢。为什么会这样？因为并行深度学习涉及海量参数同步，需要大量的网络带宽：如果你的网络带宽太慢，那么在某些时候深度学习越慢，你需要添加到系统中的计算机越多。因此，通常相当快的非常大的系统对于深度学习可能非常慢。

所有的问题是，使得能够实现高带宽的新网络互连的开发是困难的，并且进展比计算模块（诸如CPU，GPU和其他加速器）的进步慢得多。就在最近，Mellanox达到了一个里程碑，他们可以制造开关和InfiniBand卡，以每秒100Gb的速度运行。这种发展仍然是相当实验性的，并且难以制造可以以这种速度操作的光纤电缆。因此，没有超级计算机实现了这个新的发展。但随着这个里程碑的到来，很多时候都不会再有另一个里程碑了。网络互连带宽的倍增时间约为3年。

同样，存在内存的问题。虽然CPU和GPU的理论处理能力的速度再持续增加，但RAM的存储器带宽几乎是停滞的。这是一个很大的问题，因为现在我们处在一个点，其中将数据移动到计算电路会花费更多的时间，而不是实际使用它进行计算。随着新的发展，如3D存储器，可以确保将实现内存带宽的进一步增加，但我们没有什么方法可以进一步提高性能。我们需要新的想法和新技术。内存不会通过越来越小来改变大小。

然而，目前最大的障碍是功耗。天河2使用24兆瓦的电力，总计每天6.5万美元到10万美元的电费，或每年约2300万美元。天河2所消耗的电力足以为德国的6000个家庭或美国的2000个家庭提供电力（A / C使用）。

An overview about how the performance constraints changedfrom old to new supercomputers.

Physical limitations

此外，还有一些物理问题。我们的电路将变得很小，电子将开始显示量子效应。一个这样的量子效应是量子隧道效应。在量子隧道中，电子一次性地位于两个相邻的电路中，并且随机决定接下来将在这两个位置中的哪一个。如果这种情况发生在更大的规模，它就像在你的电视旁边充电你的手机，电子决定他们想去你的手机电缆，而不是你的电视; 所以他们跳到电话电缆切断电源到你的电视。量子隧道将在2016 - 2017年出现，并且必须慎重考虑。需要新材料和“绝缘”电路从这儿重新出发。

随着使用新材料，我们需要新的生产技术，这将是非常昂贵的，因为所有的计算机芯片都依赖于相同的，陈旧的但可靠的生产过程。我们需要研究和开发，使我们已知的过程使用这些新材料，这不仅会花费金钱，而且会花费时间。这也将推动持续的增长，其中用于生产计算机芯片的成本指数增加（并且由于成本，增长可能减慢）。目前，这样的半导体制造工厂（fab）的成本在90亿美元，同时以相对稳定的速率增加，在过去几十年中每年成本增加约7-10％。在这之后，我们不在是平常的物理限制。晶体管将由少数几个原子组成。我们不能小于这个水平，并且这个水平的制造将需要大量的努力以使这样的装置正常工作。这将开始发生在2025年左右，由于物理限制，这里的增长可能会放缓。

Recent trends in the growth of computational power

所以总结前面的部分：（1）LINPACK性能不反映实际性能，因为它不测试内存和网络带宽约束; （2）存储器和网络带宽现在比计算能力更重要，然而（3）存储器和网络带宽的进步将是缓慢的，并且不能与计算能力的增长竞争; （4）电力成本是一个严重的限制（如果公民面临零星的电力中断，尝试为超级计算机建一个专用电厂），以及（5）计算能力将在未来几年内受到物理边界的限制。

可能不会出乎意料的是，计算能力的增长近年来已经放缓;这主要是由于功率效率只会逐渐提高，但其他因素也会带来损失，如网络互连，无法跟上加速器像GPU这类。

如果采用最快的超级计算机实际FLOPS的当前估计，在HPCG上具有0.58 petaflops的天河-2，则将需要21个倍增周期，直到达到脑的计算能力的下限。如果使用摩尔定律，我们将在2037年达到;如果我们采取过去60年的增长，这是每倍增加约1.8年，我们将在2053年达到这一点。如果由于上述问题，我们对倍增期的3年的较低估计，我们将在2078年达到这一点。对于正常的超级计算应用，内存带宽是目前实际应用的瓶颈，这可能很快变为网络带宽，每3年翻一番。所以2078的估计可能是相当准确的。

Growth in computing performance with respect to the HPCGbenchmark. Both computing performance and factory costs are assumed to keepgrowing steadily at an exponential rate with doubling period of 18 or 36months, respectively.

现在请记住，（1）HPCG基准测试比典型的深度学习应用程序具有更高的性能，这些应用程序更多地依赖于网络和内存带宽，（2）我对大脑计算复杂度的估计是一个下限。可以看出2100年以后都可能不太遥远。为了保持计算性能的这种长期而无情的增长，需要我们在2020年之前在物理限制的边界上开发和实施许多新想法。这是否可能？有志者事竟成，那真正的问题是：我们准备好支付费用吗？

Conclusion

在这里，我讨论了大脑的信息处理步骤及其复杂性，并将它们与深度学习算法进行了比较。我集中讨论了基本的电化学信息处理和被忽视的生物信息处理。我使用扩展线性非线性泊松级联模型作为基础，并将其与卷积架构比较。

使用这个模型，表明单个神经元具有非常类似于当前卷积网络的信息处理结构，其特征在于具有流型的非线性的卷积级，然后通过类似于dropout的方法正则化。我还建立了max-pooling和voltage-gated channels之间的连接。这种直接的相似性让我们有强烈的理由相信深层学习真的是在正确的道路上。它还表明从神经生物过程借用的想法对深度学习有用（问题是深度学习架构的进展往往在神经生物学的知识之前）。

我的模型显示，可以估计大脑每秒操作至少10 ^ 21次操作。根据目前计算能力的增长速度，我们可以在2037年实现具有类大脑能力的超级计算机，但是在2080年之后似乎更加现实，如果所有的证据都被考虑在内。如果我们成功地克服了物理障碍（例如量子隧道效应）以及半导体制造厂的资本成本和电力成本的增长，这一估计才成立。同时，我们不断地需要创新来解决存储器带宽和网络带宽问题，这些问题或将是超级计算中的瓶颈。考虑到这些考虑因素，我们实际上不太可能在很短的时间内实现类似人的处理能力。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-12-06，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自鸿的学习笔记微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

The Brain vs Deep Learning（完结）

The Brain vs Deep Learning（完结）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐