在 NeurIPS 2022 会议的一场特邀演讲中,图灵奖得主、深度学习先驱 Hinton 在关于深度学习影响计算机构建方式、神经网络算法等方面分享了他的最新观点。
NeurIPS 2022 会议正在如火如荼地进行之中,各路专家学者围绕着深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域展开交流与探讨。
会上,图灵奖得主、深度学习先驱 Geoffrey Hinton 被邀请发表演讲,以表彰他十年前与其研究生 Alex Krizhevsky 和 Ilya Sutskever 共同撰写的论文《ImageNet Classification with Deep Convolutional Neural Networks》,该论文因对该领域的「巨大影响」而被授予时间检验奖。这项工作发表于 2012 年,是卷积神经网络首次在 ImageNet 图像识别竞赛中表现人类水平的能力,它是启动第三次人工智能浪潮的关键事件。
Hinton 此次演讲的主题为《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演讲中,Geoffrey Hinton 表示,「机器学习研究社区在意识到深度学习对计算机构建方式的影响上一直表现缓慢。」他认为,人工智能的机器学习形式将引发计算机系统的变革,这是一种将 AI「放入你的烤面包机」的新型软硬结合。
他继续说到,「我认为我们将看到一种完全不同的计算机,虽然几年内无法实现。但我们有充分的理由来研究这种完全不同的计算机。」
构建完全不同的新型计算机
迄今为止,所有的数字计算机都被构建为「不朽」(immortal),其中硬件设计非常可靠,以便相同的软件可以在任何地方运行。「我们可以在不同的物理硬件上运行相同的程序,知识是不朽的。」
Hinton 表示,这种设计要求意味着数字计算机已经错过了「硬件的各种可变、随机、不稳定、模拟和不可靠特性」,而这些特性可能对我们非常有用。
在 Hinton 看来,未来的计算机系统将采取不同的方式:它们将是「神经形态的」,并且是普通的(mortal)。这意味着每台计算机都将是神经网络软件与杂乱无章硬件的紧密结合,在具有模拟而非数字元件的意义上,它可以包含不确定性因素并随时间推移而发展。
Hinton 解释到,「现在的替代方案是我们将放弃硬件与软件的分离,但计算机科学家真的不喜欢这种做法,因为攻击到了他们的基本原则之一。」
所谓的普通计算(mortal computation),就是系统学习到的知识和硬件是密不可分的。这些普通计算机可以「成长」,摆脱造价高昂的芯片制造厂。
Hinton 指出,如果我们这样做了,就可以使用功耗极低的模拟计算,还能使用忆阻器权重来进行万亿次并行处理。这里指的是一种基于非线性电路元件、拥有数十年历史的实验芯片。此外我们还可以在不了解不同位硬件的精确行为的精准质量时发展硬件。
但是,Hinton 也表示,新的普通计算机并不会取代传统的数字计算机,「它不是掌控你的银行账户的计算机,也不会确切知道你有多少钱。」
这种计算机用于放置(即处理)其他东西,比如它可以使用一美元将 GPT-3 之类的东西「放入你的烤面包机中」,这样只需几瓦的功率,就可以与自己的烤面包机对话。
适合普通计算硬件的 FF 网络
在这次演讲中,Hinton 花了大部分时间谈论一种新的神经网络方法,他称之为 Forward-Forward(FF)网络,它取代了几乎所有神经网络中使用的反向传播技术。Hinton 提出,通过去除反向传播,前向网络可能更合理地接近现实生活中在大脑中发生的情况。
这篇论文草稿被张贴在多伦多大学的 Hinton 主页上:
论文链接:https://www.cs.toronto.edu/~hinton/FFA13.pdf
Hinton 表示,FF 方法可能更适合普通的计算硬件。「当前如果要实现这样的事情,我们必须有一个将在专属硬件中运行的学习程序,必须要学习利用该专属硬件的具体属性,而不知道所有这些属性是什么。但我认为前向算法是一个有潜力的选项。」
他说,建造新的模拟计算机的一个障碍是,人们对在数百万台设备上运行一个软件的可靠性很重视。「这些手机中的每一部都必须从一个婴儿手机开始取代,而且它必须学习如何成为一部手机,」Hinton 说。「而这是非常痛苦的。」
即使是最擅长相关技术的工程师,也会因为担心不确定性,而迟迟不能放弃完美的、相同的不朽计算机的范式。
Hinton 说:「在对模拟计算感兴趣的人中,仍有极少数人愿意放弃不朽。这是因为对一致性、可预测性的依恋。但如果你希望模拟硬件每次都做同样的事情,你迟早因为这些杂乱的东西遇到真正的问题。」
论文内容
在论文中,Hinton 介绍了一种新的神经网络学习程序,并通过实验证明它在一些小问题上的效果足够好。具体内容如下:
反向传播有什么问题?
过去十年,深度学习的成功确立了在大量参数和大量数据的情况下执行随机梯度下降的有效性。梯度通常是通过反向传播来计算的,这导致人们对大脑是否实现了反向传播或是否有其他方式来获得调整连接权重所需的梯度产生了兴趣。
作为大脑皮层如何学习的模型,反向传播仍然是不可信的,尽管人们做出了相当大的努力来让它像真实的神经元一样实施。目前没有令人信服的证据表明大脑皮层明确地传播误差导数或储存神经活动,以便在随后的反向传播中使用。从一个皮层区域到视觉通路中较早的区域的自上而下的连接并不像预期的那样,即如果在视觉系统中使用反向传播,就会出现自下而上的连接。相反,它们形成了循环,其中神经活动经过两个区域的大约半打皮质层,然后回到它开始的地方。
通过时间的反向传播作为学习序列的一种方式是特别不靠谱的。为了处理感官输入流而不频繁超时,大脑需要通过感官处理的不同阶段对感官数据进行 pipeline 处理,它需要一个能「在飞行中」学习的学习程序。Pipeline 后期阶段的表征可能提供自上而下的信息,在后续的时间步中影响 pipeline 早期阶段的表征,但感知系统需要实时地进行推理和学习,而不需要停止执行反向传播。
反向传播的另一个严重限制是,它需要完全了解在前向传递中进行的计算,以便计算出正确的导数。如果我们在前向传递中插入一个黑匣子,那么就不可能再进行反向传播,除非我们学习了黑匣子的可微分模型。正如我们将看到的,黑匣子根本不会改变 FF 算法的学习程序,因为不需要通过它进行反向传播。
在没有完美的前向传递模型的情况下,或许能求助于许多形式的强化学习之一。这个想法是对权重或神经活动进行随机扰动,并将这些扰动与收益函数的变化联系起来。但强化学习程序存在高变异性:当许多其他变量同时被扰动时,很难看到扰动一个变量的效果。为了平均化所有其他扰动造成的噪音,学习率需要与被扰动的变量数量成反比,这意味着强化学习的规模很差,对于包含数百万或数十亿参数的大型网络,无法与反向传播竞争。
这篇论文的主要观点是,含有未知非线性的神经网络不需要借助于强化学习。FF 算法的速度与反向传播相当,但它的优点是可以在正向计算的精确细节未知时使用。它的优势还在于可以在通过神经网络对顺序数据进行流水作业时进行学习,而不需要储存神经活动或停止传播误差导数。
总体来说,FF 算法比反向传播要慢一些,而且在本文研究的几个 toy problem 上,它的归纳性也不太理想,所以在功率不太受限的应用中,它不太可能取代反向传播。对于在非常大的数据集上训练的非常大的模型,这类探索将继续使用反向传播。FF 算法在两个方面可能优于反向传播,一是作为大脑皮层的学习模型,二是作为使用非常低功率的模拟硬件而不需要借助于强化学习。
FF 算法
Forward-Forward 算法是一种贪婪的多层学习程序,其灵感来自玻尔兹曼机和噪声对比估计。思路是用两个前向传递代替反向传播的前向和后向传递,这两个前向传递又以完全相同的方式彼此运算,但在不同的数据上,目标也相反。其中,positive 传递在真实数据上运算,并调整权重以增加每个隐藏层的优点(goodness);negative 传递在 negative 数据上运算,并调整权重以减少每个隐藏层中的优点。
在论文中,Hinton 通过在 CIFAR-10 上的实验展示了 FF 算法的性能。
CIFAR-10 有 50000 幅训练图像,这些图像为 32 x 32 像素大小,每个像素有三个颜色通道。因此,每幅图像有 3072 个维度。这些图像的背景很复杂,变化很大,在如此有限的训练数据下无法很好地建模。一般来说,有两到三个隐藏层的全连接网络在用反向传播法训练时,除非隐藏层非常小,否则过拟合效果很差,所以几乎所有的报告结果都是卷积网络。
由于 FF 的目的是用于权重共享不可行的网络,所以将它与反向传播网络进行了比较,后者使用局部感受野来限制权重的数量,而不过于限制隐藏单元的数量。其目的只是为了表明,在有大量隐藏单元的情况下,对于包含高度可变背景的图像,FF 的性能与反向传播相当。
表 1 显示了用反向传播和 FF 训练网络的测试性能,这两种方法都使用了权重衰减来减少过拟合。
更多研究细节,可参考原论文。
参考链接:
https://www.zdnet.com/article/we-will-see-a-completely-new-type-of-computer-says-ai-pioneer-geoff-hinton-mortal-computation/
"Mortal computation" means analog computers marrying AI closely to hardware will put GPT-3 in your toaster for $1 running on a few watts of power.