首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

全新计算方法,正重构人工智能……

光子盒研究院出品

尽管 ChatGPT 和其他大型语言模型取得了巨大成功,但支撑这些系统的人工神经网络 (ANN) 可能走错了路。

马里兰大学的计算机科学家Cornelia Fermüller表示,首先,ANN是“超级耗电的”。“另一个问题是(它们)缺乏透明度”:这种系统是如此复杂,以至于没有人真正了解它们在做什么,或者为什么它们工作得这么好。这反过来又使得几乎不可能让它们通过类比进行推理,用符号表示物体、想法和它们之间的关系。

这种缺陷可能源于目前的人工神经网络的结构及其构建模块:单个人工神经元。每个神经元接收输入,执行计算并产生输出。现代人工神经网络是由这些计算单元组成的精心设计的网络,经过训练可以完成特定任务。

然而,ANN的局限性早已是显而易见的。例如,考虑一个能区分圆形和方形的ANN。一种方法是在其输出层有两个神经元,一个表示圆,一个表示方。如果你想让你的ANN也能分辨出形状的颜色(蓝色或红色),你就需要四个输出神经元:蓝色圆形、蓝色方形、红色圆形和红色方形各一个。

更多的特征意味着更多的神经元。

这不可能是我们的大脑感知自然界的方式,它有各种变化。加州大学伯克利分校的神经科学家Bruno Olshausen和其他人认为,大脑中的信息是由众多神经元的活动所代表的。以此为例,对紫色大众汽车的感知不是以单个神经元的行动来编码的,而是以成千上万的神经元的行动来编码的。同一组神经元,以不同的方式发射,可以代表一个完全不同的概念(也许是一辆粉红色的凯迪拉克)。

这是一种完全不同的计算方法的出发点,被称为超维计算(hyperdimensional computing)。关键是每一条信息,如汽车的概念,或它的品牌、型号或颜色,或所有这些信息,都被表示为一个单一的实体:一个超维向量。

一个矢量只是一个有序的数字阵列。例如,一个三维矢量包括三个数字:三维空间中一个点的x、y和z坐标。一个超维向量,或超神经向量,可以是一个由10,000个数字组成的数组(例如,代表10,000维空间的一个点)。这些数学对象和操纵它们的代数是灵活和强大的,足以使现代计算超越其目前的一些限制,并促进人工智能的新方法。

为了理解超向量如何使计算成为可能,让我们回到有红色圆圈和蓝色方块的图像。首先,我们需要向量来表示变量SHAPE和COLOR。然后我们还需要向量来表示可以分配给这些变量的值: CIRCLE、SQUARE、BLUE 和 RED。

这些向量必须是不同的。这种独特性可以通过一个叫做正交性的属性来量化,正交性意味着成直角。在三维空间中,有三个矢量是相互正交的: 一个在X方向,另一个在Y方向,第三个在Z方向。在10000维空间中,有10000个这样相互正交的向量。

但如果我们允许矢量几乎是正交的,那么高维空间中这种不同的矢量数量就会爆炸。在一个一万维的空间中,有数百万个近乎正交的向量。

现在让我们创建不同的向量来表示形状、颜色、圆、方形、蓝色和红色。因为在高维空间中有这么多可能的近乎正交的向量,我们可以随机分配六个向量来代表这六个项目;它们几乎可以保证是近乎正交的。加州大学伯克利分校红木理论神经科学中心(the Redwood Center for Theoretical Neuroscience)的研究员Pentti Kanerva在2009年一篇有影响力的论文中写道:“制作近正交向量的难度是使用超维表示法的一个主要原因。”

加州大学伯克利分校的研究人员Pentti Kanerva(左)和Bruno Olshausen

这篇论文建立在Kanerva和Tony Plate在90年代中期所做的工作基础上,当时他是多伦多大学Geoff Hinton的博士生。两人独立开发了操作超向量的代数,并暗示了其对高维计算的有用性。

鉴于我们的形状和颜色的超向量,Kanerva和Plate开发的系统向我们展示了如何使用某些数学操作来操纵它们。这些操作对应于符号化操作概念的方式。

第一个操作是乘法。这是一种组合概念的方式。例如,将向量SHAPE与向量CIRCLE相乘,将二者结合成 “SHAPE是CIRCLE ”这一概念的表述。这个新的 “绑定” 向量几乎与SHAPE和CIRCLE都是正交的。如果你想从约束向量中提取信息,个别成分是可以恢复的,这是一个重要的特征。给出一个代表你的大众汽车的绑定向量,你可以解除绑定并检索其颜色的向量:紫色。

第二个操作,加法,创建一个新的向量,代表所谓的概念叠加。例如,你可以把两个绑定的向量,“形状是CIRCLE ”和 “颜色是RED”加在一起,创建一个代表红色的圆形的向量。同样,叠加的向量可以被分解为其组成成分。

第三种操作是置换;它涉及到重新排列向量的各个元素。例如,如果你有一个标有x、y和z值的三维向量,互换可能将x的值移到y,y移到z,z移到x。它考虑两个事件,由超向量A和B代表。我们可以将它们叠加成一个向量,但这将破坏关于事件顺序的信息。将加法和置换结合起来,可以保留顺序;通过反向操作,可以按顺序检索这些事件。

这三种操作加在一起,证明足以创建一个允许符号推理的超向量的正式代数。

2018年,Olshausen的一个名叫Eric Weiss的学生展示了超维计算的独特能力的一个方面。Weiss想出了如何将一幅复杂的图像表示为一个单一的超维矢量,其中包含图像中所有物体的信息,包括它们的属性,如颜色、位置和大小。

很快,更多的团队开始开发超维算法,以复制深度神经网络在20年前就已经开始处理的简单任务,例如对图像进行分类。

考虑一个由手写数字的图像组成的注释数据集。一个算法使用一些预先确定的方案来分析每张图片的特征。然后,它为每张图像创建一个超向量。接下来,该算法将所有零的图像的超神经向量相加,为零的概念创建一个超神经向量。然后,它对所有数字做同样的处理,创建10个超向量,每个数字一个。

现在,该算法被赋予了一个未标记的图像。它为这个新图像创建了一个超神经向量,然后将该超神经向量与存储的类超神经向量进行比较。这种比较决定了新图像与哪个数字最相似。

然而这仅仅是个开始。

超维计算的优势在于为推理而组成和分解超神经载体的能力。这方面的最新证明出现在3月份,当时苏黎世IBM研究院的Abbas Rahimi及其同事使用超维计算与神经网络来解决抽象视觉推理中的一个经典问题——这对典型的神经网络,甚至是一些人类来说是一个重大的挑战。

建立一个无线扩展的超维计算(HDC)架构

他们的方法在一组问题上的准确率接近88%,而仅有神经网络的解决方案的准确率不到61%。该团队还表明,对于3乘3的网格,他们的系统比使用符号逻辑规则进行推理的传统方法快了近250倍,因为该方法必须通过一个巨大的规则手册来确定正确的下一步行动。

超维计算不仅为我们提供了符号化解决问题的能力,它还解决了传统计算的一些棘手问题。如果由随机比特翻转(0变成1或反之)引起的错误不能被内置的纠错机制纠正,那么今天的计算机的性能就会迅速下降。

超维计算能更好地容忍错误,因为即使超向量遭受了大量的随机比特翻转,它仍然接近于原始向量。这意味着使用这些向量的任何推理在面对错误时不会受到有意义的影响。已有团队表明,这些系统对硬件故障的容忍度比传统的ANNs至少高10倍,而ANNs本身的“弹性(resilient)”比传统的计算架构高几个数量级。

超维计算的另一个优势是透明度: 代数清楚地告诉你为什么系统选择了它所做的答案。而传统的神经网络则不然。Olshausen、Rahimi和其他人正在开发混合系统,其中神经网络将物理世界中的事物映射为超向量,然后由超维代数接手。

与传统计算相比,所有这些好处表明,超维计算很适合新一代极其坚固的低功耗硬件。它还与 “内存计算系统” 兼容,后者在存储数据的同一硬件上进行计算(与现有的冯-诺依曼计算机不同,后者在内存和中央处理单元之间低效地穿梭数据)。其中一些新设备可以是模拟的,在非常低的电压下工作,使其节能,但也容易产生随机噪音。对于冯-诺依曼计算,这种随机性是 “无法超越的墙”,Olshausen说,但对于超维计算,“你可以直接冲破它”。

尽管有这样的优势,超维计算仍然处于起步阶段。这里有真正的潜力,不过,它仍然需要针对现实世界的问题和更大的规模进行测试,更接近于现代神经网络的规模。

“对于大规模的问题,这需要非常有效的硬件,”Rahimi说:“例如,你如何有效地搜索超过10亿个项目?”

所有这些都应该随着时间而来。高维空间还有其他的秘密,我们仍处于用向量进行计算的最开始的时间。

参考链接:

[1]https://www.quantamagazine.org/a-new-approach-to-computation-reimagines-artificial-intelligence-20230413/

[2]https://ieeexplore.ieee.org/document/9516681

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230415A076YY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券