矩阵与人工智能-人工神经网络的局限性早已显而见而易见
译者:zzllrr小乐
尽管 ChatGPT 和其他大型语言模型取得了巨大的成功,但支撑这些系统的人工神经网络(ANN)可能走上了错误的轨道。
首先,人工神经网络是“超级渴望电力”的,马里兰大学的计算机科学家Cornelia Fermüller说。“另一个问题是(它们)缺乏透明度。这样的系统是如此复杂,以至于没有人真正理解它们在做什么,或者为什么它们工作得如此之好。反过来,这使得它们几乎不可能通过类比来推理,而人类却是这样做的——使用符号来表示物体、想法和它们之间的关系。
这些缺点可能源于人工神经网络及其构建块的当前结构:单个人工神经元。
每个神经元接收输入,执行计算并产生输出。现代人工神经网络是这些计算单元的复杂网络,经过训练可以执行特定任务。
然而,人工神经网络的局限性早已显而易见。例如,考虑一个区分圆和正方形的ANN。一种方法是在其输出层中有两个神经元,一个表示圆形,另一个表示正方形。如果你想让你的ANN也能辨别形状的颜色——蓝色或红色——你需要四个输出神经元:蓝色圆圈、蓝色方块、红色圆圈和红色方块各一个。更多的特征意味着更多的神经元。
这不可能是我们的大脑感知自然世界以及它的所有变化的方式。“你必须提出,你有一个适用于所有组合的神经元,”加州大学伯克利分校的神经科学家布鲁诺·奥尔斯豪森(Bruno Olshausen)说。“譬如,你的大脑里会有一个探测器探测紫色的大众汽车。”
然而,Olshausen和其他人认为,大脑中的信息是由许多神经元的活动来表示的。因此,对紫色大众汽车的感知不是编码为单个神经元的行为,而是编码为数千个神经元的行为。同一组神经元,以不同的方式放电,可能代表一个完全不同的概念(也许是粉红色的凯迪拉克)。
这是一种完全不同的算法的起点,称为超维计算(hyperdimensional computing)。关键是每条信息,例如汽车的概念,或其品牌,型号或颜色,或所有这些,都表示为一个实体:超维向量(hyperdimensional vector)。
向量只是一个有序的数字数组。例如,三维向量由三个数字组成:三维空间中点x、y 和 z 坐标。一个超维向量或超向量(hypervector)可以是 10000 个数字的数组,例如矩阵与人工智能,表示 10000 维空间中的一个点。这些数学对象和操纵它们的代数足够灵活和强大,可以使现代计算超越其当前的一些限制,并培养一种新的人工智能方法。
“这几乎是在我的整个职业生涯中令我最兴奋的事情,”Olshausen说。对他和其他许多人来说,超维计算预示着一个新的世界,在这个世界中,计算是高效和鲁棒(稳健的),机器做出的决策是完全透明的。
进入高维空间
为了理解超向量如何使计算成为可能,让我们回到带有红色圆圈和蓝色方块的图像。首先,我们需要向量来表示这两个变量:SHAPE(形状)和COLOR(颜色)。然后,我们还需要可以分配给变量值的向量:CIRCLE(圆形)、SQUARE(正方形)、BLUE(蓝色)和RED(红色)。
向量必须是不同的。这种区别可以通过称为正交性(orthogonality,这意味着形成直角)的属性来量化。在三维空间中,有三个彼此正交的向量:一个在 x方向,另一个在 y方向,第三个在 z方向。在 10000 维空间中,有 10000 个这样的相互正交的向量。
但是,如果我们允许向量接近正交,那么高维空间中这种不同向量的数量就会爆炸。在 10000 维空间中,就有数百万个准正交向量。
现在让我们创建不同的向量来表示形状、颜色、圆形、正方形、蓝色和红色。由于高维空间中存在许多可能的准正交向量,因此只需分配六个随机向量来表示这六项;它们几乎可以保证是准正交的。“制作准正交向量的便利性是使用超维表示的主要原因,”加州大学伯克利分校红木理论神经科学中心的研究员Pentti Kanerva在2009年的一篇有影响力的论文中写道:
Pentti Kanerva(左)和Bruno Olshausen,加州大学伯克利分校的研究人员。
这篇论文建立在Kanerva和Tony Plate在1990年代中期所做的工作之上,当时他们是多伦多大学Geoff Hinton的博士生。两人独立开发了用于操作超向量的代数,并暗示了其对高维计算的有用性。
给定我们的形状和颜色的超向量,由Kanerva和Plate开发的系统向我们展示了如何使用某些数学运算来操作它们。这些操作对应于操纵概念符号的方式。
第一种运算是乘法。这是一种结合属性的方式。例如,将向量 SHAPE(形状) 与向量 CIRCLE(圆形) 相乘,将两者绑定成“SHAPE is CIRCLE”(形状是圆形)的表示形式。这个新的“绑定”向量几乎与 SHAPE(形状) 和 CIRCLE(圆形) 正交。单个组件是可恢复的——如果你想从绑定向量中提取信息,这是一个重要的特性。给定一个表示你的大众汽车的绑定向量,你可以解绑并检索其颜色的矢量:PURPLE(紫色)。
第二种运算,加法,创建一个新向量,表示所谓的概念叠加。例如,可以采用两个绑定向量“SHAPE is CIRCLE”(形状是圆形)和“COLOR is RED”(颜色是红色),并将它们相加以创建一个向量,表示红色圆形。同样,叠加向量可以分解为其成分。
第三种运算是排列,它涉及重新排列向量的各个元素。例如,如果有一个三维向量,其值标记为 x、y 和 z,则排列可能会将 x 的值移动到 y, y 移动到 z,将 z 移动到 x。“排列可以让你建立结构,”Kanerva说。“它允许你处理序列,一个接一个发生的事情。”考虑两个事件,由超向量 A 和 B 表示。我们可以将它们叠加到一个向量中,但这会破坏有关事件顺序的信息。将加法与排列相结合可以保持顺序;可以通过反转操作按顺序取回事件。
这三种运算加在一起,足以创建允许符号推理的超向量的形式代数。但许多研究人员在掌握超维计算的潜力方面进展缓慢,包括Olshausen。“并未充分理解,”他说。
驾驭力量
2018年,Olshausen的学生Eric Weiss展示了超维计算独特能力的一个方面。Weiss想出了如何将复杂图像表示为单个超维向量,其中包含有关图像中所有对象的信息,包括它们的属性,例如颜色,位置和大小。
“我几乎从椅子上摔下来,”Olshausen说。“突然,灵感乍现”。
很快,更多的团队开始开发超维算法来复制深度神经网络大约二十年前开始处理的简单任务,例如对图像进行分类。
考虑一个由手写数字图像组成的带注释的数据集。算法使用某种预定方案分析每个图像的特征。然后,它为每个图像创建一个超向量。接下来,该算法为所有0的图像添加超向量,为0的属性创建一个超向量。然后,它对所有数字执行相同的操作,创建 10 “类”超向量,每个数字一类。
现在,该算法被赋予一个未标记的图像。它为此新图像创建一个超向量,然后将该超向量与存储的超向量类进行比较。这个比较确定了与新图像最相似的数字。
然而,这仅仅是个开始。超维计算的优势在于能够组合和分解超向量以进行推理。最新的证明是在三月份,当时苏黎世IBM研究院的Abbas Rahimi及其同事使用超维计算和神经网络来解决抽象视觉推理中的一个经典问题 这对典型的人工神经网络,甚至一些人来说都是一个重大挑战。这个问题被称为Raven的渐进矩阵(progressive matrix),在3×3网格中呈现几何对象的图像。网格中的一个位置为空白。受试者必须从一组候选图像中选择最适合空白的图像。
“我们说,‘这真的是...视觉抽象推理的杀手锏,让我们投入进去吧,'”Rahimi说。
Abbas Rahimi,苏黎世IBM研究院的计算机科学家。
为了使用超维计算解决这个问题,该团队首先创建了一个超向量字典,来表示每个图像中的对象;字典中的每个超向量表示一个对象及其属性的某种组合。然后,该团队训练了一个神经网络来检查图像并生成一个双相超向量(bipolar hypervector )——元素是 +1 或 -1——它尽可能接近字典中超向量的一些叠加;因此,生成的超向量包含有关图像中所有对象及其属性的信息。“你引导神经网络进入一个有意义的概念空间,”Rahimi说。
一旦网络为每个上下文图像和空白槽的每个候选图像生成了超向量,另一种算法就会分析超向量,从而为每个图像中的对象数量、大小和其他特征创建概率分布(probability distribution)。这些概率分布说明了上下文和候选图像的可能特征,可以转换为超向量,允许使用代数来预测最有可能填补空缺的候选图像。
他们的方法在一组问题上的准确率接近88%,而仅通过神经网络求解的准确率不到61%。该团队还表明,对于3×3网格,他们的系统比使用符号逻辑规则进行推理的传统方法快近250倍,因为该方法必须搜索庞大的规则手册以确定正确的下一步。
充满希望的开始
超维计算不仅赋予我们使用符号解决问题的能力,而且还解决了传统计算中的一些琐碎问题。如果由随机的比特位翻转(0变为1,反之亦然)引起的错误无法通过内置纠错机制进行纠正,则当今计算机的性能会迅速下降。此外,这些纠错机制可能会对性能造成高达25%的损失,维拉诺瓦大学的计算机科学家Xun Jiao说。
超维计算可以更好地容忍错误,因为即使超向量遭受大量随机比特位翻转,它仍然接近原始向量。这意味着使用这些向量的任何推理在面对错误时都不会受到有意义的影响。Jiao的团队已经证明, 这些系统对硬件故障的容忍度至少是传统ANN的10倍,而传统ANN本身的弹性比传统的计算架构高出几个数量级。“我们可以利用所有这些弹性来设计一些高效的硬件,”Jiao说。
超维计算的另一个优点是透明度:代数清楚地告诉你为什么系统选择了它所做的答案。对于传统的神经网络来说,情况并非如此。Olshausen,Rahimi和其他人正在开发混合系统(hybrid system),其中神经网络将物理世界中的事物映射到超向量,然后超维代数接管。“像类比推理这样的事情就不费力了,”Olshausen说。“这是我们应该对任何人工智能系统的期望。我们应该能够理解它,就像我们理解飞机或电视机一样。”
与传统计算相比,所有这些优势都表明,超维计算非常适合新一代极其坚固的低功耗硬件。它还与“内存计算系统”(in-memory computing system)兼容,后者在存储数据的相同硬件上执行计算(与现有的在内存和中央处理器之间低效地传输数据的冯·诺依曼计算机不同)。其中一些新器件可以是模拟的,在非常低的电压下工作,使它们节能,但也容易产生随机噪声。 对于冯·诺依曼计算来说,这种随机性是“你无法逾越的墙,”Olshausen说。但是通过超维计算,“你可以突破它。”
尽管有这些优势矩阵与人工智能,但超维计算仍处于起步阶段。“这里有真正的潜力,”Fermüller说。但她指出,它仍然需要针对现实世界的问题进行测试,并且在更大的范围内,更接近现代神经网络的规模。
“对于大规模问题,这需要非常高效的硬件,”Rahimi说。“例如,如何有效地搜索超过1亿个条目?”
所有这些都应该随着时间的推移而来,Kanerva说。“高维空间还有其他秘密,”他说。“我认为这是使用向量计算的最开始时期。”
参考资料: