第一部分介绍超图计算的基础知识
https://link.springer.com/book/10.1007/978-981-99-0185-2






前言
人工智能如今已无处不在,并在全球范围内推动着工业与日常生活的发展。我们正处于“大数据”时代,可以获取海量信息,这些信息过于繁杂,人类已难以自行处理。在计算机视觉和社交媒体等各个领域,这些大数据背后甚至蕴含着极其复杂的关联关系。例如,图像中像素间的复杂关联揭示了其语义信息,而社交帖子间的不同类型关联则能推断出用户的情绪。因此,开发有效的人工智能方法来挖掘此类复杂的数据关联,已成为一项紧迫却充满挑战的任务。
图已被广泛用于表达数据关联。图是一种非线性数据结构,由顶点集合与边构成,用于表示顶点之间的成对关联。近年来,图学习与图神经网络在研究领域与工业界均引起了广泛关注,并已成为十分热门的课题。需要指出的是,现实世界远比单纯的成对连接复杂得多,因此基于图的方法在高阶关联建模方面仍存在局限性。
超图作为图的一种推广形式,能够对数据间的此类高阶关联进行刻画,并在过去数十年间得到了研究。近年来,超图相关人工智能方法的研究日益盛行,并已被应用于计算机视觉、社交媒体分析等领域。我们注意到,目前尚缺一本能够系统介绍该领域最新成果的理论专著,因此着手开始了本书的编写工作。我们将这些尝试总结为一种全新的计算范式,称为“超图计算”,即利用超图表达数据底层的高阶关联,进而针对不同的应用在超图上开展语义计算。
在本书中,我们介绍了超图计算的最新进展,内容涵盖从超图建模到超图神经网络。超图计算的应用也得到了讨论。我们还总结了超图计算领域的最新成果与实用工具。本书既可被视为一部理论著作,亦可作为指导如何在实践中运用超图计算的手册。
书籍组织结构
本书共包含 13 章,分为 3 个部分。第一部分介绍超图计算的基础知识。在此部分中,第 1 章阐述了超图的基本知识、应用与发展历史。第 2 章介绍了超图的数学基础。第 3 章提供了超图计算的三种通用范式。
第二部分聚焦于超图建模与学习技术。超图计算的第一步是构建超图以刻画数据间的高阶关联,该内容在第 4 章中给出。第 5 章随后提供了典型的超图计算任务,包括标签传播、数据聚类、代价敏感学习以及链接预测。我们在第 6 章进一步介绍了用于超图优化的超图结构演化方法。第 7 章介绍了超图上的神经网络。超图计算的实际应用需要具备处理大规模数据的能力,因此,我们在第 8 章对大规模超图计算进行了广泛介绍。
第三部分介绍了超图计算在若干领域的应用,包括第 9 章的社交媒体分析、第 10 章的医学与生物应用,以及第 11 章的计算机视觉。本部分还在第 12 章介绍了 DeepHypergraph 库——一个基于 Python 的超图计算库,并在第 13 章介绍了超图计算研究的未来发展方向。
摘要 数据之间的高阶关联广泛存在于各种实际应用中。与仅能建模两个主体之间成对关系的简单图相比,超图是一种灵活且具有代表性的模型,可用于表述高阶关联。基于超图模型,已有大量研究致力于设计计算框架并分析高阶关联。在本章中,我们简要介绍超图计算,包括其背景、定义、历史、近期挑战与研究目标。
许多自然系统与人工系统的基本要素彼此之间存在依赖关系,需要关联建模与分析方法来研究这些依赖。从不同视角来看,图结构无处不在,总体而言,现实世界中的所有对象都是基于其与其他对象的连接关系来定义的。这些连接可以描述为图,图是许多场景中的一种常见数据结构。例如,图可以描绘城市中的路径,其中每条路径用一条边表示,以展示两个位置之间的空间连接。图也被用于航空路线图,其中每个顶点代表一个机场,每条边代表一条航线。
近年来,最具挑战性的数据处理问题来自于关联数据,而不仅仅是离散数据。如何挖掘数据背后潜在的连接关系,已成为许多应用中一项紧迫且重要的任务。通常,图被用来表述数据之间的此类关联。图是一种非线性数据结构,由一组顶点和边组成。其中,图中的顶点代表待分析的主体,图中的边则是连接图中两个顶点的线段。图1.1展示了一个图的示例。

作为建模数据间成对关联的常用方式,系统中的组成部分可由图的顶点表示,而组成部分之间的关联则由边来描述。通过这种方式,关联模式被抽象为图的拓扑结构。在过去几十年中,由于计算能力的限制,图论在实际应用中并不容易实施。近年来,随着信息技术与计算能力的进步,图论展现了其实用价值。随着数据规模的增长,科学家们提出了网络科学的概念。网络科学的研究可应用于多个领域。例如,通过研究互联网上终端之间的连接关系,可以估计网络中数据传输的效率。对人际关系的研究有助于理解人们相互交流、传播信息以及形成社群的方式。研究传染病的传播链有助于及时预测风险,从而阻断传播途径并防止其扩散。人们还发现,许多生物、社会、信息及其他真实网络在其要素之间的连接上具有非平凡的结构模式。这些模式反映了整个网络有意义的特征。例如,小世界现象(网络中的平均路径长度不会随网络规模的增大而显著增加)广泛存在于社交网络中[1]。另一个例子是无标度网络[2],其中顶点度分布遵循幂律分布,这种现象在某些生物代谢网络中已被观察到[3]。
需要注意的是,世界远比单纯的成对连接复杂得多。典型例子包括社交网络、蛋白质-蛋白质相互作用网络以及脑网络。在社交网络中,用户的个体特征与用户之间的交互模式相关。具有相似特征的用户更可能相互连接以形成社交群体。用户的社交关系也会影响其画像刻画。我们注意到,这些用户之间的关联不仅仅是成对连接,还包括群体式的连接,这比成对连接更为复杂。图1.2展示了一个社交连接的示例,其中每个用户可能与两个或更多其他用户或项目具有不同类型的连接。

在人脑网络中,大脑皮层包含超过10¹¹个神经元,而具有相似功能与连接的一簇神经元形成一个核团。这些核团可进一步划分为不同脑区,从而形成一个多层级、多尺度的复杂脑网络。例如,全脑图谱包括岛叶与扣带回、额叶、枕叶、顶叶等区域,这些区域可进一步细分为AAL图谱[4]中提供的90个脑区,如海马与旁海马。每个神经元可拥有超过10,000个突触,这些突触可将脑内的神经元与身体其他部位的神经元连接,或将神经元与肌肉连接。神经元之间的连接极为复杂,尽管图是建模此类脑内关联的典型方式,但很难用图来精确表述这些连接。
此类复杂关联,即高阶关联而非成对关联,在现实世界数据中非常普遍。为了研究这些复杂系统,有必要对其要素之间的高阶关系进行表征与分析。实证研究表明,系统的关联模式往往在系统功能中扮演重要角色。近年来,越来越多的研究者开始关注这一领域,并应用高阶关联建模与分析方法。
在图与网络科学的机器学习发展初期,仅使用图来建模网络或关联,系统要素之间的关联通常由图的拓扑结构来描述。因此,成对连接可以在图中得以描述,但系统中大量的语义信息可能丢失,网络中的描述性特征也无法被提取。一些被广泛讨论的网络属性,如度中心性、半局部中心性与接近中心性,均基于此类静态单一网络模型。数据背后潜在的高阶信息不得不退化为成对信息进行处理,这可能导致严重的信息损失。随着大数据的发展,数据的爆炸式增长展现出其复杂性与多样性,这呼唤更复杂的数据建模方法。针对复杂数据类型、复杂拓扑结构与复杂连接模式的网络建模方法应运而生。例如,社交网络中个体之间的社交亲密度可有强弱之分,具有顶点间关联权重分布的系统可采用加权网络[5]进行建模。此外,电力网络与通信网络在基础设施建设中相互依赖:通信网络的顶点向电力网络的顶点提供控制信号,而电力网络的顶点则向通信网络的顶点供应电力。不同网络之间的相互依赖关系可采用依赖图[6]进行建模。另一个例子是航空运输网络,其中顶点之间的航线可能属于不同的航空公司。针对对象类型与关联关系的异质性,研究者提出了多层网络或图的概念[7]。最后一个例子是物种网络中的生态食物链会随季节性环境条件的变化而改变。对于动态系统,研究者引入了时序网络[8]的概念来表述主体之间的关联。
尽管基于图的方法已发展数十年并取得了巨大进展,但它们仍存在局限性。这些图模型能更好地表述系统中元素之间的二元关系,但可能忽略三个或更多元素之间的高阶关联。近年来,许多研究表明,在大多数应用中,对高阶关联进行建模与优化甚至更为重要[9–11]。例如,在生物圈系统中,物种之间的高阶相互作用确保了物种多样性的稳定[10]。不同网络的高阶特征可有效区分其所属领域[11]。随着网络科学的快速发展,数据与关联的复杂性迅速增加。在生物信息、社会计算与图像处理等领域,存在大量多模态、异构、高层级的数据,亟需有效的高阶关联建模与优化方法。
作为计算机科学、物理学与生物学等多个不同领域交叉研究的主题,高阶关联建模与优化在近几十年受到了广泛关注。现实世界中许多系统存在大量高阶关系[12]。例如,在社交网络中,人们以三人或更多人为一组进行交流;在学术网络中,多位作者合作撰写一篇文章。生物网络中的蛋白质相互作用可能发生在多个蛋白质之间,基因表达则由生物分子之间的高阶相互作用驱动[13]。元素之间的高阶关联难以用简单图的拓扑结构来描述。在此情况下,研究者引入了相应的数学表达形式,如集系[14]、单纯复形与超图[15]。然而,如何将这些数学表达形式部署到计算范式中仍是一个开放性问题。高阶关联的复杂度远高于成对关联,这为计算范式带来了新的挑战。
超图作为图的推广,能够表述数据之间的高阶关联,近年来得到了深入研究。在本书中,我们将介绍超图计算的最新进展,从超图建模到超图神经网络。下文我们首先介绍超图的基本定义,然后展示超图的应用与研究历史。最后,我们总结我们在超图计算方面的工作以及本书的结构。
1.2 超图的定义
超图是离散数学中的一个重要概念,它是图的推广。因此,超图的许多概念都可以参照众所周知的图的定义来定义。超图被定义为一对超顶点集(hypervertex set)和超边集(hyperedge set)。超顶点集,也称为顶点集,是一个有限集,而超边代表顶点集的子集。由于超边可以连接任意数量的顶点,因此超图可以建模比图更一般类型的关系。超图的阶(order)和大小(size)可以基于顶点集和超边集来定义,即,超图的阶代表顶点集的基数(cardinality),超图的大小表示超边集的基数。
与图类似,可以定义两种特定类型的超图,包括空超图(empty hypergraph)和平凡超图(trivial hypergraph)。
一般来说,除非另有说明,超图具有非空顶点集和非空超边集,并且不包含空超边。
孤立点(isolated vertex)是指不包含在任何超边中的顶点。如果存在一个包含这两个顶点的超边,则称两个顶点是相邻的(adjacent)。如果两条超边具有非空交集,则称它们是相交的(incident,注:此处原文用incident描述超边间的相交关系)。
子超图和部分超图定义如下:
基于度可以定义两种特殊类型的超图:
连通性的概念定义如下。环(loop)表示仅包含一个元素的超边。路径(path)是一个顶点-超边交替序列,其中顶点属于序列中连续的超边。圈(cycle)是指首顶点与末顶点相同的路径。路径的长度是路径中顶点的数量。如果两个顶点在路径中,则该路径连接这两个顶点。如果任意一对顶点都是连通的,则称该超图是连通的(connected),否则它是不连通的(disconnected)。两个顶点之间的距离是连接这两个顶点的路径的最小长度。超图的直径是所有顶点对之间的最大距离。

除了图 1.3,还有其他典型的超图图示,如图 1.4 所示。在图 1.4a 中,每个圆圈代表一条超边。在图 1.4b 中,所有相同颜色的线代表一条超边,它们连接该超边中的顶点。在图 1.4c 中,每个空心圆表示一条超边(原文误写为hypergraph),相同颜色的线连接该超边中的顶点。


值得注意的是,超图型结构在许多应用中可能并不明显,它们隐藏在可以直接观察到的数据背后。在某些情况下,我们可能只能捕获数据中的一些成对关联,而需要基于这些观察重构高阶关联。例如,一些流行的引文网络,如 Cora, Citeseer 和 PubMed [16],被广泛用于分析,然而所有这些数据集仅包含图类型数据,即将文章视为顶点,将引文关系视为链接。在这种情况下,为了挖掘这些数据之间的高阶关联,我们需要将这些数据转换为超图。作为一种典型方法,可以生成共著超图(co-authorship hypergraph),它将文章表述为顶点,而具有相同作者的文章由一条超边连接。以类似的方式,可以生成共引超图(co-citation hypergraph),它同样将文章视为顶点,而具有相同引文的文章被视为一条超边。
由于超图在复杂关联建模方面具有优越性,它已被应用于多个学科领域,包括生物学、经济学和社会学,从而推动了智能化应用的发展。在本部分中,我们介绍超图的几个典型应用,以帮助理解这一强大工具。
一个代表性应用是社会计算。过去几十年间,社交媒体数据迅速增长,这些数据可提供潜在的群体层面洞察。超图[17]是从数据中发现复杂且隐藏关联的有用工具,其中超图结构可用于表述社交网络中的高阶关联。
在推荐系统中,超图被用于建模用户-物品网络、刻画用户画像,并进一步预测用户偏好(未来交互行为)。给定仅包含用户与物品历史交互信息的原始用户-物品网络,超图[17]可区分性地表述用户与物品之间各自的高阶连接性,并执行协同过滤任务。有时,用户和物品可能附带不同的属性或特征。例如,用户端信息可能包括性别、年龄和性格,而物品端信息可能包含类别、文本描述和图像。这些属性信息有助于捕捉用户偏好。因此,超图在推荐系统中的另一个应用是属性建模与推断。
另一个流行但具有挑战性的社交媒体计算应用是情感分析,其目标是在社交媒体语境中识别人们的真实情绪与态度。然而,社交媒体数据的多模态性与复杂性使该任务更加困难。例如,一条推文中可能同时包含文本、图像和视频。此外,帖子之间存在时间、地理位置和用户偏好等维度上的复杂关系。因此,如何挖掘推文之间的复杂关系并分析用户情感已成为一个紧迫问题。为此,超图[18]可用于表述每个样本之间的关联,并考虑到不同情绪具有各自特征,且情感分析应基于多源信息的联合分析,从而实现鲁棒且准确的多模态情感预测。就社会事件检测而言,由于单条帖子存在噪声且内容不足,难以传达清晰全面的信息,探索一组高度相关的帖子变得更为重要。超图[19]可用于表征不同推文之间异构数据的关系,凭借其在建模不同帖子、模态和时间数据之间高阶关联方面的优势,从而实现实时社会事件检测。具体而言,每条微博与其若干文本相关和视觉相关的微博相连,形成两条超边。接下来,通过超图割方法将关于同一主题的微博聚合在一起,生成微博团(microblog clique),即由一组高度相关推文构成的基本单元。
超图在医学与生物应用中也展现了其优势。过去几十年间,产生了海量的生物与医学数据。这些数据具有复杂性、异构性和多模态性,且数据内部与数据之间的关联相互交织。通过拼接超边组,超图[20–22]可自然地容纳多模态或异构数据。此外,通过这种方式,它可以区分性地利用这些数据之间的互补信息。以下流程可用于描述超图计算如何应用于生物与医学任务:(1)将医学图像、图像块或生物实体建模为顶点,并基于其特征相似性或高阶拓扑连接用超边将它们连接起来;(2)使用一系列超图计算方法学习数据之间的高阶关联。在此类应用中,超图已被用于:基于磁共振成像(MRI)的轻度认知障碍(MCI)识别[23]、基于CT成像的新冠肺炎(COVID-19)识别[24]、基于脑功能网络的自闭症谱系障碍(ASD)识别[25]、医学图像检索[26]等。
上述示例仅是超图应用的一小部分。超图计算技术可用于任何数据之间存在高阶复杂关联的场景,例如计算机视觉、知识图谱等。
关于超图应用的研究有着悠久的历史。1943年,Prenowitz等人[27]首次将几种几何学(射影几何、描述几何和球面几何)阐释为超群或多群。Prenowitz等人[28]构建了连接空间上的几何(Geometries on Join Spaces),这是一种独特的超群,已被证明是研究图、超图、二元关系、模糊集和粗糙集等多种主题的有价值工具。1996年,Rosenberg等人[29]首次在最广泛的意义上探讨了超结构(超图)与二元关系之间的联系。随后,Corsini和Leoreanu[30]也对此进行了研究。Rosenberg等人[29]于1996年首次开发了与模糊集相关的连接空间。Corsini、Leoreanu和Tofan[31]均重新审视了这些结构。Zahedi等人[32]也推进了将超图与模糊集相联系以及考察配备有模糊结构的代数结构的概念。
超图着色是一项典型且重要的任务,自上世纪以来一直备受关注。它是组合数学的基础,正如Kierstead等人[33]所述,可用于确定某些图的色数界限。Lu等人[34]提出了这些算法来解决不同的优化问题,如分治问题和划分问题,其中超图着色也可用于寻找单色路径和圈。Voloshin等人[35, 36]描述了如何对混合超图进行着色,混合超图被划分为超边族和反超边族。在这种情况下,他们进一步将其应用于能源供应问题。
寻找大匹配的问题与界定超图色指数的问题密切相关(请注意,正常边着色的色类构成一个匹配)。作为图研究中的一个经典主题,匹配理论发展得非常完善,可追溯至20世纪30年代的研究[37]。Tutte定理[38]是对包含完美匹配的图的一种刻画。Edmonds等人[39]提出了开花算法(Blossom algorithm),该算法能在多项式时间内找出包含完美匹配的图中的最大匹配。上述方法是超图相关研究的早期工作。
超图划分是超图领域的另一个重要问题。《并行计算百科全书》[1]中定义,超图划分涉及将超图划分为两个或多个大致相等的部分,使得连接不同部分中顶点的超边的代价函数最小化。在许多情况下,该定义过于严格,且实际应用中常需划分为两个以上的部分。Karypis等人[40]提出了hMetis算法,该算法基于超图的多级粗化。该方法从最小的粗化超图开始,迭代地对其进行二分。George等人[41]进一步开发了hMeTiS-Kway算法,该算法采用粗化-细化范式直接构建超图的K路划分,以解决K路超图划分问题。
此外,Papa等人[42]提供了几种划分超图的方法,并将聚类定义为“将顶点合并为称为簇的更大顶点组的过程,以便从输入超图计算出一个更粗的超图。”文中还列举了划分与聚类的若干应用,包括超大规模集成电路(VLSI)设计、数值线性代数、自动定理证明和形式验证。文献中已描述了若干相关应用与方法。欲了解更多细节,文献[43]发表了一篇关于聚类集成技术的综述,其中也涵盖了超图划分技术。聚类与划分通常需要多级策略,这些策略在以往的研究中已得到充分探讨。它们已被广泛应用于VLSI设计[40]、并行科学计算[44–46]、图像分类[47]以及社交网络[48, 49]等领域。
进入本世纪以来,超图已被应用于机器学习领域。文献[48]引入了直推式超图学习,给出了用于预测超图上顶点标签的目标函数的基本数学表述。由于超图学习的性能与超图的建模质量密切相关,一些研究致力于进一步为超图中的组件分配权重,包括超边权重、顶点权重以及超边依赖的顶点权重[50, 51]。为了加速超图上的标签传播过程,文献进一步引入了多超图交叉扩散方法,用于建模多模态数据之间的高阶关联并实现多模态信息融合[52]。
超图结构的高阶表示研究也受到了深度学习强大学习与建模能力的启发。一般来说,大多数针对超图的深度学习方法可分为基于谱的方法和基于空间的方法。
就基于谱的方法而言,Feng等人[53]提出了超图神经网络(HGNNs),以基于超图拉普拉斯矩阵建模非成对关系。所提出的方法可自然地用于建模多模态数据。使用超图神经网络对图像进行分类也是可行的[54]。利用超图谱理论的工具,Yadati等人[55]提出了HyperGCN,旨在利用图卷积网络(GCNs)在超图上训练GCN以进行半监督学习。就基于空间的方法而言,Jiang等人[56]通过扩展动态超图学习,提出了一种动态超图神经网络,该网络能够在每一层自适应地改变超图结构。与底层结构预先定义好的超图卷积不同,Bai等人[57]提出了一种超图注意力机制策略,用于学习超边的动态连接,该机制在图中与任务相关的部分传播并聚集信息,从而生成更具判别性的顶点嵌入。此外,Gao等人[58]提出了一种通用超图神经网络框架,可应用于多种类型的超图,如无向超图、有向超图、概率超图、顶点/超边加权超图等。
针对同构与异构超图,Zhang等人[59]提出了一种基于自注意力的超图神经网络(Hyper-SAGNN)。通过将超图映射到加权属性线图,Bandyopadhyay等人[60]实现了一种双单射(bi-injective)超图结构。Huang等人[61]提出了UniGNN,该模型通过阐释图与超图神经网络中的消息传递过程,能够将通用GNN模型泛化至超图。这些针对超图的神经网络方法通过在处理过程中融入高阶关联,实现了表示学习。
与图及其他结构相比,超图在高阶关联建模方面具有优势。为了在实践中利用这一优势,可以使用超图来表述此类关联,并相应地执行计算任务。在本部分中,我们总结超图计算的目标,特别是其中的主要挑战与内部任务。
下面我们给出超图计算的定义:超图计算是指利用超图表述数据底层的高阶关联,然后针对不同的应用在超图上进行语义计算。
超图计算的主要挑战与目标包含三个方面,包括如何生成超图、如何处理大规模数据以及如何在超图上进行学习。
如图1.5所示,超图建模可简要分为两类,即主体内关联建模(intra-correlation modeling)与主体间关联建模(inter-correlation modeling)。此处,主体内关联建模关注主体内部的高阶关联。主体的组成部分被表示为顶点,这些组成部分之间的关联在超图中被表示为超边。在这些情况下,称为主体内超图(intra-hypergraph)的超图旨在表示主体本身。主体间关联建模则集中于不同主体之间的高阶关联。一组主体被表示为顶点,这些主体之间的关联在超图中被表示为超边,该超图称为主体间超图(inter-hypergraph)。其目标是借助目标主体与其他主体的关联,学习目标主体的表示或连接关系。

这里我们以图像表示为例。当选择一幅图像作为主体时,图像中像素或图像块之间的关联属于主体内关联,可生成相应的主体内超图用于图像表示。另一方面,我们也可以观察其他图像进行处理。主体图像与其他图像之间的关联属于主体间关联,同样可生成相应的主体间超图用于图像表示。也就是说,主体内关联与主体间关联可被视为不同尺度下的视角。如果我们将主体本身视为目标系统,那么该主体与其他主体之间的关联就是该主体的主体间关联,对应一个主体间超图。如果我们将这一组主体视为目标系统,那么这些主体之间的关联就是主体内关联,相应地会导出一个主体内超图。
本书共包含13章,其余章节的结构安排如下:
原文链接:https://link.springer.com/book/10.1007/978-981-99-0185-2