首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

综述 | 分布式GNN训练算法和系统,35页pdf

图神经网络(GNNs)是一种基于图的深度学习模型,已成功应用于许多领域。尽管GNN具有一定的有效性,但GNN要有效地扩展到大型图仍然是一个挑战。作为一种补救措施,分布式计算能够提供丰富的计算资源,成为训练大规模GNN的一种很有前途的解决方案。然而,图结构的依赖性增加了实现高效分布式GNN训练的难度,这将受到海量通信和工作量不平衡的影响。近年来,人们在分布式GNN训练方面做了很多工作,提出了一系列的训练算法和系统。然而,从图处理到分布式执行的优化技术还缺乏系统的综述。本文分析了分布式GNN训练中的三个主要挑战,即大量特征通信、模型精度损失和工作负载不平衡。然后,我们介绍了分布式GNN训练优化技术的一种新的分类法,以解决上述挑战。新的分类法将现有技术分为四类:GNN数据分区、GNN批处理生成、GNN执行模型和GNN通信协议。我们仔细讨论了每个类别中的技术。最后,我们分别总结了现有的多GPU、GPU集群和CPU集群分布式GNN系统,并对可扩展GNN的未来发展方向进行了讨论。

02

【阅读】Distributed Graph Neural Network Training: A Survey——翻译

图神经网络(GNNs)是一种在图上学习的深度学习模型,并已成功应用于许多领域。尽管 GNN 有效,但 GNN 有效地扩展到大型图仍然具有挑战性。作为一种补救措施,分布式计算成为训练大规模 GNN 的一种有前途的解决方案,因为它能够提供丰富的计算资源。然而,图结构的依赖性增加了实现高效分布式 GNN 训练的难度,导致大量通信和工作负载不平衡。近年来,在分布式 GNN 训练方面做出了很多努力,并提出了一系列训练算法和系统。然而,缺乏对从图处理到分布式执行的优化技术的系统回顾。在本次调查中,我们分析了分布式 GNN 训练的三大挑战,即海量特征通信、模型精度损失和工作负载不平衡。然后,我们为分布式 GNN 训练中的优化技术引入了一种新的分类法,以应对上述挑战。新分类法将现有技术分为四类,即 GNN 数据分区、GNN 批处理生成、GNN 执行模型和 GNN 通信协议。我们仔细讨论了每个类别中的技术。最后,我们分别总结了用于多 GPU、GPU 集群和 CPU 集群的现有分布式 GNN 系统,并讨论了可扩展 GNN 的未来发展方向。

04
领券