图神经网络(GNNs)在图表示学习方面获得了动力,并在中提高了艺术水平。各种领域,例如数据挖掘(例如,社交网络分析和推荐系统),计算机视觉(例如,对象检测和点云学习),自然语言处理(例如,关系提取和序列学习),仅举几例。随着Transformer在自然语言处理和计算机视觉中的出现,图Transformer在Transformer架构中嵌入了一个图结构,以克服局部邻域聚集的限制,同时避免严格的结构归纳偏差。在本文中,我们从面向任务的角度全面回顾了计算机视觉中的gnn和图Transformer。具体来说,我们将其在计算机视觉中的应用根据输入数据的模态分为五类,即2D自然图像、视频、3D数据、视觉+语言和医学图像。在每个类别中,我们根据一组视觉任务进一步划分应用程序。这种面向任务的分类法允许我们检查不同的基于gnn的方法是如何处理每个任务的,以及这些方法的性能如何。在必要的初步工作的基础上,我们提供了任务的定义和挑战,对代表性方法的深入报道,以及关于见解、局限性和未来方向的讨论。
Paper: A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
https://arxiv.org/abs/2209.13232
图神经网络发展史
Graph R-CNN
已覆盖的计算机视觉中的相关领域