前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >顶会宠儿:几何深度学习是个啥?读完这篇,小白也可以了解GDL!

顶会宠儿:几何深度学习是个啥?读完这篇,小白也可以了解GDL!

作者头像
新智元
发布2020-05-19 16:39:50
2.1K0
发布2020-05-19 16:39:50
举报
文章被收录于专栏:新智元新智元

新智元报道

来源:paperspace

编辑:科雨、白峰

【新智元导读】如果有心,很容易感受到几何深度学习(尤其是图神经网络)在近两年的顶会中超高的存在感。那这一新兴热门领域和传统深度学习有何区别?当前热门应用又是哪些?这篇文章带你迈入几何深度学习(Geometric Deep Learning, GDL) 的大门。

计算机视觉的最新进展,主要来自于新颖的深度学习方法,以及基于大量数据来执行特定任务的分层机器学习模型,随之而来的性能提升,引发了其他科学领域类似应用的淘金热。

随着深度学习技术的发展,人们已经不满足于将深度学习应用于传统的图像、声音、文本等数据上,而对更一般的几何对象如网络、空间点云、曲面等应用深度学习算法,这一领域被称为几何深度学习Geometric deep learning)。

下文中,我们将解释GDL中「几何」的含义,同时会将其与其他神经网络结构进行比较。最后,我们还会带大家深入了解它擅长的多种任务,以及最新前沿应用。

放心,即使没有太多的基础,读完这篇文章后,也能充分体会到GDL的魅力。

深度学习巨头LeCun牵头的几何深度学习在讲啥?

2016年,Bronstein的一篇名为《Geometric deep learning: going beyond Euclidean data》的文章来势汹汹,该文的后两位作者分别是Facebook前人工智能团队博士后成员Joan Bruna和现人工智能负责人Yann LeCun,这也算得上是全明星阵容,因此这篇文章的含金量和参考性就得以保证。

论文传送带:

https://arxiv.org/pdf/1611.08097.pdf

在这篇文章中,研究者首次引入了几何深度学习(GDL)一词。

文章表示,几何深度学习(GDL)定义了新兴的研究领域,该领域主要是针对非欧几里得数据的深度学习。

非欧几里得数据

对于非欧几里得数据,两点之间的最短有效路径不是它们之间的欧几里得距离。我们将使用网格对此进行可视化。在下图中,可以看到,通过离散体素,将经典斯坦福兔子表示为网格(非欧几里得)或呈网格状体积(欧几里得)之间的区别。

点A和B之间的欧式距离是它们之间最短直线路径的长度,可视为图像上的蓝线。两点之间的测地距离,则更类似于绿线的长度。测地距离是高维最短路径概念的表示,而图的测地距离通常是节点之间的最短路径。

以非欧几里德的方式解释网格的优点是,测地距离对于在其上执行的任务更有意义。我们这样想:在深层的CNN中,我们依赖于可能彼此相关的相邻像素。为了在图上重现类似的设置,我们需要考虑重新制定「紧密度」。

当然,我们可以将固有的非欧几里德数据转换为欧几里得数据,但这样的效率和性能损失会很大。在针对零件分类和分割的斯坦福大学ShapeNet数据集上,这一代价显而易见。第一个在Chang等人提出的基准上达到良好结果的神经网络,依赖于对于网格的体积表示,以及处理过程中使用的深度信念网络。

因为问题的规模是立方的,因此这种方法的主要问题,是如何权衡离散化和运行效率。此外,在3D体素上使用卷积,会在3D空间上执行的计算中花费大量的开销。由于在同一体素空间中表示了许多不同的对象,所以没有简单的方法来防止这些空计算的发生。

当前的SOTA方法,则直接在网格结构上执行上述任务,或者将它们转换为点云,从而实现卓越的性能,显著缩短了运行时间。

既然这一部分是几何深度学习,那我不是很懂图论诶,这怎么破?

不用担心,在本文的其余部分中,您不需要图论知识,但您应该先阅读一下,才能使用我们很快将要看的软件库。为了了解GDL中的基本概念,如果您想要对图论中得到很好的入门级理解,可以参考Vaidehi Joshi的《图论的优雅介绍》(A Gentle Introduction To Graph Theory):

https://medium.com/basecs/a-gentle-introduction-to-graph-theory-77969829ead8

为了理解这一领域的详细算法,想更深一步理解该领域的深度理论,请参阅Wu等人的论文《关于图神经网络的全面研究》(A comprehensive survey on graph neural networks)。

此外,该研究报告中介绍的分类法,还可以帮助您理解此领域与深度学习其他领域的相似之处。

当然,最好的情况是,这篇文章可以让你根据可用的数据,来判断可能的应用场景,并解决现存的问题。

我们了解了GDL与非欧几里得数据有关,需要注意的一点是,我们并不讨论点云,点云虽然具有自身的优势,但是在我们做出的假设上,其实与图和网格有很大不同。

神经网络大比拼

Battaglia等研究者,在关系归纳偏差的基础上,对当前的神经网络组件进行了情境化,并通过以下方式,进行总结:

成分

实体

关系

关系归纳偏差

不变性

全连接神经网络

单元

all-to-all

-

卷积神经网络

网格

局部

局部性

空间顺序

循环神经网络

时间步

序列

序列性

时间顺序

图神经网络

节点

任意

节点,边排列

上表已经直接提到了深度CNN的两个基本属性:局部性和空间转换的不变性。此外,通过在深层CNN中堆叠卷积层,我们鼓励网络学习不同抽象级别上的特征。这种层次结构,也是深层CNN的第三个主要属性。这意味着通过顺序组合图层,我们实现了功能层次结构,从而可以在数量上更好地表示有监督任务。总而言之,这三个方面使深层CNN可以很好地应用于到图像域。

当前在GDL中的研究,也试图达到类似的目标,但是这一过程,要建立在功能更强大的推理基础上。正如Francois Chollet在上面的推文中提到的那样,深层的CNN可以很好地概括所有视觉数据。在图形上使用GDL时,我们可以依赖于任意关系归纳偏差,来开发可以推广到任意关系数据的算法。

预测新冠发病率!几何深度学习要怎么玩?

图分割

图的分割是对图的每个组成部分,节点或边进行分类的任务。

从较大的COSEG语义分段数据集中,我们提取出了四足数据集,并显示了此任务的真实标签。在这种情况下,每一部分都有属于五种可能类别之一的标签:耳朵,头部,躯干,腿和尾巴。根据此局部级别的信息,生成节点或边缘标签就变得很简单。当前,这种直接在网格上工作的方法可以在基准上实现很好的SOTA性能。

为什么在这种粒度级别上进行语义分割,有意义吗?好吧,可以想像自动驾驶汽车面对的任务,此情形要求汽车不断监控其环境,并解释下一个行人要做什么。通常,行人可以由大型3D边界框,或具有更多运动程度的骨骼来表示。通过更好,更快的3D语义分割,更多的自动驾驶感知算法将变得可行。

图分类

此子应用类别中的算法,接收图形或子图形作为其输入,并根据与该预测相关的概率值,来预测n个指定类之一。该预测通常以与图像分类非常相似的方式进行,因为所用网络有两个主要部分。

第一个是特征提取器,其功能是根据输入数据为手头的任务生成最佳表示。另外的则是一个或多个完全连接的层,以将结果回归约束到某个维度,而对于多类分类,softmax层是必需的。多类分类意味着对于我们拥有的每个输入,都可能有不止一种类与其对应。

针对这项更广泛的任务,令人激动的例子之一就是3D面部表情的分类。当前社会中,消费级产品已经配备了传感器,并具有足够的计算能力,来生成所需的3D数据结构。

同时,应用在这些数据结构上的算法的可解释性也变得越来越高。Gong等人最近推出了一种基于网格的方法,该方法仅依赖XYZ坐标,而无需任何辅助要素,该方法可在4DFAB上以接近80%的精度实现SOTA性能。

https://github.com/sw-gong/spiralnet_plus

前沿的来了!GDL的现实应用

我们将会介绍工业应用中的一个例子,并留下一些文献供您参考:

在上两节的图分割和图分类的应用举例中,我们专注于来自于经典计算机视觉的任务。而GDL则可以在图结构应用更常见的应用中大放异彩,如知识图谱。

Grakn Labs团队的KGCN是当今冠状病毒(COVID-19)大流行时期中,非常引人注目的应用实例。他们基于KGCN的诊断预测的应用也值得一读:

https://github.com/graknlabs/kglib/blob/master/kglib/kgcn/examples/diagnosis/diagnosis.py

在此应用中,他们利用医生和护士输入的有关过去患者的数据,来收集真实图数据。然后,利用这些真实的图数据,他们可以学习去预测新患者之间的关系。

以冠状病毒为例,我们可以训练神经网络根据数据库中以前的病例,来预测这种病毒感染的可能性。然后,网络可以根据症状来预测疾病在知识图谱中的发病概率关系。该预测机制可以在医院中使用,也可以作为简单的Web应用程序,用作公共服务。

该应用程序可以依靠准确的临床数据,并在用户输入自己的自诊断症状后,告知用户其病毒感染的可能性。甚至可以通过对用户输入的关系(而不是医生或护士)赋予不同的权重,来考虑让用户进行自我诊断。在医院中,这些预测可以帮助医生加快流程,或作为诊断的参考意见。

下面是相关交叉领域用例的延伸阅读:

(1)电力系统图神经求解器

https://ieeexplore.ieee.org/abstract/document/8851855

(2)物理感应图神经网络:在风电场功率估算中的应用

https://www.sciencedirect.com/science/article/abs/pii/S0360544219315555

(3深度强化学习满足图神经网络的需求:探索路由优化用例

https://arxiv.org/abs/1910.07421v2

我们简要介绍了几何深度学习,并将其作为整体深度学习的背景。尽管GDL总体上处理不规则的数据结构,但我们专注于图,并展示了它未来良好的发展空间。

几何深度学习已经有了很多现实应用,感兴趣的同学可以深挖一下,你看好几何深度学习吗?

代码语言:javascript
复制
参考资料:
https://blog.paperspace.com/introduction-to-geometric-deep-learning/
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 新智元报道
  • 深度学习巨头LeCun牵头的几何深度学习在讲啥?
  • 神经网络大比拼
  • 预测新冠发病率!几何深度学习要怎么玩?
    • 图分割
      • 图分类
        • 前沿的来了!GDL的现实应用
        相关产品与服务
        图数据库 KonisGraph
        图数据库 KonisGraph(TencentDB for KonisGraph)是一种云端图数据库服务,基于腾讯在海量图数据上的实践经验,提供一站式海量图数据存储、管理、实时查询、计算、可视化分析能力;KonisGraph 支持属性图模型和 TinkerPop Gremlin 查询语言,能够帮助用户快速完成对图数据的建模、查询和可视化分析。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档