前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KDD'22 | Company as Tribe:分层图神经网络用于金融风险预测

KDD'22 | Company as Tribe:分层图神经网络用于金融风险预测

作者头像
Houye
发布2023-03-01 15:28:35
9610
发布2023-03-01 15:28:35
举报
文章被收录于专栏:图与推荐
  • 来源:ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’22)
  • 论文题目:Company-as-Tribe: Company Risk Assessment On Tribe-Style Graph With Hierarchical Graph Neural Networks
  • 论文链接:https://dl.acm.org/doi/10.1145/3534678.3539129
  • 代码链接:https://github.com/wendongbi/TH-GNN

简介

真实世界的公司及其复杂关联构成了公司网络,由于风险可以在公司网络中进行传导,在严重情况下将导致系统性金融风险。因此,对公司关系网络进行风险传导分析对于及时感知、防范公司风险具有重大意义。然而在金融安全等现实应用场景 [1,2] 中,常伴随数据质量差的挑战,以上市公司风险预测为例,公司财报是分析公司财务风险的主要依据,然而其存在时间滞后,高维稀疏,缺失噪声等问题,以及部分公司会美化其财务报表数据甚至出现财务造假的现象,考虑到公司风险的隐蔽性,仅仅通过单一的财报数据往往不足以精准预测公司风险,因此本文引入公司财报、股权网络、新闻等多元异构数据,以上市公司为目标节点构建了一种全新的分层网络结构(“部落式网络”),并设计了基于分层消息传递机制和图对比学习技术的分层图神经网络模型对部落式网络中的上市公司进行建模,并精准预测其财务风险。

本文介绍被ACM SIGKDD2022会议接收的一项新工作,从全新的视角对上市公司财务风险评估任务进行建模,并设计了对应的分层图神经网络TH-GNN模型,主要贡献如下:

  • 我们定义了部落式网络上的公司财务风险评估问题,并基于真实公司数据设计了一个由财务报表、投资网络和新闻组成的部落式网络。
  • 我们提出了一种的新型分层图神经网络TH-GN来对部落式网络进行建模。
  • 我们在具有 88 万节点和 131 万边的公司部落式网络数据集上进行了大量实验,实验结果证明本文所提出的方法的效果显著优于其他公司风险评估算法。

问题定义

图1:独立样本建模 vs. 部落式网络建模

1.部落式网络定义

部落式网络定义为由多个中心节点(central node)和非中心节点(non-central node)构成的分层网络结构,每个中心节点和若干与之关联的非中心节点构成的局部网络视为一个超级节点(部落),不同的部落之间进一步通过部落间连边构成一个全局网络,最终形成了一个由若干局部网络(部落)和一个全局网络组成的部落式网络。在本文中,每个上市公司即为一个中心节点,而每个中心节点对应一个由该上市公司及其与股东的投资关系构成的局部网络结构(部落),不同部落之间进一步通过新闻共现关系连接,最终构成一整个分层的公司部落式网络。

2.部落式网络的优势

  • 在上市公司股权网络中,只有中心节点(上市公司)有节点属性(财报),其他非中心节点(股东)没有节点属性,因此这两类节点应该分开处理,而部落式网络将有属性的中心节点和无属性的非中心节点解耦为局部网络(部落)和全局网络并分开处理。
  • 基于大量的数据分析得知,股权网络的结构信息(不涉及节点属性)对预测部落中心上市公司的风险有帮助,例如部落的中心化程度,节点的度,桥的数量等结构信息。
  • 将部落式网络中不同的部落分开处理,而不是把他们拉平为一个大规模图,实际上对图结构进行了截断,这种分层结构降低了图计算的难度并提升了模型效率

方法:分层消息传递图神经网络

图2:TH-GNN模型结构图

如图 2 所示,TH-GNN 包括两个主要组件,包括部落结构编码器 (TSE) 和全局图表示学习 (GGRL) 模块。TH-GNN 以自底向上的顺序对部落式网络进行编码。TH-GNN 首先通过TSE模块学习每个部落的结构化表示, 然后通过基于注意力机制的融合模块将学习到的部落结构表示和财报表示融合到中心节点(上市公司)的嵌入向量中。接下来再用融合了部落结构(投资关系)和财务报表信息之后的嵌入向量在全局新闻网络上进行消息传递,以学习最终用于财务风险评估的上市公司表示。

1.部落结构编码器TSE:部落结构编码器(TSE)基于图对比学习来学习每个部落的结构表示,包括结构嵌入模块和图编码器模块。考虑到部落中的股东节点没有属性,我们首先根据节点在部落中的位置初始化节点属性,然后将结构属性转换为可学习的嵌入向量,并为部落中的每个节点使用结构嵌入模块得到其结构嵌入向量。最后,将部落结构邻接矩阵(投资网络)和节点结构嵌入输入 GIN 模型来获得部落的结构表示。

2.全局图表示学习GGRL:通过TSE模块,我们获得了部落的结构表示。然后对于每个中心节点(上市公司),其当前阶段节点特征由两部分组成:部落结构特征和财务报表特征。我们进一步使用基于注意力机制的特征融合模块将部落结构表示和财务报表特征融合为一个中心节点嵌入向量。最后,融合后的中心节点嵌入用于在全局新闻网络上进一步消息传递来模拟上市公司间的风险传导,并得到上市公司的最终表示并用于公司风险评估任务。

数据集及数据分析

1.数据集

本文使用的公司数据集来自2019年至2020年中国4000余家上市公司的真实数据,即上市公司的财务报表、投资网络以及与这些公司相关的财经新闻。财务报表及公司投资网络数据通过天眼查获取, 财经新闻数据通过万得数据库获取,其中这些新闻来自中国800多家权威新闻网站,覆盖面极广且能够及时捕捉企业风险信息。然后我们基于这些数据构建了部落式网络,该网络的更多具体信息如表1所示。我们进一步根据万得提供的2020年国内上市公司发生的真实风险事件来确定正样本(风险)和负样本(无风险)的风险标签。

表1:国内公司部落式网络数据集基本信息

2.数据分析

  • 公司部落(投资网络)可视化:我们选择了两个典型的上市公司并可视化其投资网络的结构,如图3所示,有风险公司和无风险公司的部落结构呈现出不同的模式,有风险公司的部落结构更加集中。

图3:公司部落(投资网络)示意图,橘黄色点表示上市公司, 红色/蓝色表示作为股东的人/公司

  • 公司投资网络的图结构统计指标分析:为了进一步从样本整体分析有风险公司和无风险公司投资网络的机构差异,我们选择了一系列图结构统计指标(度中心性、特征值中心性、聚集系数、桥、中心节点度),并分别统计了有风险公司(正样本)和无风险公司(负样本)总体的统计指标(表2),结果显示正样本的中心性/度/桥的个数相比负样本更高。由此说明投资网络结构为识别公司风险提供了可靠信号。

表2:有风险/无风险上市公司的投资网络结构的一些统计指标

  • 新闻网络中的邻居分布分析:我们还分析了组成部落式网络的全局新闻网络中的邻居分布规律,如图4所示,横轴代表邻居节点中有风险公司的占比,纵轴代表对应风险邻居占比的节点出现频率。统计结果显示有风险公司在新闻网路中的有风险邻居占比更大,同时也表明用新闻共现关系连接上市公司的合理性。

图4:新闻网络邻居有风险公司占比统计

实验

在实验中我们对比了TH-GNN和其他模型在本文提出的公司部落式网络上的性能,TH-GNN的分类效果明显优于其他模型。此外,考虑到已有的GNN模型无法直接对部落式网络进行编码,为了保证对比实验的公平性,我们为每个基线模型设计了两种比较方案,一种是忽略部落内图结构,直接在全局新闻网络上,以财报作为节点属性用GNN模型学习每个上市公司节点的属性;另一种是先通过GCC [3] 对每个部落局部结构进行结构编码,并将结构编码和财报拼接作为每个公司节点的属性在全局新闻网络上学习节点表示(表格中用*号区分)。

表3:不同模型的公司财务风险预测二分类效果

由于篇幅限制,有关TH-GNN的更多实验结果,请参考原文 [4]。此外也欢迎大家关注我们最新发表于WWW2023的工作 [5],在本文的基础上首次尝试了对国内非上市公司的风险评估任务。针对本文有任何疑问,或希望进一步讨论,可以发送邮件至biwendong20g@ict.ac.cn。

参考文献

[1] Feng B, Xu H, Xue W, et al. Every Corporation Owns Its Structure: Corporate Credit Rating via Graph Neural Networks[C]//Pattern Recognition and Computer Vision: 5th Chinese Conference, PRCV 2022, Shenzhen, China, November 4–7, 2022, Proceedings, Part I. Cham: Springer International Publishing, 2022: 688-699.

[2] Zheng Y, Lee V C S, Wu Z, et al. Heterogeneous graph attention network for small and medium-sized enterprises bankruptcy prediction[C]//Advances in Knowledge Discovery and Data Mining: 25th Pacific-Asia Conference, PAKDD 2021, Virtual Event, May 11–14, 2021, Proceedings, Part I. Cham: Springer International Publishing, 2021: 140-151.

[3] Qiu J, Chen Q, Dong Y, et al. Gcc: Graph contrastive coding for graph neural network pre-training[C]//Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining. 2020: 1150-1160.

[4] Bi W, Xu B, Sun X, et al. Company-as-Tribe: Company Financial Risk Assessment on Tribe-Style Graph with Hierarchical Graph Neural Networks[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 2712-2720.

[5] Bi W, Xu B, Sun X, et al. Predicting the Silent Majority on Graphs: Knowledge Transferable Graph Neural Network. arXiv preprint arXiv: 2302.00873

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 图神经网络与推荐系统 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 问题定义
  • 方法:分层消息传递图神经网络
  • 数据集及数据分析
  • 实验
  • 参考文献
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档