随着专栏内图机器学习的内容逐渐丰富,从本文开始,我们也将更详细的了解图在实际工业场景中的应用。
本文主要介绍论文《Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach》,腾讯电子支付网络的恶意账户识别算法EdgeProp,它将图卷积网络(GCN)应用到电子支付账户中的恶意账号识别,论文链接如下。
相对于推荐、NLP,反作弊的工业场景偏小众,目前大厂对推荐算法工程师的需求量也远高于反作弊策略算法。就业务场景而言,反作弊(反欺诈)之所以存在,是因为业务系统存在被作弊(欺诈)的缺陷,因此需要针对业务场景设计反欺诈系统,来保障业务系统的安全。以电子支付为例,存在作弊者虚假注册账号,虚假刷量,以薅取支付平台的羊毛。反作弊则是通过平台化、智能化的手段,针对虚假账户进行识别和封禁。
这也是论文支付账户反欺诈的背景。在电子支付网络中,可将账户看作是网络中的节点,作弊识别可看作是对网络中异常节点和正常节点进行分类,如此我们可采用图嵌入的思想,基于图神经网络自动学习节点的潜在表征(Embedding),以捕捉不同支付模式的网络结构信息,并用于识别异常账户。
该论文的贡献点:
1)提取支付账户交易(边)的特征
i)人工特征:平均交易量、总交易次数、交易事件的间隔时间(的均值/方差); ii)(通过边际分布、自相关函数等刻画)支付交易的多维时间序列特征; iii)使用LSTM将交易序列转化为固定维表示,然后和图卷积网络一起进行端到端训练。 该论文目前采用的是人工特征。
2)边特征传播(Edge Propagation)
边特征处理: 将节点
和节点
的边特征按照出边和入边的顺序进行拼接。 如果出边/入边不存在,则用0进行补充。
边特征传播: 聚合函数(文章使用mean aggregator):
节点Embedding更新:
其中
和
是两个多层感知器。
3)Mini-Batch训练
基于随机梯度下降优化参数:
其中
为有类别标记的节点集合,
为ground truth,损失函数
为交叉熵。 实际训练时,对邻居进行采样(不使用目标节点的所有邻居),采样方法与GraphSage同[2]。最终基于采样估计的Node Embedding如下:
其中
为节点
采样后的邻居节点集合。
1)腾讯电子支付恶意账户场景
随机选取1w个恶意账户和正常账户,以及与他们一个月内有交易的2-hop邻居集合,共649万个账户节点,3363万条边。 使用包含性别、年龄、教育水平等61个节点特征,以及平均交易量、总交易次数、交易事件的间隔时间(的均值/方差)等10个边特征。 此外,节点邻居采样数量为10个(均匀采样),学习率为2e-4,激活函数ReLUctant,优化器Adam,Early-stop窗口大小100。训练、验证、测试集按照70%、20%、10%的比例划分。 实验结果详情如下:
2)以太坊和药物发现场景
文章还在以太坊数据集和药物发现数据集上验证了EdgeProp的效果,实验结果如下:
[1] D. S. H. Tam, W. C. Lau, B. Hu, Q. Ying, D. M. Chiu, and H. Liu, “Identifying illicit accounts in large scale e-payment networks - A graph representation learning approach,” CoRR, vol. abs/1906.05546, 2019.
[2] Will Hamilton,Zhitao Ying,and Jure Leskovec. Inductive representation learning on large graphs. In Advances in Neural Information Processing Systems, pages 1024–1034, 2017.
[3] Jianfei Chen, Jun Zhu, and Le Song. Stochastic training of graph convolutional networks with variance reduction. arXiv preprint arXiv:1710.10568, 2017.