翻译|周希雯 &Wendy 校对|魏子敏 作者:Arshak Navruzyan
金融机构有这样一条监管要求,为了监测反洗钱(AML:anti-moneylaundering),会对帐户的活动加以监控。由于最近一系列FinCEN(译者注:执法网)罚款条款的设定,监管机构开始对监测和报告非常重视。
反洗钱监测面对的一个挑战是,它并不能很好的昭示单一的个人,业务,帐户或交易的活动。因此监测需要对在相对较长的时间段发生的交易进行行为模式分析,并具备一个与现实世界的实体相关的组集(并不明显)。
对于大型交易,银行货币交易报告文件(CTR)是被FinCEN机构用于处理和分析的主要依据。然而,金融机构也必须监控“结构化”或“化整为零”(这是多个或者更小)的相关存款,旨在避免货币报告要求。
通过金融机构进行的监测大致可分为两个互补的类别:以知识为基础的系统和链接分析。有很多方法是关于以知识为基础的系统,包括统计分析,机器学习以及数据可视化。
由于标记数据集的能力有限,将机器学习技术应用在反洗钱上一直以来都是一个挑战。不过,也有一些“非监督”技术(unsupervised techniques)是值得考虑的。
网络建模是用来分析AML的一个强有力的工具( MOSER )。每个帐户和现实世界的实体会被设为一个网图的节点,而每一笔交易则被设为边。边可有权重。边的权重值通常可以反映节点间的交易量或交易货币价值。
建立图像结构后,我们可以通过以下方面分析节点之间的关系:
-核心性 – 鉴定图中节点的重要性
-连通分支 – 揭示子图与子图间的关系
-社区发现 – 社区是包含了更加紧密相连的节点的子图,同社区的节点之间联系紧密,但社区之间的节点连接稀疏。社区发现算法可能是一种探测AML构成的方法。公司In-Q-Tel的Lab41 曾经做过大量相关领域研究,包括他们最新关于作用探测的研究。
-网页排名 – 网页排名算法将网页间超链接的计算作为网页排名的重要因素,也就是通过测试与其它连通节点的传送来评价节点的方法。举例来说,评价真实的企业的可信度可以依靠与之有过交易的相关账户或企业的可信度。
图1-左图是Henderson 和Gallager 画出的快速模块性社区发现算法(Fast Modularity community detectionalgorithm)结果。左图展示了22个社区,右图展示了分割这些社区的4个role。
聚类可以应用于交易和度量,如核心性,连通分支数量等等,来鉴别数据中自然构成的群。我们需要解读聚类分析的结果,来确定哪一个群能揭示AML活动。
虽然谱聚类(spectral clustering)已经被许多人奉为经典,最近许多研究表明深度学习的autoencoders也是图像聚类的有力武器。
另外一个方法是把交易和度量当作时间序列,也就是对活跃节点周期性地计算核心,连通分支等等。时间序列可用作监控异常点。 比如,如果图中某个节点突然在核心上有显著变化,这便可能是一个可疑活动的信号。
有许多统计和机器学习方法可用于探测时间序列异常点,包括推特的Seasonal Hybrid ESD。
图2-用包括推特的Seasonal Hybrid ESD画出长时间维度的时间序列异常点探测。
文章来源:http://conf.startup.ml/blog/aml
关于转载如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘|bigdatadigest),并在文章结尾放置大数据文摘醒目二维码,转载后请将转载链接发送给我们。申请白名单授权请发送【文章名称-待授权公众号名称及ID】给我们。联系邮箱:zz@bigdatadigest.cn。未经许可的转载以及改编者,我们将依法追究其法律责任。