文章/答案/技术大牛

发布

DataVisor无监督机器学习引擎技术深度解读上

文章来源：企鹅号 - DataVisor维择科技

随着越来越多的企业业务往线上转移，欺诈者的攻击技术也日趋复杂且不断变化，而企业现有的反欺诈解决方案往往无法及时有效应对这种复杂多变的欺诈行为。DataVisor在本份报告中深入阐述了现有反欺诈解决方案的局限性，以及无监督机器学习在反欺诈中的应用，并在报告中对技术原理做了深度剖析。我们会在本周内分两次为您推送报告完整内容，欢迎下载交流。

为什么现有反欺诈解决方案存在局限性

当今欺诈趋势

当下，欺诈事件愈演愈烈，每年的洗钱金额也在不断上升。在2016年，仅美国由欺诈造成的损失估计高达160亿美元，比2015年增加近10亿美元。全球每年洗钱交易金额估计高达1-2万亿美元，占全球 GDP的2%-5%。然而，执法部门缴获的非法资金不到总数的1%。但这些年，预防和检测滥用、欺诈和洗钱而投入的成本仍在不断上升，其原因在于现在的欺诈攻击也在不断变化。

在数字时代，攻击者更倾向于通过组织化地操纵个人账号发动攻击，相比传统欺诈更加隐蔽也更难被检测。更糟糕的是，大量个人信息泄露，只要获取来自社交媒体、公共记录和暗网的信息，很容易逃过认证技术(KBA)的检测。

欺诈工具 & 欺诈方式趋势：

该报告中主要揭露了以下可供选择的软件工具和数据资源:

数以百万计的数据中心可供选择

易盗的身份或合成身份

远程工作的廉价全球劳动力

可隐藏身份的设备仿真软件

图1：不法分子正在发起有规模有组织的攻击

同时现在的欺诈方式都是单个账号组成的大规模组织欺诈，而这些账号在单个来看都是正常的。能将破坏最大化。同时欺诈者会不断采取新的技术来模仿正常用户的行为。在这些攻击技术中，典型的技术是孵化账户，它们先模仿正常的用户获取信誉值，然后再实施破坏。

当前反欺诈解决方案的局限性

面对上述的欺诈形势时，现有的欺诈解决方案出现了三大短板：

1. 被动检测

现有欺诈方案中的规则或有监督机器学习模型，主要是基于之前攻击中获取的经验。但欺诈者能迅速改变欺诈模式，规则引擎和有监督机器学习模型很难跟上欺诈的演变。并且就算经验最丰富的数据科学家，生成标签也是个很费时的过程。复杂的新型欺诈往往由许多不同类型事件和步骤组成，极难快速有效地手动提取规则。所以往往当规则生效时，损失却已经产生了。

2. 孤立地分析事件或账户

当今大多反欺诈解决方案都是孤立地分析单个账户或事件，所以无法洞察全局。但当下欺诈会进行低频的活动以躲避检测。但孤立地查看数据愈发难以有效地检测现有的攻击模式。所以为了检测出协同的现代欺诈模式，有必要综合分析全部账户，以发现这些账户之间潜在的关系。

3. 无法利用所有的数字信息

如今，企业服务和欺诈都在线上进行，有效地利用新型数字信息可大大增强检测能力，比如IP地址、电子邮件域名、设备型号、浏览器类型和操作系统版本。但是现在大多数解决方案厂商专注于单一信誉数字信号的检测(比如设备指纹或电子邮件地址)。所以当某账户在一个装有旧操作系统的新Android设备上使用IE浏览器，就要引起注意，因为这种组合很不常见所以十分可疑。但现有的主流解决方案通常难以发现这一问题。

DataVisor无监督机器学习引擎介绍

关于无监督机器学习引擎

UML指是无监督机器学习引擎，是DataVisor的旗舰产品，是基于DataVisor申请专利的、独有的无监督机器学习（UML）算法，目前正广泛应用于不同行业的大客户的风控系统中。

无监督机器学习是一个大类的机器学习技术，无需输入数据形成标签即可使用。相反，它还可以计算出相应的函数，来描述“无标签”输入数据之间的隐藏关联。DataVisor UML引擎采用聚类/图形分析技术开发而成。DataVisor UML引擎通过分析数据点之间的距离和连接(数据点代表账户及账户在一定时间内的活动)，能够自动发现新型滥用、欺诈和洗钱活动。

图2：DataVisor UML引擎综合分析所有账户（如图画中的点）

观察全局

UML引擎的主要优势

1. 主动监测新型攻击

UML引擎无需标签和训练数据。可提前防范不断演变的欺诈模式，比现有系统高30%-50%的检出率，做到提前检测。

2. 实时关联所有账户

UML引擎能够一次处理所有事件和用户活动，分析成千上万个账户之间的关联和相似性。能够实时在众多滥用、欺诈或洗钱账户中发现微妙、潜在的模式。

3. 有效利用新型数字信息

UML引擎会从DataVisor全球智能信誉库(GIN)录入和输出信息。GIN专门负责汇总和计算多个数字指纹的信息。此外，GIN能够整合已知攻击模式，推导出细粒度、丰富的信号，从而改进UML引擎的检测效果。

4. UML其他优势

DataVisor的UML引擎还支持灵活的输入数据格式与数量，不同当下机器学习算法对数据有着相对较高的数据质量和数量需求；极低的误报率，DataVisor的UML引擎结果可借助为API结果来使用，无需人工审查。准确性都在90%以上，常常超过99%；得益于UML无需历史经验，不需要大量的调优，所以调优花费更低；UML引擎能清楚地检测关联账户之间有什么共同的属性和值，会给出更透明和更合规的检测原因。

典型欺诈案例研究

下面这个例子展示了UML引擎如何检测出逃过其他检测系统的欺诈团伙。这个匿名案例是某大型银行的200多个信用卡账户组成的欺诈团伙。

图3：来自账户申请欺诈团伙的8个账户的不同视图。

UML引擎发现了以下潜在的可疑关联，表明存在一个欺诈团伙:

1. 所有电子邮件的创建模式都一样: 使用账户持有人的姓名首字母和生日。

2. IP地址都与高风险数据中心有关联。

3.用户都使用旧的装有相同版本系统的iPhone(iPhone 5或5s)。

4.Safari是iPhone的默认浏览器应用，但所有账户却用Chrome来执行活动。

图4：表格展示了一个欺诈申请团伙的八个账号。

但由于200多个账户都在低风险地区，FICO评分很高，匹配到征信所中的数据，不在现有的欺诈数据库中。它们与已知或见过的攻击高风险特征都不相似。因此，所有这些账户都成功逃过现有其他反欺诈系统的检测。

发表于: 2018-02-272018-02-27 18:49:51
原文链接：http://kuaibao.qq.com/s/20180227G14FKX00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

DataVisor无监督机器学习引擎技术深度解读上

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐