实时机器学习:从金融诈骗说起

今天,我听到也读到关于实时机器学习(Real-Time Machine Learning)的消息。当人们讨论到信用卡诈骗检测系统时,人们通常会提到这种很吸引人的商业前景。他们会说实时这种系统。我听到这些想法,感觉很新奇但不真实。在这个场景中,一个很重要的细节被忽视了——连续流动的交易信息对于这种模型是不需要的,它需要的是被标注好的,是否是欺诈行为的数据。

创造被标注好的数据对于大部分机器学习过程来说恐怕是最慢和最耗时的部分。机器学习算法学着去从数据中检测诈骗交易。这种数据是被标注好的数据。让我们看看这种机器学习对于诈骗行为的检测是怎样的。

1、构建模型

对于训练这种模型,你需要大量的被标记好是否是诈骗交易行为的数据。这些标记必须足够精确。这就是我们的标记好的数据集。这种数据集对于监督机器学习算法。依据被标记好的数据,这些算法运行并得到了诈骗检测模型。这种模型通常被认定为是一个输出“对”(是诈骗行为)或者“错”(不是诈骗行为)的二元分类器。

在这个过程中,被标记好的数据集起到了至关重要的作用。改变我们的算法(例如特征正态化或者损失函数)中的参数是很容易的。我们可以改变算法本身,例如从逻辑回归到支持向量机(SVM)或者随机森林。然而你无法改变被标注好的数据集。这些信息是预先确定的而且你的模型会预测这些数据的标记结果在你已经知道这些数据的标记的情况下。

2、数据的标记过程会花多长时间?

我们如何标记最新的交易数据?如果顾客举报了诈骗交易或者信用卡被偷,我们能够立即将这些信息标记为“诈骗行为”。但是我们如何处理剩下的交易信息?我们可以假定没被举报的交易是“非诈骗行为”。上次我的朋友丢了一张信用卡,她说:“我先不挂失我的信用卡,我明天先去我最后使用它的商店,问问他们有没有见到我的信用卡。”幸运的是,那个商店找回了她的信用卡并归还给她。我不是信用卡诈骗方面的专家(我很中规中矩的使用信用卡),但是以我的经验来看,我们可以等几天让诈骗信息被标记为“非诈骗行为”。

相比之下,如果某人举报了某次诈骗交易我们可以立即将其标记为“诈骗行为”。一个会举报诈骗行为的用户在丢失信用卡几小时或几天后很可能会意识到自己被诈骗了,但是举报是我们能做的最有用的行为了。

因此,我们能够拿到的最新的有标记的数据是较少的、有几天或几小时延迟的“有诈骗行为”的数据和许多有2到3天延迟的“非诈骗行为”的数据。

3、让我们加速这个标记过程

我们的目标是尽可能获得最新的有标记的数据。事实上,我们有比较新的“诈骗行为”的数据。至于那些“非诈骗”数据,我们不得不等上几天。只用“诈骗行为”的数据来建模看起来是个不错的想法。但是我们应该认识到这些被标记好的数据是有偏差的,而这些偏差有可能导致模型出现很多问题。

我们现在想象昨天一个新的购物中心开业,我们得到了商店的一个诈骗行为的举报。我们标记好的数据就只有一个来自这个商店的“欺诈行为”的数据。其他的交易数据均未被标记。这时,算法可能会将这个商店作为一个预测“欺诈行为”的重要因素,并通过实时学习将来自这个商店的所有交易信息误判为“欺诈行为”。这就是实时,原本应发挥其优势,在实际生活中给我们带来的的问题。

4、结论

正如我们所见,实时监督机器学习对于信用卡诈骗检测系统来说并不是一个很好的选择。此外,我不能从商业其他领域来为这个问题提出有效的设想。我很希望看到实时机器学习发挥其重要作用。如果你有任何信息或想法,请分享。

新智元倡议

新智元欢迎转载和摘编相关资料,但必须经过正式授权,邮箱为:simonwangx@163.com

我们倡议以公正、透明和积极的方式促进行业发展,如有出现匿名攻击、人身骚扰或其他不正当竞争手段,我方会采取相应的法律措施。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

深度 | 如何保证算法公正性?ICML 2018两篇获奖论文解读

第一篇缩略版本:公正反而会伤害弱势群体么?有一定情况下是的:对弱势群体降低门槛会致使他们无法完成期预期目标,使他们信用度降低,造成更长久的伤害。我们不仅要考虑算...

1272
来自专栏安恒信息

安恒信息两篇核心AI异常检测论文入选IEEE DSC国际会议

6月18日-21日,“第三届IEEE网络空间数据科学国际会议”在广州召开。业界代表及专家齐聚一堂,并就网络空间数据科学的科研和前沿发展方向进行交流。而安恒信息的...

1574
来自专栏机器学习算法与理论

智慧医疗终端应用模型与仿真系统设计

摘要:为进一步整合开放医疗数据和社会其他资源,本文提出了一套数据利用方案。以无锡市局部路网为原型,构建了一基于互联网+医疗的用户终端应用模型。该模型包括路径寻优...

40310
来自专栏FreeBuf

深度学习:能击败欧洲围棋冠军,还能防恶意软件

上月底,权威科学杂志Nature发表了一篇关于谷歌人工智能程序AlphaGo击败欧洲围棋冠军的文章,其中介绍了AlphaGo程序的细节,它实际上是一个结合了深度...

1897
来自专栏腾讯技术工程官方号的专栏

Fashion-MNIST 一周年 | Google NIPS最爱,还登上了Science

? 导语:本文回顾了Fashion-MNIST发布后的一年里在人工智能/机器学习学术圈和社区中所取得的进展。该数据集的初衷是替代MNIST,为机器学习提供一个...

1422
来自专栏算法channel

Facebook开源 时间序列预测框架 Prophet

时间序列(Time Series Analysis),应用非常广泛,从业务预测到全球变暖;从商品价格到股票、基金走势。

971
来自专栏机器之心

KDD 2017获奖论文公布:数据挖掘领域的顶级研究与应用成果

机器之心报道 参与:蒋思源、李亚洲 数据挖掘领域的顶会 KDD 2017 目前正在火热进行中。昨日,机器之心报道了滴滴被 KDD 2017 接收的论文。今日...

32010
来自专栏钱塘大数据

揭秘微信身份证背后的高科技——人脸识别技术

在日常生活中,相信很多人都会遇到需要证明“我就是我”的尴尬处境,如果碰巧未带身份证,就只好陷入有苦难言的无奈之中。最近,全国首张微信身份证发行,从此只要带着手机...

44011
来自专栏ATYUN订阅号

MIT机器学习模型对ICU患者死亡风险的预测更为准确

麻省理工学院的研究人员开发了一种机器学习模型,可以根据健康状况将患者分为亚群,以更好地预测患者在ICU住院期间死亡的风险。该技术优于“全球”死亡率预测模型,并揭...

1212
来自专栏量化投资与机器学习

【独家前沿策略】机器学习应用投资组合系列(代码+论文)

南洋理工大学计算机系和米兰理工数据挖掘研究组的科学家发现,虽然公众情绪已经被认为是股市预测的关键因素,但近十年来在利用公共情绪来解决资产配置问题的理论方面,学术...

1232

扫码关注云+社区