实时机器学习:从金融诈骗说起

今天,我听到也读到关于实时机器学习(Real-Time Machine Learning)的消息。当人们讨论到信用卡诈骗检测系统时,人们通常会提到这种很吸引人的商业前景。他们会说实时这种系统。我听到这些想法,感觉很新奇但不真实。在这个场景中,一个很重要的细节被忽视了——连续流动的交易信息对于这种模型是不需要的,它需要的是被标注好的,是否是欺诈行为的数据。

创造被标注好的数据对于大部分机器学习过程来说恐怕是最慢和最耗时的部分。机器学习算法学着去从数据中检测诈骗交易。这种数据是被标注好的数据。让我们看看这种机器学习对于诈骗行为的检测是怎样的。

1、构建模型

对于训练这种模型,你需要大量的被标记好是否是诈骗交易行为的数据。这些标记必须足够精确。这就是我们的标记好的数据集。这种数据集对于监督机器学习算法。依据被标记好的数据,这些算法运行并得到了诈骗检测模型。这种模型通常被认定为是一个输出“对”(是诈骗行为)或者“错”(不是诈骗行为)的二元分类器。

在这个过程中,被标记好的数据集起到了至关重要的作用。改变我们的算法(例如特征正态化或者损失函数)中的参数是很容易的。我们可以改变算法本身,例如从逻辑回归到支持向量机(SVM)或者随机森林。然而你无法改变被标注好的数据集。这些信息是预先确定的而且你的模型会预测这些数据的标记结果在你已经知道这些数据的标记的情况下。

2、数据的标记过程会花多长时间?

我们如何标记最新的交易数据?如果顾客举报了诈骗交易或者信用卡被偷,我们能够立即将这些信息标记为“诈骗行为”。但是我们如何处理剩下的交易信息?我们可以假定没被举报的交易是“非诈骗行为”。上次我的朋友丢了一张信用卡,她说:“我先不挂失我的信用卡,我明天先去我最后使用它的商店,问问他们有没有见到我的信用卡。”幸运的是,那个商店找回了她的信用卡并归还给她。我不是信用卡诈骗方面的专家(我很中规中矩的使用信用卡),但是以我的经验来看,我们可以等几天让诈骗信息被标记为“非诈骗行为”。

相比之下,如果某人举报了某次诈骗交易我们可以立即将其标记为“诈骗行为”。一个会举报诈骗行为的用户在丢失信用卡几小时或几天后很可能会意识到自己被诈骗了,但是举报是我们能做的最有用的行为了。

因此,我们能够拿到的最新的有标记的数据是较少的、有几天或几小时延迟的“有诈骗行为”的数据和许多有2到3天延迟的“非诈骗行为”的数据。

3、让我们加速这个标记过程

我们的目标是尽可能获得最新的有标记的数据。事实上,我们有比较新的“诈骗行为”的数据。至于那些“非诈骗”数据,我们不得不等上几天。只用“诈骗行为”的数据来建模看起来是个不错的想法。但是我们应该认识到这些被标记好的数据是有偏差的,而这些偏差有可能导致模型出现很多问题。

我们现在想象昨天一个新的购物中心开业,我们得到了商店的一个诈骗行为的举报。我们标记好的数据就只有一个来自这个商店的“欺诈行为”的数据。其他的交易数据均未被标记。这时,算法可能会将这个商店作为一个预测“欺诈行为”的重要因素,并通过实时学习将来自这个商店的所有交易信息误判为“欺诈行为”。这就是实时,原本应发挥其优势,在实际生活中给我们带来的的问题。

4、结论

正如我们所见,实时监督机器学习对于信用卡诈骗检测系统来说并不是一个很好的选择。此外,我不能从商业其他领域来为这个问题提出有效的设想。我很希望看到实时机器学习发挥其重要作用。如果你有任何信息或想法,请分享。

新智元倡议

新智元欢迎转载和摘编相关资料,但必须经过正式授权,邮箱为:simonwangx@163.com

我们倡议以公正、透明和积极的方式促进行业发展,如有出现匿名攻击、人身骚扰或其他不正当竞争手段,我方会采取相应的法律措施。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

深度学习:能击败欧洲围棋冠军,还能防恶意软件

上月底,权威科学杂志Nature发表了一篇关于谷歌人工智能程序AlphaGo击败欧洲围棋冠军的文章,其中介绍了AlphaGo程序的细节,它实际上是一个结合了深度...

1857
来自专栏AI科技评论

一张 AI 的「自画像」

AI 应该长什么样子?人们给出常见的答案不外乎是:像个机器人,像一组闪烁的 LED 灯,或者像电脑屏幕上一组变幻莫测的波形。那么在 AI 的眼中,一个 AI 应...

873
来自专栏机器之心

深度 | 如何保证算法公正性?ICML 2018两篇获奖论文解读

第一篇缩略版本:公正反而会伤害弱势群体么?有一定情况下是的:对弱势群体降低门槛会致使他们无法完成期预期目标,使他们信用度降低,造成更长久的伤害。我们不仅要考虑算...

1202
来自专栏企鹅号快讯

深度学习即将非法?欧盟《一般数据保护条例》五月生效

选自Analytics India 作者:Richa Bhatia 机器之心编译 《欧盟一般数据保护条例》(General Data Protection Re...

1868
来自专栏新智元

【CVPR最强参会指南】深度学习走下神坛,中国AI独角兽强势抢镜

1443
来自专栏杂七杂八

CS231n学习笔记--计算机视觉历史回顾与介绍1

首先我们来看看官方对这门课的介绍: 计算机视觉在社会中已经逐渐普及,并广泛运用于搜索检索、图像理解、手机应用、地图导航、医疗制药、无人机和无人驾驶汽车等领域。...

982
来自专栏机器之心

深度学习即将非法?欧盟《一般数据保护条例》五月生效

2617
来自专栏ATYUN订阅号

【学术】国外技术大神用机器学习来预测ICO的收益

加密货币是一种数字资产,它是一种交换媒介,使用密码学来保护其交易,控制额外单位的创建,并验证资产的转移。 关于加密货币,你还知道更多其他的吗?事实上,每天都有新...

2707
来自专栏ATYUN订阅号

MIT机器学习模型对ICU患者死亡风险的预测更为准确

麻省理工学院的研究人员开发了一种机器学习模型,可以根据健康状况将患者分为亚群,以更好地预测患者在ICU住院期间死亡的风险。该技术优于“全球”死亡率预测模型,并揭...

892
来自专栏腾讯技术工程官方号的专栏

Fashion-MNIST 一周年 | Google NIPS最爱,还登上了Science

? 导语:本文回顾了Fashion-MNIST发布后的一年里在人工智能/机器学习学术圈和社区中所取得的进展。该数据集的初衷是替代MNIST,为机器学习提供一个...

1172

扫码关注云+社区