前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >实时机器学习:从金融诈骗说起

实时机器学习:从金融诈骗说起

作者头像
新智元
发布2018-03-13 16:42:21
9900
发布2018-03-13 16:42:21
举报
文章被收录于专栏:新智元新智元

今天,我听到也读到关于实时机器学习(Real-Time Machine Learning)的消息。当人们讨论到信用卡诈骗检测系统时,人们通常会提到这种很吸引人的商业前景。他们会说实时这种系统。我听到这些想法,感觉很新奇但不真实。在这个场景中,一个很重要的细节被忽视了——连续流动的交易信息对于这种模型是不需要的,它需要的是被标注好的,是否是欺诈行为的数据。

创造被标注好的数据对于大部分机器学习过程来说恐怕是最慢和最耗时的部分。机器学习算法学着去从数据中检测诈骗交易。这种数据是被标注好的数据。让我们看看这种机器学习对于诈骗行为的检测是怎样的。

1、构建模型

对于训练这种模型,你需要大量的被标记好是否是诈骗交易行为的数据。这些标记必须足够精确。这就是我们的标记好的数据集。这种数据集对于监督机器学习算法。依据被标记好的数据,这些算法运行并得到了诈骗检测模型。这种模型通常被认定为是一个输出“对”(是诈骗行为)或者“错”(不是诈骗行为)的二元分类器。

在这个过程中,被标记好的数据集起到了至关重要的作用。改变我们的算法(例如特征正态化或者损失函数)中的参数是很容易的。我们可以改变算法本身,例如从逻辑回归到支持向量机(SVM)或者随机森林。然而你无法改变被标注好的数据集。这些信息是预先确定的而且你的模型会预测这些数据的标记结果在你已经知道这些数据的标记的情况下。

2、数据的标记过程会花多长时间?

我们如何标记最新的交易数据?如果顾客举报了诈骗交易或者信用卡被偷,我们能够立即将这些信息标记为“诈骗行为”。但是我们如何处理剩下的交易信息?我们可以假定没被举报的交易是“非诈骗行为”。上次我的朋友丢了一张信用卡,她说:“我先不挂失我的信用卡,我明天先去我最后使用它的商店,问问他们有没有见到我的信用卡。”幸运的是,那个商店找回了她的信用卡并归还给她。我不是信用卡诈骗方面的专家(我很中规中矩的使用信用卡),但是以我的经验来看,我们可以等几天让诈骗信息被标记为“非诈骗行为”。

相比之下,如果某人举报了某次诈骗交易我们可以立即将其标记为“诈骗行为”。一个会举报诈骗行为的用户在丢失信用卡几小时或几天后很可能会意识到自己被诈骗了,但是举报是我们能做的最有用的行为了。

因此,我们能够拿到的最新的有标记的数据是较少的、有几天或几小时延迟的“有诈骗行为”的数据和许多有2到3天延迟的“非诈骗行为”的数据。

3、让我们加速这个标记过程

我们的目标是尽可能获得最新的有标记的数据。事实上,我们有比较新的“诈骗行为”的数据。至于那些“非诈骗”数据,我们不得不等上几天。只用“诈骗行为”的数据来建模看起来是个不错的想法。但是我们应该认识到这些被标记好的数据是有偏差的,而这些偏差有可能导致模型出现很多问题。

我们现在想象昨天一个新的购物中心开业,我们得到了商店的一个诈骗行为的举报。我们标记好的数据就只有一个来自这个商店的“欺诈行为”的数据。其他的交易数据均未被标记。这时,算法可能会将这个商店作为一个预测“欺诈行为”的重要因素,并通过实时学习将来自这个商店的所有交易信息误判为“欺诈行为”。这就是实时,原本应发挥其优势,在实际生活中给我们带来的的问题。

4、结论

正如我们所见,实时监督机器学习对于信用卡诈骗检测系统来说并不是一个很好的选择。此外,我不能从商业其他领域来为这个问题提出有效的设想。我很希望看到实时机器学习发挥其重要作用。如果你有任何信息或想法,请分享。

新智元倡议

新智元欢迎转载和摘编相关资料,但必须经过正式授权,邮箱为:simonwangx@163.com

我们倡议以公正、透明和积极的方式促进行业发展,如有出现匿名攻击、人身骚扰或其他不正当竞争手段,我方会采取相应的法律措施。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档