实时机器学习:从金融诈骗说起

今天,我听到也读到关于实时机器学习(Real-Time Machine Learning)的消息。当人们讨论到信用卡诈骗检测系统时,人们通常会提到这种很吸引人的商业前景。他们会说实时这种系统。我听到这些想法,感觉很新奇但不真实。在这个场景中,一个很重要的细节被忽视了——连续流动的交易信息对于这种模型是不需要的,它需要的是被标注好的,是否是欺诈行为的数据。

创造被标注好的数据对于大部分机器学习过程来说恐怕是最慢和最耗时的部分。机器学习算法学着去从数据中检测诈骗交易。这种数据是被标注好的数据。让我们看看这种机器学习对于诈骗行为的检测是怎样的。

1、构建模型

对于训练这种模型,你需要大量的被标记好是否是诈骗交易行为的数据。这些标记必须足够精确。这就是我们的标记好的数据集。这种数据集对于监督机器学习算法。依据被标记好的数据,这些算法运行并得到了诈骗检测模型。这种模型通常被认定为是一个输出“对”(是诈骗行为)或者“错”(不是诈骗行为)的二元分类器。

在这个过程中,被标记好的数据集起到了至关重要的作用。改变我们的算法(例如特征正态化或者损失函数)中的参数是很容易的。我们可以改变算法本身,例如从逻辑回归到支持向量机(SVM)或者随机森林。然而你无法改变被标注好的数据集。这些信息是预先确定的而且你的模型会预测这些数据的标记结果在你已经知道这些数据的标记的情况下。

2、数据的标记过程会花多长时间?

我们如何标记最新的交易数据?如果顾客举报了诈骗交易或者信用卡被偷,我们能够立即将这些信息标记为“诈骗行为”。但是我们如何处理剩下的交易信息?我们可以假定没被举报的交易是“非诈骗行为”。上次我的朋友丢了一张信用卡,她说:“我先不挂失我的信用卡,我明天先去我最后使用它的商店,问问他们有没有见到我的信用卡。”幸运的是,那个商店找回了她的信用卡并归还给她。我不是信用卡诈骗方面的专家(我很中规中矩的使用信用卡),但是以我的经验来看,我们可以等几天让诈骗信息被标记为“非诈骗行为”。

相比之下,如果某人举报了某次诈骗交易我们可以立即将其标记为“诈骗行为”。一个会举报诈骗行为的用户在丢失信用卡几小时或几天后很可能会意识到自己被诈骗了,但是举报是我们能做的最有用的行为了。

因此,我们能够拿到的最新的有标记的数据是较少的、有几天或几小时延迟的“有诈骗行为”的数据和许多有2到3天延迟的“非诈骗行为”的数据。

3、让我们加速这个标记过程

我们的目标是尽可能获得最新的有标记的数据。事实上,我们有比较新的“诈骗行为”的数据。至于那些“非诈骗”数据,我们不得不等上几天。只用“诈骗行为”的数据来建模看起来是个不错的想法。但是我们应该认识到这些被标记好的数据是有偏差的,而这些偏差有可能导致模型出现很多问题。

我们现在想象昨天一个新的购物中心开业,我们得到了商店的一个诈骗行为的举报。我们标记好的数据就只有一个来自这个商店的“欺诈行为”的数据。其他的交易数据均未被标记。这时,算法可能会将这个商店作为一个预测“欺诈行为”的重要因素,并通过实时学习将来自这个商店的所有交易信息误判为“欺诈行为”。这就是实时,原本应发挥其优势,在实际生活中给我们带来的的问题。

4、结论

正如我们所见,实时监督机器学习对于信用卡诈骗检测系统来说并不是一个很好的选择。此外,我不能从商业其他领域来为这个问题提出有效的设想。我很希望看到实时机器学习发挥其重要作用。如果你有任何信息或想法,请分享。

新智元倡议

新智元欢迎转载和摘编相关资料,但必须经过正式授权,邮箱为:simonwangx@163.com

我们倡议以公正、透明和积极的方式促进行业发展,如有出现匿名攻击、人身骚扰或其他不正当竞争手段,我方会采取相应的法律措施。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

数据挖掘工程师在公司中一般都具体做什么?需要了解哪些知识?

以后想从事数据挖掘行业,但不清楚数据挖掘工程师的工作到底是做什么? 如果仅仅只是用excel,sas,python,r语言等工具来用现有的算法...

3375
来自专栏数据科学与人工智能

【数据科学】数据科学入门指南

数据科学虽然刚刚兴起,却发展迅速。 只要有数据的地方,就需要数据科学团队来分析、挖掘数据。 因而,在各个行业都需要大量的数据科学家。 2015年,数据科学家的平...

2069
来自专栏人工智能头条

掌握 Google 深度学习框架的正确姿势——专访 TensorFlow 贡献者唐源

1903
来自专栏奇点大数据

AI 换脸技术——DeepFakes 概述(二)

本文由图普科技编译自 Exploring DeepFakes。 相关文章:AI 换脸技术——DeepFakes 概述(一) DeepFakes的“短板” 尽管D...

3257
来自专栏ATYUN订阅号

【技术】自动调优数据科学:新研究流线型机器学习

最近快速增长的数据科学作为一门学科和应用程序,在某种程度上具有解决问题的能力。它可以预测虚假的信用卡交易,或当一个学生即将辍学时做出预测并及时执行教育干预措施。...

3414
来自专栏大数据挖掘DT机器学习

订单贡献率10%,京东个性化推荐系统持续优化的奥秘

京东基于大数据和个性化推荐算法,实现了向不同用户展示不同的内容的效果,在PC端和移动端都已经为京东贡献了10%的订单。为了探索京东全品类平台“千人千面”背后的算...

3306
来自专栏罗超频道

2014年百度瞄准图像搜索

摘要:李彦宏早在三年前便宣称“读图时代”的到来,而瀑布流、Pinterest、Snapchat等图片应用更是掀起了图片应用之风,图片已经成为移动设备最重要的内容...

2715
来自专栏PPV课数据科学社区

数据科学面临的共同挑战

弱监督和数据编程可以用来训练模型,不必使用大量手工标记的训练数据。 需要用多少数据来训练模型?模型推导的响应时间应该是多少?重新训练模型和更新数据集的频率应该是...

2507
来自专栏大数据挖掘DT机器学习

数据挖掘工程师在公司中一般都具体做什么?需要了解哪些知识?

以后想从事数据挖掘行业,但不清楚数据挖掘工程师的工作到底是做什么? 如果仅仅只是用excel,sas,python,r语言等工具来用现有的算...

3537
来自专栏CDA数据分析师

3个必须知晓的数据分析概念,无论资深还是小白

介绍 在过去的几年中,人们对数据分析方法越来越重视。通过深入洞察数据情况,帮助很多企业改善了其经营状况。 通过分析数据,企业可以对其企业过往以及未来的表现有了...

2055

扫描关注云+社区