实时机器学习:从金融诈骗说起

今天,我听到也读到关于实时机器学习(Real-Time Machine Learning)的消息。当人们讨论到信用卡诈骗检测系统时,人们通常会提到这种很吸引人的商业前景。他们会说实时这种系统。我听到这些想法,感觉很新奇但不真实。在这个场景中,一个很重要的细节被忽视了——连续流动的交易信息对于这种模型是不需要的,它需要的是被标注好的,是否是欺诈行为的数据。

创造被标注好的数据对于大部分机器学习过程来说恐怕是最慢和最耗时的部分。机器学习算法学着去从数据中检测诈骗交易。这种数据是被标注好的数据。让我们看看这种机器学习对于诈骗行为的检测是怎样的。

1、构建模型

对于训练这种模型,你需要大量的被标记好是否是诈骗交易行为的数据。这些标记必须足够精确。这就是我们的标记好的数据集。这种数据集对于监督机器学习算法。依据被标记好的数据,这些算法运行并得到了诈骗检测模型。这种模型通常被认定为是一个输出“对”(是诈骗行为)或者“错”(不是诈骗行为)的二元分类器。

在这个过程中,被标记好的数据集起到了至关重要的作用。改变我们的算法(例如特征正态化或者损失函数)中的参数是很容易的。我们可以改变算法本身,例如从逻辑回归到支持向量机(SVM)或者随机森林。然而你无法改变被标注好的数据集。这些信息是预先确定的而且你的模型会预测这些数据的标记结果在你已经知道这些数据的标记的情况下。

2、数据的标记过程会花多长时间?

我们如何标记最新的交易数据?如果顾客举报了诈骗交易或者信用卡被偷,我们能够立即将这些信息标记为“诈骗行为”。但是我们如何处理剩下的交易信息?我们可以假定没被举报的交易是“非诈骗行为”。上次我的朋友丢了一张信用卡,她说:“我先不挂失我的信用卡,我明天先去我最后使用它的商店,问问他们有没有见到我的信用卡。”幸运的是,那个商店找回了她的信用卡并归还给她。我不是信用卡诈骗方面的专家(我很中规中矩的使用信用卡),但是以我的经验来看,我们可以等几天让诈骗信息被标记为“非诈骗行为”。

相比之下,如果某人举报了某次诈骗交易我们可以立即将其标记为“诈骗行为”。一个会举报诈骗行为的用户在丢失信用卡几小时或几天后很可能会意识到自己被诈骗了,但是举报是我们能做的最有用的行为了。

因此,我们能够拿到的最新的有标记的数据是较少的、有几天或几小时延迟的“有诈骗行为”的数据和许多有2到3天延迟的“非诈骗行为”的数据。

3、让我们加速这个标记过程

我们的目标是尽可能获得最新的有标记的数据。事实上,我们有比较新的“诈骗行为”的数据。至于那些“非诈骗”数据,我们不得不等上几天。只用“诈骗行为”的数据来建模看起来是个不错的想法。但是我们应该认识到这些被标记好的数据是有偏差的,而这些偏差有可能导致模型出现很多问题。

我们现在想象昨天一个新的购物中心开业,我们得到了商店的一个诈骗行为的举报。我们标记好的数据就只有一个来自这个商店的“欺诈行为”的数据。其他的交易数据均未被标记。这时,算法可能会将这个商店作为一个预测“欺诈行为”的重要因素,并通过实时学习将来自这个商店的所有交易信息误判为“欺诈行为”。这就是实时,原本应发挥其优势,在实际生活中给我们带来的的问题。

4、结论

正如我们所见,实时监督机器学习对于信用卡诈骗检测系统来说并不是一个很好的选择。此外,我不能从商业其他领域来为这个问题提出有效的设想。我很希望看到实时机器学习发挥其重要作用。如果你有任何信息或想法,请分享。

新智元倡议

新智元欢迎转载和摘编相关资料,但必须经过正式授权,邮箱为:simonwangx@163.com

我们倡议以公正、透明和积极的方式促进行业发展,如有出现匿名攻击、人身骚扰或其他不正当竞争手段,我方会采取相应的法律措施。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能算法

机器视觉与计算机视觉的区别?

计算机视觉与机器视觉,首先是应用场景不一样,就像@Vinjn张静 回答的那样:你把摄像头对着人就是CV,对着车间就是MV。 计算机视觉和机器视觉应用场景不同,就...

43711
来自专栏AI科技评论

独家 | 腾讯优图高级研究员沈小勇:ICCV 2017 一键卸妆 &视频超分辨率论文详解

AI 科技评论按:ICCV(The International Conferenceon Computer Vision)是计算机视觉领域的三大顶级会议之一,腾...

3205
来自专栏AI科技评论

深度 | 微软如何通过人工智能将你的手机变成植物百科全书

你是否遇到过这种情况?——外出与小孩散步,TA发现一朵很漂亮的花,跑过来问你是什么,但是你突然愣住了—因为你并不知道它是什么花。 目前世界上至少存在250000...

3147
来自专栏PPV课数据科学社区

技术帖:解析今日头条公开的推荐算法

1月11日,北京今日头条总部,一场问诊算法、建言算法的“让算法公开透明”分享会正在进行,雷锋网(公众号:雷锋网)观察到,包括BAT等在内的诸多科技公司算法工程师...

4589
来自专栏AI科技大本营的专栏

论文解析 | Google如何用CNN检查乳腺癌?

图片来源:New Scientist 翻译 | ziqi zhang 编辑 | Donna 【AI科技大本营导读】前两周,我们分别为大家放送了Luke Oakd...

3055
来自专栏机器之心

学界 | 天河二号制定「量子霸权」标准,国防科大与上海交大联合发表NSR论文

量子霸权的实现,将是量子计算发展的一座重要里程碑,代表「量子计算的超强计算能力」自 37 年前提出以来首次从理论走进实验,标志一个新的计算能力飞跃时代的开始。近...

742
来自专栏FreeBuf

机器学习对抗案例 | 愚弄Google图像识别算法

2018年CES在美国拉斯维加斯召开,站在风口浪尖上的科技企业纷纷出动,在会场各显神通地展示自己的科技产品和各种智能算法。近年来,人工智能的浪潮不断拍打着 IT...

2189
来自专栏AI科技评论

CCAI | 人工智能的将来,是否就埋藏在大脑那些神经元突触间美妙的电信号中?

前言 我们曾经说过,在人工智能的研究中有一个流派,倾向于认为对大脑的恰当模拟会是制造出人工智能的关键,但事实上,直到今天我们对人脑的工作原理的了解仍然十分粗浅,...

2787
来自专栏新智元

【新智元专访】神经元本身也能编程,神经网络学习能力远超预期

【新智元导读】以往认为,人脑学习的能力是基于神经元之间连接的增强或减弱。日前,瑞典隆德大学研究人员发表在 PNAS 的一项研究发现,神经元本身也具有编程或者说学...

56614
来自专栏人工智能头条

从How-Old.net看人脸识别技术的演进

1213

扫码关注云+社区