eBay开发用于识别信用卡欺诈案例的AI系统

编译:chux

出品:ATYUN订阅号

信用卡欺诈比人们想象的更常见。2014年,在1760万起执法身份盗窃事件中,86%的受害者报告与现有信用卡或银行账户有关的欺诈行为。事实上,根据联邦贸易委员会的统计,信用卡欺诈是美国最常见的身份盗用形式,每年有超过130,000份报告。

检测可疑信用卡使用模式的自动方法并不新鲜,但eBay的研究人员在发表的一篇新论文“Credit Card Fraud Detection in e-Commerce: An Outlier Detection Approach”中描述了一种尖端技术。他们提出的系统使用经过训练的算法来识别“良好行为”,它涉及交易和支付,并并标记超出预期规范的活动。

“通常,与欺诈和垃圾邮件检测等任务相关的挑战是缺乏训练合适的监督学习模型所需的所有可能模式,”该论文的作者写道,“当欺诈模式不仅仅是稀缺时,这个问题更加突出,它们也随着时间而变化。有限的数据和不断变化的模式使得学习变得非常困难。我们假设良好行为不随时间变化,表示良好行为的数据点在不同分组下具有一致的空间特征。”

研究人员利用了一组聚类方法技术来识别具有不同参数的数据集中的相似对象组。在每次训练中,每个数据点都被分配到一个集群中,从这个集群中产生一个数学表示(向量),构成数据点的指纹,这些指纹可以组合成数据点的唯一签名表示。

为了生成表示“良好行为”(即一致性)的签名,团队将每个数据点向量组合在一起,并根据相应群集的大小对其进行加权,得到0到1之间的单个分数。低一致性得分(接近0),自然对应异常行为。

他们写道,这种方法比传统的AI欺诈检测有几个优点。它不需要事先了解异常值或内点。并且基础算法具有(1)高度可扩展性(2)通用性,它几乎可以应用于任何群集问题,包括医学领域的问题。

该团队采购了数据科学平台Kaggle的公开信用卡数据库,其中包含了2013年9月欧洲持卡人在两天内(其中492个是欺诈性)进行的284,807份信用卡交易样本,以测试他们的方法。在总共10次运行之后,该算法能够以高精度识别40%的欺诈案例。

它并不完美,它标志着29项合法交易,但正如他们在报纸中指出的那样,考虑到成千上万的数据点,这是一个巨大的收益。

团队表示,“我们的技术非常实用,因为在284,807个样本中,我们可以安全地排除139,220个交易。”

如果你最近在eBay上购买或出售过某些东西,你可能会遇到该系统的运行。研究人员指出,它成功地从电子商务平台中筛选了欺诈交易。

“我们推出此方法的动机是,每次电子商务公司引入新的消费者辅助功能或对某些交易行为施加限制时,都试图在电子商务平台上识别欺诈消费者,这为一些消费者滥用和滥用平台打开了新的大门和途径。此外,我们的算法在识别欺诈方面显示出巨大的潜力。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

机器人新里程碑:观察1次,就能模仿人类操作

OpenAI是一家由伊隆·马斯克赞助,总部位于旧金山的非营利研究实验室,近日实验室宣布在机器人工作领域取得了里程碑式研究成果。基于全新算法,人类在虚拟现实环境中...

31050
来自专栏AI科技评论

英特尔IDF PPT揭秘: 高性能计算和深度学习发展的趋势

进行深度学习的训练向来不被认为是CPU的强项,但是以CPU研发见长的英特尔并不甘心屈服于这个定位,在过去的几年里,英特尔及其合作伙伴一直在探索用CPU来进行快速...

37140
来自专栏量子位

机器学习项目到处都是坑?你需要谷歌的工程实践“葵花宝典”

今天,谷歌开发者推特账号终于上线了《机器学习规则(Rules of Mahchine Learning)》的中文版(撒花.gif)。

14430
来自专栏机器学习算法与Python学习

报告 | 腾讯知文,从0到1打造下一代智能问答引擎【CCF-GAIR】

2018年7月1日上午自然语言处理专场中腾讯知文算法负责人钟黎就NLP、NLU、dialogue等面临的问题,做了其“从0到1打造下一代智能问答引擎”的报告。

18300
来自专栏玉树芝兰

如何用人工智能帮你找论文?

传统的关键词检索论文,浩如烟海的结果让你无所适从?试试人工智能检索引擎。根据你的研究兴趣和偏好,便捷而靠谱帮你找论文。

11810
来自专栏专知

看论文头疼吗?这里有一份学术论文阅读指南请查收~

【导读】对于从事学术研究的人来说,跟进最新的论文是必备的科研素质之一。但面对海量的论文更新,应该如何快速又有效地阅读论文,吸收其精华? KyleM Shanno...

15900
来自专栏大数据文摘

如何把各类难题变得数据可解?Get与数据科学家聊天的正确姿势

10340
来自专栏大数据文摘

谷歌领头、大牛联合强推的ML可交互期刊平台Distill:解析其意义与质疑

17540
来自专栏新智元

【深度解析】Google第二代深度学习引擎TensorFlow开源(CMU邢波独家点评、白皮书全文、视频翻译)

TensorFlow 是 Google 第二代深度学习系统,今天宣布完全开源。TensorFlow 是一种编写机器学习算法的界面,也可以编译执行机器学习算法的代...

42660
来自专栏磐创AI技术团队的专栏

热点 | 四月最佳Github项目库与最有趣Reddit热点讨论(文末免费送百G数据集)

13820

扫码关注云+社区

领取腾讯云代金券