【独家】DataVisor:基于Spark平台的智能大数据网络反欺诈(视频+PPT+课程精华笔记)

[导读]为了让清华大学大数据能力提升项目的学生在基础学习和科研的基础之上,更好地了解大数据技术行业领域中的应用,清华-青岛数据科学研究院支持开设了金融大数据方向《量化金融信用与风控分析》课程(课号:80470193)。

本课程由清华大学交叉信息研究院助理院长、清华大数据能力提升项目教育指导委员会委员徐葳老师开设,并且聘任加州大学伯克利分校计算机博士黄铃和美国卡内基·梅隆大学高性能计算研究教学中心创始人、联席总监种骥科博士联袂任教。

在讨论课上,同学们会深度接触互联网金融行业中建立信用和风控模型的理论和实践案例,并了解关键学术挑战和应对挑战的解决方案。同学们还将亲手设计实现信用和风控模型,通过讲座了解世界上最先进的信用分析和反欺诈的方法,优秀项目成果还有望投稿一流的学术会议。

本文来自该课程中的一次讲座内容。

以下为课程视频,建议在wifi条件下观看。暂时看不了视频的朋友,可观看下面的图文实录哦!

注:本文为精华摘录,回复“清华大数据”,可下载本节课程PPT全文。(限时七天,不想错过更多内容,就请持续关注数据派THU!)

在本期讲座中,DataVisor全球技术总监吴中先生将介绍互联网时代在线服务商所面临的各种欺诈方式和由此带来的技术挑战;分析传统的技术,如设备指纹、规则系统、及机器学习系统等在风控方面的不足;将基于实例讨论云服务和大数据体系,如Apache Spark, HBase, Elasticsearch等为反欺诈带来的新的契机;并介绍如何利用基于内存云计算的Spark平台进行无监督大数据分析。

相比传统的基于规则或仅用设备指纹等单一信号的检测体系,无监督大数据反欺诈能大幅度提高检测覆盖率,自动发现未知的新的欺诈手段,对不断变换的欺诈行为进行有效的预警和封杀。

吴中,毕业于清华大学,在微软全球执行副总裁沈向洋博士的指导下获得计算机科学与技术学科的博士学位。现于DataVisor担任技术总监,并主要负责DataVisor中国区业务。在全球顶级计算机视觉会议如CVPR、ICCV、PAMI 等发表多篇有影响力的论文,并在大数据搜索、大数据安全领域拥有多项专利。

PPT+课程精华笔记

Datavisor公司成立于美国硅谷,目前为多家社交、电商、金融等互联网企业提供反欺诈服务。

互联网服务和移动App的飞速发展,一方面给我们提供了丰富多彩的服务,另一方面也给服务提供商带来了很多挑战,如互联网上新一代欺诈攻击频发,包括垃圾广告、账号盗取、假新闻、假评级、假评论和假贷款等。

互联网欺诈攻击主要有四大趋势:多种欺诈行为、复杂的欺诈产业链、潜伏期变长和各种欺诈辅助工具。互联网上的欺诈早已从单一欺诈向大规模团体欺诈转变,欺诈团伙掌握海量账号,首先伪装成正常用户,再通过大规模欺诈达到商业目的。

除此之外,反欺诈要面对的是整个灰色产业链。其中不同的团体各有分工,各个团体分别专注于自己擅长的部分,比如盗取账号、刷机、人工验证等。同时大规模欺诈还具有潜伏性,即所谓的“养号”,伪装成正常用户,有的甚至养号一年之久,再进行欺诈行为。

欺诈群组举例:欺诈交易群组、促销欺诈群组。

欺诈检测技术的发展经历了以下几个阶段:

  1. 黑名单、信誉库和设备指纹,这种方法的缺点是覆盖率和准确率有限,而且虚拟机等可逃避设备指纹监测;
  2. 规则系统,这种方法需要深入了解欺诈模式,但不能够有效应对不断变化的欺诈手段;
  3. 有监督的机器学习,这种方法的缺点是需要大量人工标注数据,只能检测同种特征行为的欺诈。上述的这些做法都只发现了欺诈行为的冰山一角,而从一个群体行为来看,才有可能发现数据内部的真实特性。

在当今的大数据时代,面临几十亿用户的数据,相应的特征量级可能达到千亿甚至万亿,如何高效处理并挖掘数据也是一项很大的技术挑战。Datavisor的大数据体系架构采用了很多开源技术,数据层包括在线的监控和离线的加密存储,分析层包括分析、计算和检索,使用Spark、HBase和Elasticsearch等开源技术。

Datavisor研发了一套无监督欺诈检测系统,这也是目前世界上最先进的欺诈检测技术。除此之外,还采用了无监督欺诈检测和有监督机器学习相结合的方式,一方面可以通过无监督欺诈检测去发现欺诈团伙,另一方面将新发现的欺诈账号作为标签输入,用于机器有监督训练检测模型。

无监督欺诈检测系统具有以下特性:

  1. 自动挖掘和检测各种已知、未知的欺诈行为;
  2. 自动产生标签,用于机器有监督训练检测模型;
  3. 自动产生规则,免除费时的人工规则调整,更具可解释性(针对金融行业的痛点)。

最后,吴中先生指出,当今的在线服务面临着逐渐增长的欺诈挑战,欺诈行为的挖掘和检测是一项非常具有挑战性的研究课题,欢迎感兴趣的同学共同对此类问题进行交流探讨。

量化金融信用与风控分析

课程号:80470193

课程简介

金融与互联网行业的深度结合带来了金融信贷模型的变革,这些变革对于普惠金融、个人和企业信贷带来了很多便利和新的市场形式。然而,新的互联网数据源也给征信模型的设计带来了新的科研问题,同时,互联网中广泛存在的欺诈行为也给这一新的信用模式带来了挑战。该课程目的在于让学生理解这一领域的科研和实践最新进展,为学生开展这一方向的深入研究打下基础。

本课程包括的模块有:1.信贷模型的架构与设计;2.反欺诈模型的架构与设计;3.行业实践案例。在这一课程中,学生需要平均每周阅读2篇本领域最新论文,并且实际动手设计两个项目,包括一个基于LendingClub信贷数据的信用数据建模项目和一个自由选题的团队研发项目。

任课教授

种骥科博士,现任宜信宜人贷首席数据科学家。曾任美国卡内基·梅隆大学教授与博士生导师,开创了卡内基·梅隆大学高性能计算研究教学中心,任联席总监。种骥科有多年互联网、大数据及金融创新经验。。在加入宜人贷之前,曾任职于美国Simply Hired招聘平台,创建了数据科学部,并应邀为白宫科技办公室参谋大数据技术产品设计。种骥科曾就职于美国Silver Lake 私募公司任Kraftwerk基金数据科学架构师,负责大数据技术应用。种骥科持有加州大学伯克利分校电子工程和计算机科学系博士学位,卡内基梅隆大学电子和计算机工程系硕士及本科学位,并持有9项专利。

黄铃博士,AHI Fintech创始人、CEO,加州大学伯克利分校计算机博士。黄铃是DataVisor 公司创始成员和大数据总监 (2014-2016),曾在美国英特尔研究院任资深科学家七年(2007-2014)。黄铃在人工智能、大数据分析和金融科技相关领域有近十五年的研究和开发经验,在世界顶尖会议上发表近50篇论文,总引用超5000次。当前研究兴趣包括:自然语言金融投研,大规模用户画像,风险评估和欺诈检测,基于深度学习的图像分类,目标检测和内容的理解。

讲座嘉宾

5/08:吴中,Datavisor全球技术总监

5/15:陈薇,排列科技CTO,前LendingClub Head of Data Science

5/22:顾凌云,冰鉴科技CEO,前ZestFinance Head of Risk

5/29:陈雷,TalkingData FinTech总经理

后续讲座,请持续关注数据派THU的活动通知。

作者:郑顺

校对:黄春寒

编辑:刘文清

郑顺,清华大学交叉信息研究院博士生,研究方向为机器学习及其相关应用。曾在百度大数据实验室参与过大规模机器学习算法的设计及实现,同时对自然语言金融投研、无监督欺诈检测也有一定研究兴趣。

原文发布于微信公众号 - 数据派THU(DatapiTHU)

原文发表时间:2017-05-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

英伟达深度学习中文课程将联手腾讯云上线 | 附课程表

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI ? 又一个AI开发者福利。 创立于2016年的NVIDIA深度学习学院(DLI),现在正式宣布找...

41780
来自专栏新智元

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

【新智元导读】3月22日,清华大学《人工智能前沿与产业趋势》系列课程第二讲开课,本讲聚焦当前AI领域最火、落地应用最成功的计算机视觉,由商汤科技CEO徐立主讲。...

383120
来自专栏机器之心

业界 | 蚂蚁金服发布「定损宝」,推动图像定损技术在车险领域的应用

机器之心报道 作者:高静宜 6 月 27 日,蚂蚁金服在北京宣布向保险行业全面开放技术产品「定损宝」,用 AI 技术模拟车险定损环节中的人工作业流程,帮助保险公...

44150
来自专栏DT数据侠

数据点亮城市:如何玩转时空地理数据可视化

日常出行离不开地图导航,你有没有想过结合地图能做出哪些炫酷的可视化作品?6月22日的数据侠公开课中,来自城市数据团培训教育部的负责人胡颖分享了城市空间数据可视化...

21100
来自专栏镁客网

AI巨头实力排名新鲜出炉:DeepMind第一,IBM垫底

32630
来自专栏数据猿

李开复看好AI创业为天使投资人支招,谷歌大牛分享处理极大复杂数据的三类实际建议 | 大咖周语录

数据猿导读 对于大数据的概念以及大数据在各行业的应用,每个人心中都有不同的看法。小编每周都会整理大数据牛人们的精彩观点,让你在最短的时间获得最精的思想荟萃。后续...

400100
来自专栏about云

大数据架构师、开发人员、公司必读:国外大数据应用的10个项目案例(图表)

问题导读 1.大数据如何应用于电力能源项目,带来效益? 2.数据可视化有哪些应用? 3.是否可以将可视化应用于空气污染? 4.大数据如何应用于各种(手机)应用...

429100
来自专栏大数据文摘

【御数之旅-4】EDW第3天,美联储CDO重磅开幕,御数坊为您深度解读

27470
来自专栏AI科技大本营的专栏

资源|2018年14个顶级AI和机器学习会议名录

编译 | AI 【AI科技大本营导读】人工智能和机器学习已经跳出科幻小说的范畴,冲进了现实。不管是技术层面还是商业环境方面,这些领域都在迅速发展,紧跟潮流的步伐...

39660
来自专栏人工智能快报

谭铁牛院士谈人工智能发展新动态

◆ ◆ ◆ ◆ 11月25日,模式识别与人工智能学科前沿研讨会在自动化所召开。会上,谭铁牛院士做“人工智能新动态”报告,回顾了近代以来历次科技革命及其广泛影响,...

36260

扫码关注云+社区

领取腾讯云代金券