专栏首页DT数据侠这个人工智能,能帮你从3050家P2P平台中挑出最不会跑路的

这个人工智能,能帮你从3050家P2P平台中挑出最不会跑路的

大数据不仅可以帮你看到城市顽疾,还可以做很多你想不到的事情。比如,互联网金融。来自感知城市数据科学研究院、交大OMNILab实验室的这个作品,就研究的是2015年末2016年初各种跑路的P2P。另外,本文还说到了这个团队的另一个作品——预测上海踩踏事件。

P2P风控 | 我们先给企业画像,建立评估体系

时空行为数据是什么鬼?估计大部分人都不太明晰。通过下面两个案例,陈夏明博士带我们走进时空行为数据的应用:一个是P2P深度风险分析,一个是大型事件的预警。

(DT君友情插入提醒:前方有不少技术流专业知识,如果你真的热爱大数据,真的想要学习这些工具的实际应用价值,一定要坚持看下去,会有好报哒……)

互联网金融2007年进入国内,2013年得到了蓬勃的发展。与此同时,也出现了很多问题,诸如提现困难、老板跑路、停业跑路等。截止2016年3月,在国内近4000家P2P平台中,问题平台比例已接近40%,投资者的资金难以得到保障。投资者希望知道自己的资金放在哪里最安全?投到哪个平台最有安全保障?这正是下面这个产品要解决的核心问题——客观精确地对P2P平台进行风险量化。

这个案例是来自交大OMNILab实验室,作品获得了2016年拍拍贷魔镜杯的金奖。

核心的问题是,要有一个客观精确的平台风险评估体系。但是如何评估风险,便是一个仁者见仁、智者见智的问题咯。假如是拥有大量私有数据的金融公司,他们可能拥有一套经济学的评价体系。但是作为使用互联网开放数据的研究者,究竟如何做到这一点呢?事实上,这也不是很困难,因为互联网上的数据真的很丰富。具体来说,我们选取以下这四大类的特征作为平台风险的量化依据:

第1个是静态特征——P2P企业的画像,和人的画像一样,一家公司的画像包含了公司的背景和人员信息,事实上这些信息是我们每个人都能从互联网上免费获取得到的。后面三个都是动态信息,我们可以转化成时序数据,从而充分使用时空数据挖掘的方法。我们从网络上不同地方获取这些数据后,通过大数据的分析、建模,进行后面更加深入的分析。

P2P风控 | 如何分析27万余条新闻和3050家平台信息

(DT君:这一段很高能,也是最核心的技术内容之一,实在看不懂的,可以跳过。)

下面是我们的系统架构,首先使用网络爬虫获取多源异构数据,解析得到结构化数据。通过数据清洗,将结构化数据整理成我们的数据资产。在此基础上,我们使用文本处理、主题模型、知识图谱、情感分析等技术分析数据资产,挖掘其中的内在规律。之后我们提出核心模型——OMNIRank,对各个P2P平台进行风险量化,形成知识供投资者决策。最后,我们将数据分析、模型量化的结果进行可视化,为投资者提供友好的交互界面。

我们基于Scrapy开发了爬虫框架OMNISpider,它可以:

  • 分布式可扩展:集成Redis、Hadoop,部署于上海交通大学网络信息中心,支持更多数据源的并发爬取;
  • 灵活配置:通过修改配置文件即可添加新的任务或更新已有任务,无需重构代码;
  • 只需简单的配置,既可以通过调度、爬取、解析、存储模块在短时间内爬取海量的多源异构数据。

下图是我们的数据清洗过程:

经过数据的清洗与融合,我们得到了数据资产。据不完全统计,我们的数据资产包括27万余条新闻、8万多条P2P相关的微博和评论、3050家P2P平台的基本信息、3年来各平台指数月评级数据。为了持续地扩充数据资产,我们把数据存放在Hadoop分布式文件系统(HDFS)中。

在理解文本的基础上,我们使用LDA模型对新闻进行处理,生成5个主题,每个主题取权重前7的词语作为关键词。通过各个平台在不同主题上的新闻分布规律和变化趋势,我们可以对平台进一步地理解,并了解整个行业的最新热点。

我们对语义信息、主题信息进行整理,经过命名实体识别、关系抽取、开放域知识提取技术,形成了一个包含1万多个结点的知识图谱。为了提供更快的查询服务,我们将它存在数据库中。投资者可以进行知识探索,更加全面的了解各平台、人员、职位、地理分布之间的联系。

为了更进一步理解平台口碑,我们对新闻以及用户评论数据做情感分析,判断出整个行业,以及各个平台的舆论倾向,并以天为粒度进行统计,便于投资者全面了解行业,进行投资决策。

(DT君:看到这里是不是有点晕?没关系,大多数人和你一样……但下面的内容会特别有意思啦)

P2P风控 | 核心模型:我们的“榜单”,其实是个人工智能

经过以上数据资产的准备及探索分析,我们提出我们的核心模型OMNIRank,一个对P2P平台进行风险量化,为投资者提供投资决策的模型。

我们可以这么来理解这个模型产品:Google开发了人工智能AlphaGo,它是一个会下围棋的人工智能。它采用全局特征和局部特征结合的思想,主要方法是深度神经网络。而OMNIRank是一个对P2P平台风险量化的人工智能,它的本质是一个深度神经网络。模型输入5大类共118个特征,包含全局的静态特征、局部的动态特征。

结合各个特征特点及神经网络模型的优势,我们设计了OMNIRank深度神经网络:

1.使用多层神经网络(MLP)处理静态平台属性特征;

2.使用长短时记忆元(LSTM)处理动态平台指标时间序列;

3.使用卷积神经网络(CNN)处理新闻、评论文本数据;

就像AlphaGo可以进行自我对弈一样,OMNIRank可以通过反馈回路自我学习,不断提升模型的能力。

我们将OMNIRank与其他机器学习算法,包括逻辑回归(Logistic Regression)、随机森林(Random Forest)、支持向量机(SVM)进行了对比,对比结果如下图所示:

我们发现,比起其他模型,OMNIRank可以更加显著地区分正常平台和问题平台,它具有更强的能力识别出问题平台。因此OMNIRank对平台风险的量化比传统模型更加可靠。

OMNIRank是如何帮助投资者选择投资平台的呢?我们每个月使用OMNIRank对平台风险进行量化预测,并根据量化结果对平台排名,排名越靠前表示该平台下个月出现问题的概率越低。之后计算在不同排名区间的平台,在下个月实际出问题的比率。我们发现,半年来排名前100的平台没有出现问题,这给投资者提供了一个安全的投资区域。另外,区间越大,平台的平均利率越高,但同时也伴随着更高的风险。投资者可以根据自己的自身情况,平衡风险与收益,选择最适合自己的平台。

我们设计了数据可视化与交互展示产品(http://zhanghonglun.cn/ppd/)。通过这一产品,投资者既可以对整个行业的有所了解,又可以对每个平台详细研究,还可以进行不同平台之间多个维度的对比。此外,我们还专门为投资者设计了懒人选投功能,告诉我们您的需求,我们就会给您推荐合适的平台。更丰富的产品信息,请访问我们的产品设计网站。

(DT君:也就是说,这个东东可以帮你选到好的P2P平台,很实用。)

踩踏预测 | 分析人群的“聚缓散急”的新方法

(DT君:如果说上一个利用时空数据的案例更多的是偏向个人投资者,那么这一个就更多的是给机构来用的啦。)

大型事件预警的时候有一个重要的模式叫做“聚缓散急”。大型活动开场前,人群从四面八方缓慢地聚集起来,活动开始时达到顶峰;散场的时候之前聚集的大量人群在短时间内涌出,就有可能发生突发事件。聚缓散急的模式,散场时候的突发性其实危害性非常大,就像观看完跨年晚会的时候散场的时候很容易出现踩踏事件。

怎么检测出这样的事件?传统方法是,通过时间序列推断出后面时间序列是怎么发展的,但是如果历史数据没有明显的突发性记忆,这种方法便会失效。

新的方法是,将进(地铁)站客流增大、人群缓慢聚集的过程一起考虑,因为可以通过相关性信息,把突发性的可能性检测出来。这个原理非常简单,因为突发事件中的参与者,通常有别与一个长居住在该区域的人。从数据上可以方便观察出,居民的行为往往是一去不复返,即只存在前一个时间序列中,而事件参与者通常两次都可以观察得到。

踩踏预测 | 基于2.4亿条交通卡数据的分析结果

基于这个原理,我们把涉及交通卡“一卡通”100多万个用户的2.4亿条数据数据做了分析。

首先看一下交通客流特征,在早晚会有双峰的特征。还有是进出站的比例,我们看到进出站总量比值大约在1左右,就意味着如果说聚集的过程中没有开放这么大的体量,意味着后面很大可能有大量的人群流量出现。

这是我们的检测结果,算法直接检测出来的事件,并将早高峰过滤掉。大家可以看到,在我们分析的这个数据范围内,临近站点的上海体育馆和上海体育场两个站点出现了异常客流量,赛车场发现了长时段的出站流量异常也可以检测出来,而上海火车站则是有蓄势待发,没有爆发……我们的算法对于突发事件的检测可以达到3—13%的误差。

教学时间 | 时空行为数据,挖掘偶然里的必然

看完了两个案例,让我们来了解一下时空行为数据的前世今生。

时空行为数据是什么样的?人类分布的时候演化出来,然后散播到全球。考古学家分析出很多结果,他们在各个地点,其他人类应用下来推断出信息,还原出人类有两条主要路线,上面大陆路线一直到南美南部,还有一条路线是非洲东部,沿海洋的路线。

时空行为数据到底干什么。Ebola大家都经历过,非洲蔓延非常巨大。这个数据是通过手机网络数据获取到这样的信息,分析出病毒本身在非洲传播的模式。

通过行为数据分析群体事件,可以分析上海踩踏事件偶然性里的必然。

注:本文参考报告: 感知城市《时空行为数据挖掘初探及相关技术应用》

本文分享自微信公众号 - DT数据侠(DTdatahero),作者:数据侠 陈夏明

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 当城市数据和社会关系被可视化,每个人都可能是福尔摩斯

    现代城市是由人、机、物等组成的繁复的生活系统,其间产生的数据可用巨量来形容。要对这些宏大的数据进行收集、梳理并作分析,难度有之。在云栖大会上,浙江大学计算机学院...

    DT数据侠
  • 英国地理测绘局是如何玩转地理空间数据的?

    全球很多城市都在打造“智慧城市”,但很多人不会意识到:城市要想变智慧,如果没了地理空间数据的支撑,绝无可能。从道路管理、商业选址、解决城市拥堵等,地理空间数据的...

    DT数据侠
  • 有了这些创意美学,城市数据的趣味性超乎你的想象

    你访问过政府开放数据网站吗?虽然开放的数据越来越多,但“可用性有待改善”仍是不少公众对这类网站的共同看法。如何才能让开放数据更好用,并打通公共数据到普通公众的“...

    DT数据侠
  • 钱塘动态 | 区委常委、开发区党工委副书记叶建宏实地调研钱塘大数据

    编者导语 2016年7月13日下午,萧山区委常委、萧山经济技术开发区党工委副书记叶建宏莅临钱塘大数据交易中心有限公司调研指导。 区委常委、开发区党工委副书记叶建...

    钱塘数据
  • 如何能既便宜又快速地获取大数据?

    美国微软雷德蒙研究院首席研究员周登勇 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,C...

    CSDN技术头条
  • CCAI | 如何能既便宜又快速地获取大数据?这位微软研究员设计了两个模型,帮你省钱省时间

    美国微软雷德蒙研究院首席研究员周登勇 文/CSDN贾维娣 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 ...

    AI科技大本营
  • 如何能既便宜又快速地获取大数据? | CCAI 演讲实录

    用户1737318
  • (一)拨开生活中的数字迷雾,警惕数据的陷阱

    数据是客观的,但数据的搜集和解释是带着目的的,是主观的。同时数据也总是不完整的,只代表了历史,而且只是事物的某一个片段,同时数据会随着时间和空间的变化而所传达的...

    1480
  • 大数据24小时 | 凯迪网络推出全新品牌“数相”,浙江富润拟12亿元收购大数据公司泰一指尚

    <数据猿导读> 企业空间交易平台“空间家”2.58亿融资之后,将建大数据服务平台;将大数据技术带到NBA赛场,ShotTracker获500万美元种子融资;Ta...

    数据猿
  • 在未来的大数据和机器学习领域,获得一份不错的工作?

    AI 的发展脚步会加快,这一年将是 AI 技术重生和数据科学得以重新定义的一年。对于雄心勃勃的数据科学家来说,他们如何在与数据科学相关的工作市场中脱颖而出?会有...

    用户2292346

扫码关注云+社区

领取腾讯云代金券