前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >P2P网贷用户数据分析——以拍拍贷为例

P2P网贷用户数据分析——以拍拍贷为例

作者头像
机器思维研究院
发布2019-07-30 11:28:31
3.9K0
发布2019-07-30 11:28:31
举报
文章被收录于专栏:AI机器思维

近两年P2P网贷行业风云变幻,雷声不断,不巧前几日我也中招,之前给亲戚介绍的P2P网贷平台出现到期未还款的现象,吃惊之余赶忙给平台客服打电话,被告知借款人逾期,目前正加紧催收。在当前经济下行压力增大的环境下,P2P网贷行业风险日益暴露,加之网贷备案一拖再拖,P2P网贷平台举步维艰。

本期“品玩SAS”我们就深入研究下P2P网贷平台的用户情况,以期对P2P网贷的参与者有一个清晰的认识。

目录

1 背景和目的

2 数据介绍

3 数据清洗

4 数据分析

4.1 贷款客户画像

4.2 各变量与历史逾期的相关性

5 建议

1 背景和目的

拍拍贷(NYSE:PPDF)成立于2007年6月,总部位于上海,是国内首家P2P网贷平台,2017年11月10日,拍拍贷在美国纽约证券交易所上市。截止到2018年12月31日,拍拍贷累计注册用户8893万人;累计借款用户数为1444万人;累计投资用户数超过66.7万人。

本文的目的主要包括以下两个方面:

(1)了解贷款客户的画像,例如性别、年龄、借款金额、初始评级、认证状态的分布情况。

(2)各变量与历史逾期的相关性,包括历史逾期和性别、年龄、初始评级、认证状态的相关性。

2 数据介绍

本文以拍拍贷2015年1月1日至2017年1月30日的328553条贷款数据(该时间段10%的真实数据)为研究对象。

LC (Loan Characteristics) 表为标的特征表,每支标一条记录。共有21个字段,包括一个主键(listingid)、7个标的特征和13个成交当时的借款人信息,全部为成交当时可以获得的信息。该数据表一共是328553行,21列。

字段描述:

21个字段大致可以分为基本信息、信用信息、认证信息、借款信息4个维度。

3 数据处理

将数据集lc导入Navicat客户端,导入过程中字段类型全部默认为varchar(255),这里将借款金额,借款期限,历史成功借款次数,历史成功借款金额,历史正常还款期数,历史逾期还款期数设置为int类型,部分数据如下。

查询数据中是否存在重复值或缺失值。

--查询重复值、缺失值

SELECT COUNT(DISTINCT ListingId),COUNT(`借款金额`),COUNT(`借款期限`),

COUNT(`借款利率`),COUNT(`借款成功日期`),COUNT(`初始评级`),COUNT(`借款类型`),

COUNT(`是否首标`),COUNT(`年龄`),COUNT(`性别`),COUNT(`手机认证`),

COUNT(`户口认证`),COUNT(`视频认证`),COUNT(`学历认证`),COUNT(`征信认证`),

COUNT(`淘宝认证`),COUNT(`历史成功借款次数`),COUNT(`历史成功借款金额`),COUNT(`总待还本金`)

,COUNT(`历史正常还款期数`),COUNT(`历史逾期还款期数`)

FROM LC;

各字段返回的结果均为328553,说明数据集中不存在缺失值。Distinct去重后的ListingId也为328553,说明数据中不存在重复值。该数据集比较规整,数据清洗工作较为简单。

4 数据分析

4.1 贷款客户画像

4.1.1基本信息-性别/年龄

--查询性别分布

select 性别,

count(listingid) as 数量

from lc

group by 性别

-查看不同年龄段用户人数

SELECT CASE WHEN `年龄`>= 17 AND `年龄`<=25 THEN '17-25'

WHEN `年龄`>= 26 AND `年龄`<=35 THEN '26-35'

WHEN `年龄`>= 36 AND `年龄`<=45 THEN '36-45'

WHEN `年龄`>= 46 AND `年龄`<=56 THEN '46-56'

ELSENULL END AS 年龄阶段,COUNT(`年龄`) AS用户人数

FROM LC

GROUP BY CASE WHEN `年龄`>= 17 AND `年龄`<=25 THEN '17-25'

WHEN `年龄`>= 26 AND `年龄`<=35 THEN '26-35'

WHEN `年龄`>= 36 AND `年龄`<=45 THEN '36-45'

WHEN `年龄`>= 46 AND `年龄`<=56 THEN '46-56'

ELSENULL END

ORDER BY 用户人数 DESC

从上图可以看出,性别分布上男性借款用户要明显多余女性借款用户,占全部借款用户的三分之二。年龄分布上,主要的年龄群体是26-35岁之间,其次是17-25岁、36-45岁人群,46岁以上借款用户较少,这基本符合我们上篇文章讲的“学生时期”、“事业发展期”、“财富积累期”的不同人生阶段。总结来讲,借款人主要为较年轻的男性群体。

4.1.2 基本信息-平均借款金额/利率/期限/最大最小值

--查询平均借款金额

select ROUND(sum(借款金额)/count(借款金额),2) as 平均借款金额

from lc

--查询加权平均借款利率、借款期限

select round(sum(借款利率*借款金额)/sum(借款金额),2)as 平均借款利率,

round(sum(借款期限*借款金额)/sum(借款金额),2) as 平均借款期限

from lc

--最大最小值

select min(借款金额),min(借款期限),min(借款利率),max(借款金额),max(借款期限),max(借款利率)

from lc

从查询结果可知,借款人平均借款金额为4423.82元,最小借款金额100元,最大借款金额50万元,属于小额贷款;平均借款利率为19.94%,利率偏高;平均借款期限为10.19个月,最长借款期限24个月,属于短期借贷。

4.1.3 信用信息-初始评级

--初始评级

select 初始评级,count(初始评级) as 人数

from lc

group by 初始评级

order by 初始评级

--初始评级与借款利率关系

SELECT 初始评级,round(sum(借款利率*借款金额)/sum(借款金额),2)as 平均借款利率

FROM LC

GROUP BY 初始评级

ORDER BY 初始评级

一般而言,初始评级代表客户的信用好坏,评级越高客户逾期的可能性越小,初始评级从高到低排序为A-F。从图中来看,拍拍贷初始评级为C、D的借款人最多,两者合计占全部借款人的81%,借款人群信用表现一般。借款利率上,初始评级与借款利率负相关,初始评级越高则借款利率越低。

4.1.4 认证信息-认证情况

认证信息是客户真实性身份的佐证,完善的认证信息有利于平台防范欺诈、控制客户逾期风险。从上表来看,拍拍贷平台借款人的认证信息缺失严重,60.5%的用户一项也没有认证,一项认证的也仅有31.99%,二项认证及以上的合计7.51%,完成全部认证的用户仅有0.02%。

小结:

(1)男性用户为借款人群主力,约为女性用户的两倍,借款人年龄集中在17-35岁之间;

(2)借款人平均借款金额为4423.82元,平均借款利率为19.94%,平均借款期限为10.19个月,呈现小额、短期、高息的借贷特点;

(3)借款人初始评级呈现两头少(A、F),中间多(C、D)的特点,说明借款人信用状况居中,平台信用把关较为严格,但缺乏优质客户;

(4)大部分借款人认证信息缺失,平台在用户认证方面需加大力度。

4.2 各变量与历史逾期的相关性

4.2.1 性别与历史逾期的关系

--性别与历史逾期率

SELECT 性别,sum(`历史逾期还款期数`) as 历史逾期期数,

concat(round(sum(`历史逾期还款期数`)/(sum(`历史逾期还款期数`)+sum(`历史正常还款期数`))*100,2),'%') as 历史逾期率

from LC

group by 性别

历史逾期率=历史逾期期数/(历史正常还款期数+历史逾期期数)

从图中可以看出,男性的历史逾期还款期数比女性多,这主要是由于男性借款人数远多于女性,相应的正常还款期数、逾期还款期数均多于女性借款人。而有趣的是,在历史逾期率上,女性的历史逾期率要高于男性。

4.2.2 年龄与历史逾期的关系

--按年龄分组,查看各组历史逾期率

SELECT CASE WHEN `年龄`>= 17 AND `年龄`<=25 THEN '17-25'

WHEN `年龄`>= 26 AND `年龄`<=35 THEN '26-35'

WHEN `年龄`>= 36 AND `年龄`<=45 THEN '36-45'

WHEN `年龄`>= 46 AND `年龄`<=56 THEN '46-56'

ELSE NULL END AS '年龄阶段',

concat(round(sum(`历史逾期还款期数`)/(sum(`历史逾期还款期数`)+sum(`历史正常还款期数`))*100,2),'%') as 历史逾期率

FROM LC

GROUP BY 年龄阶段

26-35岁历史逾期率最高,17-25岁、36-45岁年龄段历史逾期率相对比较低,可能的原因是17-25岁的借款金额比较小,还款难度较小,因此不太会逾期,而26-35岁人群正值事业发展期,对资金的需求旺盛,导致负债较重,从而影响其还款表现。

4.2.3 初始评级与历史逾期的关系

--初始评级与历史逾期率

select 初始评级,

concat(round(sum(`历史逾期还款期数`)/(sum(`历史逾期还款期数`)+sum(`历史正常还款期数`))*100,2),'%') as 历史逾期率

from lc

group by 初始评级

order by 初始评级

随着评级的下降,历史逾期率逐渐升高。其中从A-D评级的上升趋势较为平缓,到E评级的历史逾期率出现大幅度提高,从5.45%到12.90%,说明E评级人群信用资质下降明显。F评级的历史逾期率也较高,但相比E评级略有下降,可能是由于F评级借款人在全部借款人中占比过少(1%),导致F评级数据存在些许误差。

4.2.4 认证信息与历史逾期的关系

从上图来看,似乎无认证借款人的逾期表现好过有认证的借款人,这里要考虑不同认证数之间借款人数量存在的巨大差异,大多数用户处在无认证与一项认证的情况,取得两个以上认证的用户仅有7.5%,这样的数量差异难以反映出数据的规律。用户认证这一项监督手段还需要继续推进。

小结:

(1)男性借款人远多于女性,但在历史逾期率方面,女性(4.82%)的历史逾期率略高男性(3.75%);

(2)26到35岁间的用户历史逾期还款期数最多,历史逾期率也最高;

(3)初始评级与历史逾期率呈现负相关,随着初始评级的降低,历史逾期率呈上升趋势,历史逾期率区间为1.26%-12.99%。同时E、F评级的历史逾期率远大于之前的四个评级,可以看作客户资质好坏的分水岭;

(4)由于大多数用户未进行认证或只进行了一项认证,导致取得两个及以上认证的用户数据过少,难以反映出历史逾期率与认证数的相关性,有待以后拥有更多有效数据之后再研究。

5 建议

1.女性的历史逾期率比男性高,应在贷款审批时加强对女性借款人的审核力度。

2.26至35岁借款人群历史逾期期数、逾期率最高,需对这部分年龄段客户从严审核来降低逾期率,或者提高贷款利率,用多出的利息收入覆盖客户逾期导致的损失。

3. 初始评级与历史逾期率负相关,初始评级越高,客户越优质,其逾期的可能性越小,可以适当给予高评级客户更大的借款额度或者优惠利率来吸引、留存。

4.一般而言,认证信息具有反应客户真实性、信用情况的作用,然而拍拍贷平台用户的认证信息大面积缺失,有待进一步鼓励用户完善认证,并不断改进认证机制。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI机器思维 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
ICP备案
在中华人民共和国境内从事互联网信息服务的网站或APP主办者,应当依法履行备案手续。腾讯云为您提供高效便捷的 ICP 备案服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档