首页
学习
活动
专区
工具
TVP
发布

新人赛《金融贷款违约》避坑指南!

作者:陶旭东,北京师范大学,Datawhale成员 一、背景介绍 本文以天池的金融赛为背景,梳理了金融的整个实践流程,帮助大家避坑学习。...赛事的场景是个人信贷,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这个问题在现实的场景中很常见,属于典型的分类问题。...二、数据概况 数据下载地址:https://tianchi.aliyun.com/competition/entrance/531830/information(阿里天池-金融赛事) 本次数据训练集...数值型特征本是可以直接入模的,但往往人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,从而使模型更加稳定。...1, 1, 1, 1] FPR,TPR,thresholds=roc_curve(y_true, y_pred) KS=abs(FPR-TPR).max() print('KS值:',KS) 在金融中一般将用户违约率预测的概率转化为评分卡分数

2.6K62

】催收评分和不良贷款市场的机会

摘要: 本研究的目标是在一家专门从事不良贷款组合的巴西公司254,914名客户的样本中开发一个催收评分模型,使用Logistic回归来识别那些更倾向于偿还不良贷款的客户。...除了用于分析新贷款授予的模型(称为信用评分)之外,还增加了对其他两个模型的使用:在第一个模型(行为评分模型)中,目的是评估银行客户是否是能够获得新的贷款;第二个模型(催收评分)评估已经违约的且需要做催收行动的客户的还款可能性...文献评论 不良贷款 不良贷款是逾期90天以上的贷款准备金。 金融机构中不良贷款数量的增加导致该公司破产的风险(Makri等人,2014年)。...Toledo(2013)指出,自从90年代中期以来,在Plano Real实现稳定之后,巴西经济一直在经历由贷款增加所带来的增长过程,因此,据几位作者称,快速扩张已经 导致贷款质量恶化,导致违约增加(Kauko...最后的考虑因素 本研究的目的是使用逻辑回归将催收评分模型应用于不良贷款组合,结果是恰当的。

1.3K50
您找到你想要的搜索结果了吗?
是的
没有找到

大数据应用于P2P领域

这也导致了近年来多家P2P公司跑路,给投资人造成巨大大损失。 (二)大数据征信优势凸显 近年来,中国互联网金融发展迅猛,但问题频发,引入大数据征信成为破解互联网金融难题的关键。...阿里和腾讯分别解决了还款能力和还款意愿方面的评估,这两者都是最核心的要素。这样的数据评估对网贷行业的促进意义非凡。...其二,我国的大数据系统还没有实现互通互联,阿里、银联、平安、腾讯以及众多的P2P公司,都是各自为政,P2P公司拿不到央行的数据,几家大的互联网平台在相关大数据的分享上彼此也未互通有无。...而在P2P网贷行业,一些平台则以用大数据做审核这样虚无缥缈的定义来吸引投资者,但实际上其模式为应收账款质押融资或货物抵押融资,并未真正应用大数据。...国内的P2P平台缺乏闭环的交易数据,对借款人的约束力不够强硬,使其难以有效地和大数据结合起来,难以单凭大数据来评估借款人的违约风险。

91950

ML | 建模的KS

我们这做模型的时候,经常是会用KS值来衡量模型的效果,这个指标也是很多领导会直接关注的指标。今天写一篇文章来全面地剖析一下这个指标,了解当中的原理以及实现,因为这些知识是必备的基本功。...不过这不影响我们去使用它,我们只需要知道在中是怎么实现的,并且在实际场景中怎么去使用它就可以了。就如上面我们说的,KS在主要是用于评估模型的好坏样本区分度高低的。什么是区分度?...可以看下图: 从业务上来说,就是越往后的箱子,客户的质量越差,rate整体上呈现单调性,从而可以把大多数的坏人,直接从箱的维度上就可以区分开来了,在后续的策略使用体验上十分友好。...02 KS的生成逻辑 KS的生成逻辑公式也是十分简单: 好样本累计占比坏样本累计占比 在领域,我们在计算KS前一般会根据我们认为的“正态分布原则”进行分箱,一般来说分成了10份,然后再进行KS的计算...03 KS的效果应用 KS的值域在0-1之间,一般来说KS是越大越有区分度的,但在领域并不是越大越好,到底KS值与模型可用性的关系如何,可看下表: 004 KS的实现 首先我们来对上面展示的例子进行

4.2K30

数据挖掘实践(金融):金融贷款违约预测挑战赛(下篇)xgbootslightgbmCatboost等模型--模型融合:stacking、blend

数据挖掘实践(金融):金融贷款违约预测挑战赛(下篇)xgboots/lightgbm/Catboost等模型--模型融合:stacking、blending 相关文章: 数据挖掘实践(金融...):金融贷款违约预测挑战赛(上篇) 数据挖掘机器学习专栏 4.建模与调参 项目链接以及码源见文末 4.1 模型对比与性能评估 4.1.1 逻辑回归 优点 训练速度较快,分类的时候,计算量仅仅只和特征的数目相关...928000128.00 MB Memory usage after optimization is: 165006456.00 MB Decreased by 82.2% 4.2.1 简单建模 Tips1:金融的实际项目多涉及到信用评分...'] = rh_test testA[['id','isDefault']].to_csv('test_sub.csv', index=False) 项目链接以及码源 数据挖掘专栏 数据挖掘实践(金融...):金融贷款违约预测挑战赛(上篇) 数据挖掘实践(金融):金融贷款违约预测挑战赛(下篇)

3.4K51

数据挖掘实践(金融):金融贷款违约预测挑战赛(上篇)xgbootslightgbmCatboost等模型--模型融合:stacking、blend

数据挖掘实践(金融):金融贷款违约预测挑战赛(上篇)xgboots/lightgbm/Catboost等模型--模型融合:stacking、blending 1.赛题简介 赛题以金融中的个人信贷为背景...通过这道赛题来引导大家了解金融中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。...评分卡是金融中常用的一种对于用户信用进行刻画的手段哦!...数值型特征本是可以直接入模的,但往往人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。...项目链接以及码源 数据挖掘专栏 数据挖掘实践(金融):金融贷款违约预测挑战赛(上篇) 数据挖掘实践(金融):金融贷款违约预测挑战赛(下篇)

4.3K110

数据挖掘机器学习---项目实战金融贷款违约预测

AI训练营金融参考 1.项目实战金融贷款违约预测 以金融中的个人信贷为背景,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。...rain.csv id 为贷款清单分配的唯一信用证标识 loanAmnt 贷款金额 term 贷款期限(year) interestRate 贷款利率 installment 分期付款金额 grade...对于金融预测类常见的评估指标如下: 1、KS(Kolmogorov-Smirnov) KS统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。...在中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。...Memory usage after optimization is: 165006456.00 MB Decreased by 82.2% 3.2 简单建模【Lightgbm进行建模】 Tips1:金融的实际项目多涉及到信用评分

1.2K41

何为

定义 是风险控制的简称,在百度百科中是这么定义风险控制的。 在我们日常生活中随时可见,小到账户登录验证码,都可以算是一种的手段。...这里我们着重了解下信贷下的,结合了场景的,则赋予了更多的意义。...直觉上,我们理所当然觉得就是要把风险降到最低,恨不得没有坏账,放出去的每一分钱都能带来利息、都能获益,没有丁点损失,但实际上,对任何一笔贷款,我们都无法百分之百确认一定不会成为坏账,这里头充满了很多不可预测因素...信贷的目标是「利益最大化」,而不是没有风险,在风险和利润之间找到平衡,是信贷的核心。...,以及在信贷场景下的如何实现,的目标永远是降风险,但不是一味地降,在不同场景下有不同的考虑。

1.4K21

信贷模型搭建及核心模式分类

具体而言,就是银行对中小企业贷款的设计、申报、审批、发放、等业务按照“流水线”作业方式进行批量操作。...直到我们和某P2P公司的经理实际交流后才明白这其中的含义。在传统银行信用卡业务中,是很喜欢这类少量逾期的客户的,因为他们能给银行创造罚息,但是又不是恶意违约那种客户。...另外,模型在不同的阶段体现的方式和功能也不一样。...从资金的角度来看,模型是为了评估用户还款能力和还款意愿,反欺诈反作弊,防止用户薅羊毛和保证平台安全等功能;从行业的角度,互联网模型体现在消费金融/供应链金融/信用借贷/P2P/大数据征信等方面。...所以说,模型的计算策略和机制在一个公司属于绝密,规则除了核心的员工,其他人是不能知道规则的。 四、的核心 如果说金融产品的核心是,那么的核心是什么?

1.8K10

支付模型

这就需要对模型进行合理的设计。一般来说,要提升的拦截效率,就需要考虑更多的维度,但这也会带来计算性能的下降。在效率和性能之间需要进行平衡。...二、基于规则的 规则是最常用的,也是相对来说比较容易上手的模型。从现实情况中总结出一些经验,结合名单数据,制定规则,简单,有效。 常见的规则有: 1....互联网金融离不开机器学习,特别是支付。 在各种支付模型中,决策树模式是相对比较简单易用的模型。 如下的决策树模型,我们根据已有的数据,分析数据特征,构建出一颗决策树。...这个过程,将在下一篇的架构中介绍。 五、模型评估 本质上是对交易记录的一个分类,所以对模型的评估,除了性能外,还需要评估“查全率”和“查准率”。...支付场景分析 ; 支付数据仓库建设 ; 支付模型和流程分析(本文); 支付系统架构 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn

1.7K21

为本创新驱动,券商如何实现智能加速?

合规始终是公司的首要核心竞争力,该券商不断推进全面风险管理体系建设,需要全方位提升主动合规控管理能力,进而提升风险管理精细化、智能化水平。...而由于合规处于企业核心竞争力的高度,原数据积累10年,数据量已超30TB。...非现场平台各项报表和查询生成时间逐渐拉长。夜间批量任务越来越慢,部分任务出现超时失败现象。 02 原合规数据库数据量巨大,原有的传统的备份手段难以实现数据的实时保护。...解决方案 沃趣科技以QData高性能数据库云平台作为数据库基础架构平台替换原传统“烟囱式”系统架构,承载合规核心数据库系统,助力业务处理效率大幅提升。...价值提升 1 通过QData数据库云平台大幅提升了系统的业务效率,日终调度业务从原十几个小时缩短至1.5小时,性能提升10倍以上。

1.1K10

决策引擎经验

一套完整的体系,在中,少不了决策引擎,今天就浅谈一下决策引擎。 一、优先级 决策引擎是一堆规则的集合,通过不同的分支、层层规则的递进关系进行运算。...系统的作用在于识别绝对与标识相对风险,如果是绝对,则整套的审核结果便将是“拒绝”。既然结果必然是“拒绝”,则没必要运行完所有的规则,而主要单条触发“拒绝”即可停止剩余规则的校验。...而一些通过对接外部三方征信的规则,需支出相关查询费用的,则靠后运行。此外,在外部三方征信的规则中,命中式收费的规则(如黑名单与反欺诈)又可以优先于每次查询式收费的规则(如征信报告)运行。...三、记录与统计 最终到底是“跑出来”的,所以,整个系统对所有不同规则的触发需进行有效的记录与统计,以便后期可支持数据分析与模型调整的相关工作。...具体的记录与统计内容,主要如下: 1、触发的具体规则 举例说明:通过两种不同的视角进行记录,一是用户与订单层面,记录其所触发的明细规则;二是规则层面,记录某条规则具体的触发率。

98730

建模整体流程

确定建模目的 在信贷领域中建立模型是为了找出可能会逾期的客户,根据逾期的可能性和资金的松紧程度选择是否放贷。 在支付领域建立模型是为了找出可能存在非法经营的商户,保证商户没有违法经营。...确定好坏样本逻辑 在信贷领域中逾期大于x期(不同公司取值不同)的客户定义为坏客户(1),从未逾期的客户定义为好客户(0) 在支付领域中,有赌博、欺诈、套现、伪卡等行为的商户定义为坏商户(1)(具体根据模型要防的风险决定...特征工程 在领域一直都有这样一句话 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。通俗的讲就是衍生变量去捕获风险客户。...模型上线 在支付领域如果模型验证没有问题,一般会上到线上,自动生成案例。在信贷中会模型搭配规则,判断申请贷款的人是通过放贷、拒绝放贷、还是转人工处理。...本文所讲的都是大致流程,没有深入展开分析,在之后的各期中会逐步展开这里所讲的每一小点,给所有需要从事模型的同学一点建议。 以上都是我在建模过程中的一点经验总结,有不正之处恳请指正!

1.9K20
领券