前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >四个xgb模型融合拿下金融风控冠军,是如何做特征工程的?(附代码+PPT+数据)

四个xgb模型融合拿下金融风控冠军,是如何做特征工程的?(附代码+PPT+数据)

作者头像
机器学习AI算法工程
发布于 2019-10-28 07:44:57
发布于 2019-10-28 07:44:57
5.8K0
举报
金融平台提供了近7万贷款用户的基本身份信息、消费行为、银行还款等数据信息,需要参赛者以此建立准确的风险控制模型,来预测用户是否会逾期还款。

代码+数据集+PPT 获取方式

关注微信公众号 datayx 然后回复 风控 即可获取。

随着人工智能大数据等技术不断渗透,依靠金融科技主动收集、分析、整理各类金融数据,为细分人群提供更为精准的风控服务,成为解决消费金融风控问题的有效途径。简言之,如何区别违约风险用户,成为金融领域提供更为精准的风控服务的关键。

基于本赛题,大数据金融的违约用户风险预测,本文解决方案具体包括以下步骤:

1.对用户的历史行为数据预处理操作;

2.根据历史行为划分训练集数据、验证集数据;

3.对用户历史数据进行特征工程操作;

4.对构建特征完成的样本集进行特征选择;

5.建立多个机器学习模型,并进行模型融合;

6.通过建立的模型,根据用户历史行为数据对用户在未来一个月是否会逾期还款进行预测。

其中,图1展示了基于大数据金融的违约用户风险预测解决方案的流程图。

二、数据洞察

2.1数据预处理

1.异常值处理:针对数据中存在未知的异常值,采取直接过滤的方法进行处理会减少训练样本数量,从这里出发,将异常值用-1或者其他有区别于特征正常值的数值进行填充;

2.缺失值的多维度处理:在征信领域,用户信息的完善程度可能会影响该用户的信用评级。一个信息完善程度为100%的用户比起完善程度为 50%的用户,会更加容易审核通过并得到借款。从这一点出发,对缺失值进行了多维度的分析和处理。按列(属性)统计缺失值个数,进一步得到各列的缺失比率,按对数据进行多维度处理,其中为数据集中某属性列缺失值个数,C为样本集总数,为数据集中该属性列缺失率:

3.其他处理:空格符处理,某些属性取值包含了空格字符,如“货到付款”和“货到付款 ”,它们明显是同一种取值,需要将空格符去除;城市名处理,包含有“重庆”、“重庆市”等取值,它们实际上是同一个城市,需要把字符中的“市”全部去掉。去掉类似于“市”的冗余之后,城市数目大大减少。

2.2发现时序关系

根据用户历史数据,统计违约数量和未违约数量跟时间周期的关系,可视化实现如下图所示:

图2 违约数量和未违约数量跟时间周期的关系图

可以看出,时间对用户是否违约是成一定周期性的,且2017年明显比2016年的数量增加了很多,因此本文解决方案涉及很多时序特征。

2.3划分训练集、验证集

对违约用户风险预测是一个长期且累积的过程,采取传统的按训练和测试集对应时间段滑窗法划分数据集并不是最佳方案,从这里出发,将历史用户数据全部用于训练集,更好的训练用户行为习惯,其中,验证集的构建采取交叉验证的方式,交叉验证如下图所示:

三、特征工程

3.10-1特征

主要基于auth、credit、user表提取,这三张表的id没有重复。

(1)标记auth表的Id_card、auth_time、phone是否为空;标记credit表的credit_score、overdraft、quota是否为空;标记user表的sex、birthday、hobby、merriage、income、id_card、degree、industry、qq_bound、wechat_bound、account_grade是否为空。

(2)标记auth表的Id_card、auth_time、phone是否正常(不为空);标记credit表的credit_score、overdraft、quota是否正常(不为空);标记user表的sex、birthday、hobby、merriage、income、id_card、degree、industry、qq_bound、wechat_bound、account_grade是否正常(不为空)。

3.2信息完整度特征

主要基于auth、credit、user表提取,标记这三张表每条样本的信息完整度,定义为该条样本非空的属性数目/总属性数目。

3.3one-hot特征

主要基于user表提取。

One-hot离散user表的sex、merriage、income、degree、qq_bound、wechat_bound、account_grade属性。

3.4业务特征

基于业务逻辑提取的特征,最有效的特征,主要基于credit、auth、bankcard、order表提取。

(1)用户贷款提交时间(applsbm_time)和认证时间(auth_time)之差

(2)用户贷款提交时间(applsbm_time)和生日(birthday)之差

(3)信用评分(credit_score)反序

(4)信用额度未使用值(quota减overdraft)

(5)信用额度使用比率(overdraft除以quota)

(6)信用额度使用值是否超过信用额度(overdraft是否大于quota)

(7)银行卡(bankname)数目

(8)不同银行的银行卡(bankname)数目

(9)不同银行卡类型(card_type)数目

(10)不同银行卡预留电话(phone)数目

(11)提取order表的amt_order次数、type_pay_在线支付、type_pay——货到付款、sts_order_已完成次数,按id对order表去重,保留id重复的第一条样本

四、特征筛选

特征工程部分,构建了一系列基础特征、时序特征、业务特征、组合特征和离散特征等,所有特征加起来高达数百维,高维特征一方面可能会导致维数灾难,另一方面很容易导致模型过拟合。从这一点出发,通过特征选择来降低特征维度。比较高效的是基于学习模型的特征排序方法,可以达到目的:模型学习的过程和特征选择的过程是同时进行的,因此我们采用这种方法,基于 xgboost 来做特征选择, xgboost 模型训练完成后可以输出特征的重要性(见图2),据此我们可以保留 top n 个特征,从而达到特征选择的目的。

五、模型训练

本文共计四个xgb模型,分别进行参数扰动、特征扰动,单模型效果均通过调参和特征选择,保证单模型最优,按四个模型不同比例融合,最终生成模型结果。

七、创新点

7.1特征

原始数据集很多属性比较乱,清洗了例如日期这样的属性方便特征提取;加入了信息完整度特征,很好地利用到了含有空值的样本;对于order这个id含有重复的样本,尝试了提取特征后按时间去重和按第一条和最后一条去重,发现按第一条去重效果是最好的,很好地使用到了order的信息;通过特征的重要性排序筛选了特征,也发现了提取的业务相关的特征是最重要的。

7.2模型

模型的创新点主要体现在模型融合上。考察指标为AUC,侧重于答案的排序。在进行加权融合时,先对每个模型的结果进行了归一化,融合效果很好。

八、赛题思考

清洗数据非常重要,像时间这样的属性非常乱,处理起来也比较麻烦,我们只是简单地进行了处理,如果能够更细致的处理效果应该更好;某些属性,例如hobby,内容太复杂没有使用到,但这个属性肯定包含了许多有价值的信息,但遗憾没有发现一个好的处理方式。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-09-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
[AI学习笔记]DeepSeek 在金融风控中的特征工程实践
在金融行业中,风险控制是保障业务稳健发展的核心环节。无论是信用卡审批、贷款发放,还是投资组合管理,精准的风险评估都依赖于高质量的数据特征。DeepSeek 作为一款强大的 AI 驱动平台,通过创新的特征工程实践,为金融风控提供了全新的解决方案。
数字扫地僧
2025/04/01
1350
[AI学习笔记]DeepSeek 在金融风控中的特征工程实践
文末福利|特征工程与数据预处理的四个高级技巧
用于创建新特征,检测异常值,处理不平衡数据和估算缺失值的技术可以说,开发机器学习模型的两个最重要的步骤是特征工程和预处理。特征工程包括特征的创建,而预处理涉及清理数据。
磐创AI
2019/08/26
1.2K0
文末福利|特征工程与数据预处理的四个高级技巧
特征选择技术总结
在本文中,我们将回顾特性选择技术并回答为什么它很重要以及如何使用python实现它。
deephub
2023/01/18
6330
【案例】京东金融——消费金融,一场未来大数据风控的盛宴
数据猿导读 2014年2月,京东金融推出消费金融产品-京东白条,其主要目标人群以年轻人群为主,用户购物时通过“白条”的方式实现分期支付,且无需任何抵押物,授信额度最高为1.5w元,分期时间从3-24个
数据猿
2018/04/19
3.4K0
【案例】京东金融——消费金融,一场未来大数据风控的盛宴
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)xgboots/lightgbm/Catboost等模型--模型融合:stacking、blend
赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。
汀丶人工智能
2023/05/17
5.3K0
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)xgboots/lightgbm/Catboost等模型--模型融合:stacking、blend
金融风控评分卡建模全流程!
本文将带领读者一起进行完整的建模全流程,了解银行风控是如何做的。并提供kaggle代码。首先讲述评分卡的分类、优缺点。接下来,结合完整的可以马上运行的代码,中间穿插理论,来讲解评分卡的开发流程。最后,把方法论再梳理一次,让读者在了解全流程后,在概念上理解再加深。
Datawhale
2021/03/11
9.6K2
金融风控评分卡建模全流程!
Kaggle大赛:债务违约预测冠军作品解析
翻译 | MOLLY 选文&校对整理 | 寒小阳 ◆ ◆ ◆ 债务违约预测 债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面。其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策。其二是债权人可以预测这个债务人何时会陷入到财务方面的困境。最终目的是,通过预测未来两年内债务违约的概率,来改进现有的信用评分制度。这是一个极度复杂和困难的Kaggle挑战,因为银行和各种借贷机构一直都在不断地寻找和优化信用评分的算法。这个模型是银行用来判定是否准许某
大数据文摘
2018/05/25
2.4K0
机器学习在金融风控的经验总结!
由于金融风控场景的特殊性,很多算法同学在刚进入这个领域容易“水土不服”,为了使机器学习项目(也包括图算法相关的应用)落地更加顺利,本文介绍下实践过程的一些经验和踩过的坑。
Sam Gor
2020/09/22
1.8K0
机器学习在金融风控的经验总结!
风控特征的关系网络特征工程入门实践
常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放在一起评估风险。因此,关系网络特征可作为常规RFM特征的一个有力补充,为风控模型带来可预见的增量效果。
Sam Gor
2020/02/17
1.1K0
风控特征的关系网络特征工程入门实践
CART算法解密:从原理到Python实现
CART(Classification and Regression Trees)算法是一种用于分类和回归任务的决策树模型。这一模型由Breiman等人于1986年提出,现如今已广泛应用于各种数据挖掘任务和机器学习问题。
TechLead
2023/10/21
5910
CART算法解密:从原理到Python实现
4步教你开发风控评分模型
作者简介 作者:郑旻圻 邹钰 刘巧莉 背景:数信互融-数据分析师 数信互融(IFRE):专注于互联网金融领域的风险量化、资产定价。基于互联网金融行业数据,结合互联网金融大数据,应用国际上专业化的分析手段,提供信用评估模型、决策引擎和资产证券化等服务,帮助互联网金融行业预测债权的风险溢价、实现资产定价以及解决互联网金融行业资产流动性问题。 “你的模型准么?” “你的模型真的有用么?” “你的模型对风控有价值么?” 在为P2P公司建立风控评分模型过程中,这是最常见的问题。为了回答这一问题,我们想先讨论下如何
机器学习AI算法工程
2018/03/13
3.9K0
4步教你开发风控评分模型
评分卡系列(二):特征工程
企鹅号小编
2018/01/08
2K0
评分卡系列(二):特征工程
【钱塘号专栏】揭秘互联网金融的大数据风控
大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另外一个是大数据风控,典型的场景是互联网金融的大数据风控。 金融的本质是风险管理,风控是所有金融业务的核心。典型的金融借贷业务例如抵押贷款、消费贷款、P2P、供应链金融、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。 传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个纬度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据纬度为十个左右,包含年龄、职业、收入、学历、工
钱塘数据
2018/03/02
1K0
新人赛《金融风控贷款违约》避坑指南!
本文以天池的金融风控赛为背景,梳理了金融风控的整个实践流程,帮助大家避坑学习。赛事的场景是个人信贷,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这个问题在现实的风控场景中很常见,属于典型的分类问题。另外,准入模型,评分卡模型皆是属于这个范畴。
Datawhale
2020/10/23
3K0
新人赛《金融风控贷款违约》避坑指南!
使用sklearn做特征工程
目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换   2.6 回顾 3 特征选择   3.1 Filter     3.1.1 方差选择法     3.1.2 相关系数法     3.1.3 卡方检验     3.1.4 互信息法   3.2 Wrapper     3.2.1 递归特征
机器学习AI算法工程
2018/03/14
2.3K0
使用sklearn做特征工程
信贷风控模型搭建及核心风控模式分类
一、当前风控模式现状 近年来,信用风险管理发展呈现出数据化、模型化、系统化、自动化和智能化的特点。传统的人工专家经验正逐步被模型与算法替代。 因此,科技较为领先的金融服务公司会选择采用模型方式完成对借款人的自动评估与审批。目前,对于信贷审核来说主要基于的风控模式为IPC、信贷工厂、大数据三种,每一种都有自己不同的侧重点。 二、最核心的风控模式分类 1.IPC模式 IPC模式起源于德国邮储银行,该模式重视实地调查和信息验证,主要通过对客户经理调查走访、信息交叉验证等方面。需要对客户经理进行至少2个月以上的专业技术培训,提升客户经理辨别虚假信息能力和编制财务报表的技能,从而防范信用风险。 IPC公司信贷技术的核心,是评估客户偿还贷款的能力。主要包括三个部分:一是考察借款人偿还贷款的能力,二是衡量借款人偿还贷款的意愿,三是银行内部操作风险的控制。每个部分,IPC都进行了针对性的设计。 这种模式主要运用于数据缺失、不具备财务管理环境、银行流水不完整,信用记录空白等的小微企业,其中,信贷员负责整个过程,从接受客户的申请到信用检查、现场信用、风险评估再到匹配贷款、付款催收和逾期付款。对信贷员的专业技能要求较高,信贷员对贷款全流程把关,一定程度上确保了项目的真实性。但又因为是以信贷员为核心,以信贷员的判断为依据,有一定的操作风险与道德风险。 2.信贷工厂模式 信贷工厂模式是新加坡淡马锡控股公司(Temasek Holdings)为解决小微企业信贷流程的弊端,推出了一种改善小微企业信贷流程的“信贷工厂”模式,“信贷工厂”意指银行像工厂标准化制造产品一样对信贷进行批量处理。 具体而言,就是银行对中小企业贷款的设计、申报、审批、发放、风控等业务按照“流水线”作业方式进行批量操作。在信贷工厂模式下,信贷审批发放首先要做到标准化,每个流程都有确定的人员分工,如客户经理、审批人员和贷后监督人员专业化分工。并且为了监控风险采用产业链调查方法,从不同角度对借贷企业进行交叉印证。 信贷工厂模式的特点是效率高,可以进行量化审核。过程之间环环相扣,对每个环节都有专人把控具体的把控。正因为这样,意味着需要消耗大量的人力成本,每个流程都需要对口的人员做支撑。 3.大数据模式 大数据风控模式是指通过对海量的、多样化的、实时的、有价值的数据进行采集、整理、分析和挖掘,并运用大数据技术重新设计征信评价模型算法,多维度刻画信用主体的“画像”,向信息使用者呈现信用主体的违约率和信用状况。 大数据模式是基于互联网的兴起,该模式利用互联网数据的连通性,对触及到的风险的数据进行筛选,大大减少了人工审核的时间成本,同时也保证了数据结果的真实性。 三、P2P公司个人信贷评分卡模型 我们先讨论下如何从实际业务出发,以怎样的开发流程才能建立一个有效、有用、有价值的模型,希望读后能给你一定的启发。
全栈程序员站长
2022/08/14
2.5K0
Python数据分析与机器学习在金融风控中的应用
金融风控是金融机构确保其业务健康运行、减少损失的重要手段。随着大数据和人工智能技术的发展,利用Python进行数据分析和机器学习可以为金融风控提供强有力的支持。本文将探讨Python在金融风控中的应用,详细介绍如何利用Python进行数据收集、预处理、机器学习建模和评估,以提升金融风控的准确性和效率。
屿小夏
2024/06/18
3390
【数学建模】——【A题 信用风险识别问题】全面解析
信用风险识别在金融行业和个体借贷过程中扮演着至关重要的角色。其核心任务是通过分析借款方的个人和财务信息等信息,评估其偿还贷款的能力和意愿,从而降低贷款机构的风险暴露。信用风险评价的准确性直接关系到贷款机构的资产质量和经济健康。因此,建立准确可靠的信用风险评价模型对于金融机构和借款方都具有重要意义。
小李很执着
2024/08/05
4880
一文看懂风控模型所有
在当代,金融机构在风险管理的每个环节都尽可能地引入计量分析方法,依托大数据进行后台的分析回顾,不断的优化调整,使得金融机构在风险与收益的博弈过程中更快达到平衡,实现局部甚至更多空间的利润最大化。
全栈程序员站长
2022/09/06
7K0
一文看懂风控模型所有
基于Python的信用评分模型开发-附数据和代码
文章链接 | https://zhuanlan.zhihu.com/p/35284849
Python数据科学
2019/08/19
4.9K0
基于Python的信用评分模型开发-附数据和代码
推荐阅读
相关推荐
[AI学习笔记]DeepSeek 在金融风控中的特征工程实践
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文