首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据准备(四)-造衍生变量

Hello everyone,有很长一段时间未更新评分卡系列了,大家是不是以为梁校长转幕后了(HaHa),其实大家从这近一个月我公众号的文章也发现有很多区块链技术和数字货币的原创和转载文章分享给大家,细心的朋友应该也看出来2018年公众号系列文章会有新的系列内容《区块链技术和数字货币》。

近一个月我查阅了大量的关于block chain和Bitcoin相关的论文和视频,重点了解以下方向:

1、区块链技术的开发应用;

2、如何分析全球加密货币的市场趋势(比如比特币、以太币、莱特币、瑞波币以及国内的小蚁币等等);

3、如何选择安全交易所买卖加密货币(比如HK的Bitfinex、欧洲的Kraken、美国的Bittrex等交易所);

4、交易加密货币后的安全存储(比如选择加密货币的热钱包、冷钱包)。

计划春节后可以为大家组织一场关于区块链和加密货币交易的线下交流分享会,活动具体时间地点随后通知,大家可以先留意微信公众号的文章!

OK,我们回归今天的主题,评分卡开发在数据整理好之后,我们的重点工作就是创造衍生变量了!

造衍生变量是整个开发评分卡模型过程中最重要、最艰辛也最有趣的一个节点。最重要是因为衍生变量的好坏往往会影响评分卡模型的各种测评指标,决定策略的反欺诈能力;最艰辛是因为造衍生变量除了要基于业务变量理解之外还要开发人员大开脑洞组合基础变量,有很多时候花了一天时间造好一两个衍生变量但最后都进不了模型,这个时候就又要重新去开脑洞进行变量的组合。当然现在也可以结合一些算法比如DT、Random Forrest进行特征工程造衍生变量,但是造好的变量是否可以进入评分卡模型以及是否容易在策略引擎上部署等问题又要反复校验(Of course如果你公司是基于Python或则R自主开发的strategy system,那衍生变量的部署就变的比较方便);最有趣当然好理解啦,因为造变量过程的艰辛,整个评分卡开发流的重要性决定了我们造好变量进入模型上线部署的成就感!

那么大家可能会问,到底如何造衍生变量呢?

It depends on you!

既然我说了造衍生变量是一个开脑洞的活儿,每个人的脑洞又不一样,当然没有一个绝对的逻辑或者公式去套用了。大家会不会发飙:那你写这篇文章岂不是浪费我时间!我怎么会搬起石头砸自己的脚呢,绝对的逻辑或者公式是没有,但是我可以教大家一些造变量的小技巧和小套路,帮助大家可以很快的开启脑洞造出变量IV很高的好变量。

Tips1:善用产品准入规则变量,弱弱联合会变强;

Tips2:多参考Strategy变量,往往有意想不到的效果;

Tips3:风控核心防欺诈,设身处境去思考;

Tips4:风控基本出发点是评估个人还款能力和还款意愿;

Tips5:合理利用一些算法,省时省力又高效;

前四点我不能在文章里展开说,因为我本身就是做风控模型和策略的,如果展开说的太细文章转载到一些欺诈老赖手上,利用这些思路就比较容易测出风控策略规则,给老东家以及新任公司带来一些不必要的损失,这一点不是我愿意看到的。

那我在文章里就给大家简单展开说说Tips5怎么做!

前面我也说了,我们可以结合一些分类算法比如DT、RF去做一些特征工程得到一些衍生变量。就以DT决策树为例,因为决策树操作简单结果也直观易懂。大家如果不熟悉决策树算法的话可以去《算法模型基础》系列文里去看栗老师写的有关决策树的相关文章。

因为我们希望交互式的调整控制决策树的深度和枝叶,所以我推荐大家使用SAS EM去进行快速操作。

下面是一些在SAS EM做决策树的操作流程图

实际操作中大家需要注意以下几点:

1、决策树节点前先做数据分区,筛选出Train data和Validate data;

2、注意调整决策树节点的属性栏,重点可以聚焦在拆分规则、节点、交互式抽样里的条件设置;

3、交互式决策树在属性-训练-交互式打开;

4、在打开的交互式决策树里进行节点的拆分、训练以及修建节点;

5、注意关注决策树里训练样本和验证样本好坏比例的变动幅度;

从最后一张图可以看到,我们通过决策树拆分发现有三个变量可以进行衍生组合:credit_month、age、education_grade,同时决策树的每一条分支就是拆分的分组,在SAS EM里通过决策树算法我们就可以快速高效的做一些变量的衍生,再结合实际业务需要和稳定性等考虑,最终衍生出我们需要的变量。

使用SAS EM的具体操作步骤我在文章里就不多展开说了,因为每一个属性栏的设置和节点的拆分逻辑都有大量的内容。如果大家需要使用SAS EM做衍生变量,可以去看下Tony老师的【品质课程】金融审批策略分析进阶篇,里面最后一章重点详细的讲解使用SAS EM决策树去做变量切分衍生。

当然使用决策树去做变量衍生也可以纯基于SAS代码,有兴趣的朋友可以去看看罗老师的【品质课程】金融行为评分卡,里面有基于SAS代码快速开发决策树模型去造变量。

好了,这次金融申请评分卡数据准备第四阶段-造衍生变量就先介绍到这里,多想多尝试,希望这篇文章可以帮助到大家造出自己自豪的变量!

文章结尾希望大家多多转发支持,您的转发分享是我们继续坚持分享下去的动力!

That’s all!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180129G03K4B00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券