首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

关于模型的100个问答-part2

关于模型的100个问答-part2

距离过年还有8天,没错的,我跟你一样还没有休假。深圳这段时间是冷到刺骨了,就是冷到我今天才来更新,不要烦我每次都要说这段话,毕竟是生活中无处表达,只能在这抒发了。

上周的part1,感谢留言区的大神的回答,也补充了我知识的缺陷,谢谢!

今天能写多少的问题就写多少个问题哈,有些我是想到就写上去了,也希望在这篇文章也能有大神出没,这个系列就是把一些零碎的知识汇总一下。

1

1、我生成的评分,用哪个woe啊。

woe,一般情况下有三个数据集的woe,这个套路跟参数估计一个道理。

1、用训练集的woe,因为训练集的数据范围广,覆盖面广

2、用训练集+测试集的数据叠加在一起,算一个woe,数据比之前的更广。

3、用验证数据集的woe,接近现在的时间,可以代表当下的客户形态。但是验证的数据一般就是1 2个月的数据,所以覆盖面就不知道那么广。

我比较常用的是第二种方式。你这时候可能问,那参数估计要不要配套,我建议是配套,但是我只是建议~~

2

2、我做的模型,ks很高啊,为什么我A层的客户比B层客户逾期率还高?

这种情况经常发生,训练集中分层明明是完美分层,A-E逾期率依次递减,批核率依次递减,这时候你的验证集要是小的波动,要是a层比b层还高出5%的话,这就明显是世界对你狠狠的恨意了,处理建议:

1、把你这a层,要是全面一些就ab两层的坏客户都全拿出来,按照每个变量的得分,看下是那些变量让你的坏客户的跑到A层的,把这个变量替换成别的变量,重新拟合。

2、如果你的验证的ab层区分度不够,但是还是优于c层较多的,可以分层四层,把ab两层放在一起。对外就说,这个模型分成四层比较合适,谁规定一定要分5层的。

3、检查是不是你把白户放进去建模了,其实很多公司对白户这类客户都有点束手束脚,假设你把白户(征信空白)放进去,且这种查询次数为0且负债为0(征信报告)的得分较高的话,可能会出现一些逾期白户进入ab层。

3

3、为什么你一直说的都是逻辑回归?

在建模工作中,我会根据这个模型需不需要业务的解释,例如a卡,需要跟产品,审批汇报这种模型,业务重于模型效果嘛,你用了人家业务不认同的变量,还是会叫你改的嘛,所以会使用逻辑回归,还有另一方面,像a卡,本身就是衡量客户的一个偿债能力,大部分的变量呈现都是线性可分的,所以逻辑回归也相对有优势。

那么像反欺诈这种模型,不要跟业务反馈里面用到什么变量,因为反欺诈中的逻辑大部分就是交叉出逻辑上的错误,或者区别与普通客户的特征,你不要跟我说什么中介包装就跟真的一样,要是高端的中介包装,你们审核的人工都看不来,还想指望这用了几个变量的模型,不扯这个。那么这时候你的变量往往都是交叉验证性或者多个组合的,一句话,反欺诈没啥逻辑,都来欺诈,还把征信查询次数弄成最近三个月30次来申请不成,所以大部分的反欺诈模型的变量我自己都解释不了,那么这时候你用机器学习的方法就可以让模型更加难解释,有效果且稳定可用就成你这个模型的重点了。

4

4、客户信用分数分层的时候,怎么知道这层大概分多少?

针对有人工参与的模型,分数分层,以下我的建议建议建议(我只是建议,我的个人工作经验,每家公司标准不一样)如下:

A层:逾期率大概是总体逾期率的30%以下这样子,假设你的总体逾期率是10%,那么你的A层的逾期率大概就是1%-3%这样子,这层的客户人数占比大概是总体的4%-8%左右。

B层:逾期率大概是总体的一半左右,客户人数占比大概是总体客户数的10-15%。

C层:逾期率跟总体差不多,客户人数占比大概是总体客户数的30%-50%,一般我是AB两层以及DE两层进不了就到这里来了。

D层:逾期率大概是总体的1.2-1.4倍,客户人数占比大概是总体客户数的10-15%。

E层:逾期率大概是总体的1.5倍以上,具体看你们公司的容忍度,客户人数占比大概是总体客户数的4%-8%。

以上是我的建议!!!,建议!!!,知道我为什么一直强调是建议吗,知道吧,总有喜欢挑事的。

5

5、是不是进入逻辑回归的模型的woe都需要单调。

希望单调的原因是因为,逻辑回归对于线性可分的数据,效果会很明显,但是并不是你的变量进入模型都要单调,数据分析,首先最重要的是尊重数据的原始性,变量分组并不是为了等下的woe单调,而是利用分组把该变量的特征可以最大化。

举个例子,有个变量的5个组是0.07, 0.14,0.09,0.25,0.36,我是不建议你把为了有个单调的趋势,把0.14和0.09这两个组合并在一起的,假设你这个变量是你可以很大的自信认为,他就是越大客户质量越不好,那你合并我也不会劝你,但是再你拿不定这个变量是不是这种情况的时候,不要合并,检查一下是不是客户的通过率造成这种问题。

所以,最好的每个变量的woe单调最好,但是如果不单调,业务解释上过得去的呈现u字型的也是可以的。

6

6、 为什么我的随机森林过拟合?

随机森林回过拟合是常有的事,只是说能不能让他不要太过了,建议如下:

1、不要种那么多棵树。

2、取数的时候,范围尽量广一些,我是觉得取建模数据时候,不要就取近一个月的数据,特别像我们这种大额贷款的,每年中旬的会比其他时候单量要多一些,数据的时间跨度建议是在半年到一年,两年就太多了。

3、可以分组之后再进入模型

4、还有其他我想不到的,期待大神来留言区解答。

屁屁sas数据分析

铭仔,一个做评分卡的钢铁直男。

屁屁,一个做评分卡的

95年少女。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180206G0Z1OO00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券