首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ML | 建模怎么做拒绝推断

02 为什么要做拒绝推断 在我们的生活,有很多关于幸存者偏差的例子,比如我们身边的同事月收入都是过万,就误以为大多数人都是这样子,身边的人都是本科毕业,就以为大多数人都上过大学。...《建模的样本偏差与拒绝推断》https://zhuanlan.zhihu.com/p/88624987 不过我也还是把他文章里的分类体系在这里重点再次分享一下。...以上的5个步骤,就是实施拒绝推断推断法之一的展开法。...06 总结一下 本文算是一个对拒绝推断的入门介绍了,让初涉模型的同学有一个相对来说比较清晰的全局认识,这里面涉及到的很多算法模型上的细节并没有展开来讲,因为我觉得这也会让阅读带来比较大的负担,公众号的文章还是要控制在几分钟内读完比较合适...Reference [1] 异常检测算法分类及经典模型概览 https://blog.csdn.net/cyan_soul/article/details/101702066 [2] 建模的样本偏差与拒绝推断

1.6K30

ML | 的异常检测原理与应用

今天来介绍一下的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。...异常检测的概念 02 异常检测的难点 03 异常检测的分类及常见算法 01 异常检测的概念 异常检测(Anomaly Detection 或 Outlier Detection),又称为离群点检测,在我们领域很多地方都会用到...抽象来说,就是需要从一堆数据,找到那个“邻舍不同”(粤语)的点,并能够给出合理的判断和解释。 02 异常检测的难点 为什么说异常检测很难呢?...主要有几个原因: 1)异常点和噪声会混杂在一起,机器难以具体识别开来; 2)现实很少有异常点的标签,因为标签越多也就意味着遇到过的异常越多,也不符合常识认知; 3)对于标签的定义也是很难,比如1个金融场景...所以很多时候我们在操作的过程,会先用无监督方法挖掘出异常样本,再基于这些样本去做有监督模型挖掘更多的异常点,这中间也多了一层转化,所以准确率和置信度上也有一定的下滑。

2.6K20
您找到你想要的搜索结果了吗?
是的
没有找到

ML | 建模GBDT和XGBoost怎么调优

03 什么建模场景下常用这两个明星算法?...贷 B卡(行为评分卡):S级出场率。 交易反欺诈:A级出场率,主要是支付,防止客户进行薅羊毛、套现等行为。 客户流失:A级出场率。 贷后 催收告警:A级出场率。 迁徙率预测:B级出场率。...在模型我们经常也是用来做分类(Classification),但我们知道GBDT的基分类器是CART,即Classification And Regression Tree,所以也可以支持回归建模...而关于模型怎么调优,我会在下一节一起讲。...模型怎么调优 关于模型的调优,先前有篇文章讲得比较细致《ML[7] | 模型调优的思路有哪些》,大家可以移步去回顾一下。

1.3K30

的大数据

的意义 何为?字面含义就是对于风险的控制从而使财务不受到损失。对于任何一家金融机构(包括银行,小贷,P2P等)来说,的重要性超过流量、体验、品牌这些人们熟悉的指标。...国际上传统的方法 的核心是要准确预测每一笔借款违约概率。显而易见,这需要量化的工具,也就是模型。...x ,y:在美国,人们一般在上大学的时候就会拥有人生第一张信用卡。这样等到后续买房(房贷)买车(车贷)的时候,就已有了不短的信用历史了。...国内很多银行的流程和系统是从国外采购,很多风高管也是直接从国外银行引进的。 然而与国外相比,中国最大的差异在于征信体系的不完善。...大数据的挑战 伴随着机遇同样也有挑战。就像要有美味的菜肴,我们既需要好的材料,也需要好的厨师,当前大数据在运用的挑战主要还是在数据和人才这两方面。

1.5K120

建模的IV和WOE

建模IV(信息价值)和WOE(证据权重)分别是变量筛选和变量转换不可缺少的部分。 很多文章已经讨论过这两个变量,本文在吸收前人优秀成果的基础上,希望用通俗易懂的语言让大家快速理解这两个变量。...并用简单的例子让大家明白在实际如何运用这两个变量,最后给出建模过程实际需要用到的Python代码。 1....表 1 - 极端例子1(用第一种方法算WOE) 从表1可知,如果该分箱坏人在总坏人中的占比和的该分箱的好人在总好人中占比相同,WOEi为0。...表 3 - 极端例子2(算IV) 从表3知,该组别坏样本占比和好样本占比的差异性越大,该组WOEi的绝对值越大。...,针对不在组别1的数据另外进行分析。

2K30

的大数据和机器学习

本篇文章只关注个人信用借款的。抵押贷,企业贷不在讨论范围。 ◆ ◆ ◆ 1. 的意义 何为?字面含义就是对于风险的控制从而使财务不受到损失。...这其中除了一部分明显的自融欺诈外,大多数平台垮掉的原因还是不过关。 ◆ ◆ ◆ 2. 的核心 风险控制需要做什么?与逾期率的绝对数值相比,对风险的控制能力要重要得多。...国际上传统的方法 的核心是要准确预测每一笔借款违约概率。显而易见,这需要量化的工具,也就是模型。...国内很多银行的流程和系统是从国外采购,很多风高管也是直接从国外银行引进的。 然而与国外相比,中国最大的差异在于征信体系的不完善。...大数据的挑战 伴随着机遇同样也有挑战。就像要有美味的菜肴,我们既需要好的材料,也需要好的厨师,当前大数据在运用的挑战主要还是在数据和人才这两方面。

89630

必做的数据分析

大数据领域就没有不做数据分析的,大数据也不例外。 我的观点是和其他互联网业务都是互通的,本文介绍下风必做的数据分析,用以说明数据分析是一通百通的。 工欲善其事,必先利其器。...01 业务理解 如果一家金融机构聘请你给他们的业务做咨询,你知道怎么办吗? 别告诉我,你想硬搬建模比赛的那套东西。不要掉价。 解决方案一定是针对当前业务和用户客群独家定制的。...通过KYC,你可以大致知道发力的方向在哪里,是拓展新户还是挖掘存户,是提升能力还是优化产品设计,等等。 02 漏斗分析 进件漏斗分析可以帮助我们定位到产品设计的薄弱位置,从而针对优化。...vintage分析把不同期的样本放在了一起,可以用来观察不同期客群风险的变化,然后确定是流量本身的变化,还是宏观形形势的变化,还是策略的变化等等。...如大家所见,在领域所在的数据分析,应该和其他互联网领域的数分并无本质区别。 因为和其他业务一样,本质都是用户生命周期管理。基于相同的底层逻辑,数据分析必然也并无二致。

1.1K30

互联网金融的数据科学

宜人贷数据部数据科学家王婷根据自己在行业的实践经验和专业知识,从三方面来分享互联网金融的数据科学。 ? 背景 有了互联网之后,大家可以在线上进行理财借款。...传统都是使用一些基于规则的手段。线上随着用户量和数据量越来越大,我们会使用一些数据科学技术进行线上反欺诈规则的提取或智能欺诈风险发现。...知识图谱在金融的应用场景 互联网金融是一种机器学习的过程 互联网金融中风和机器学习一样要定义Y目标和X变量。 Y目标和普通机器学习Y目标的区别就在于正负比例非常悬殊。...建模的数据科学 ? 在整个,它是一个标准的机器学习流程。除了样本和数据与普通互联网机器学习不一样之外,其它基本都是一致的。...FinGraph是线上风险关键的一环 ? 总结:数据科学在互联网金融中发扬 图挖掘技术可以把风工作,从局部考量提升到全局考量。

2.6K50

建模SHAP值原理与Python实现

它基于博弈论的沙普利(Shapley)值,用于衡量每个特征对预测结果的影响。 在建模,SHAP库可以帮助理解哪些特征对贷款违约等风险预测的影响最大。...一、SHAP库的使用步骤 SHAP库在建模的使用步骤如下: 数据准备:首先,需要准备用于建模的数据集。这可能包括各种特征,如借款人的收入、信用评分、负债比率等。...三、SHAP值可视化、和模型特征重要性比较 1 导入数据 首先读取Python自带的鸢尾花数据,具体代码如下: # 导入并处理鸢尾花数据集 import pandas as pd from...iris.feature_names]) # 特征转DataFrame df['target'] = iris.target # 添加目标值 df = df[df.target.isin([0, 1 ])] # 取目标值的...至此,建模的shap值可视化已讲解完毕,如想了解更多建模内容,可以翻看公众号建模”模块相关文章。

85120

广告流量反作弊的模型应用

商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务,有效保证各方的利益;算法模型可有效识别策略无法实现的复杂作弊模型,本文首先对广告反作弊进行简介,其次介绍系统中常用算法模型...,以及实战过程具体算法模型的应用案例。...作弊流量主要来自于: 模拟器或者被篡改了设备的广告流量; 真设备,但通过群控制的流量; 真人真机,但诱导产生无效流量等。...二、广告流量反作弊算法体系 2.1 算法模型在业务应用背景 智能,运用大量行为数据构建模型,对风险进行识别和感知监控,相比规则策略,显著提升识别的准确性和覆盖率以及稳定性。...random forest) 2.2 广告流量模型算法体系 体系分四层: 平台层:主要是依托spark-ml/tensorflow/torch算法框架基础上,引用开源以及自定义开发的算法应用于业务建模

1.8K30

广告流量反作弊的模型应用

商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务,有效保证各方的利益;算法模型可有效识别策略无法实现的复杂作弊模型,本文首先对广告反作弊进行简介,其次介绍系统中常用算法模型...,以及实战过程具体算法模型的应用案例。...作弊流量主要来自于: 模拟器或者被篡改了设备的广告流量; 真设备,但通过群控制的流量; 真人真机,但诱导产生无效流量等。...二、广告流量反作弊算法体系 2.1 算法模型在业务应用背景 智能,运用大量行为数据构建模型,对风险进行识别和感知监控,相比规则策略,显著提升识别的准确性和覆盖率以及稳定性。...random forest) 2.2 广告流量模型算法体系 体系分四层: 平台层:主要是依托spark-ml/tensorflow/torch算法框架基础上,引用开源以及自定义开发的算法应用于业务建模

52320

【干货】建模把原始变量转成WOE实现

对于WOE原理不清楚的小伙伴,可以先看下本公众号之前的文章:建模的IV和WOE。 本文重点讲解用Python的toad库实现变量的WOE转换。...第一种: WOEi = ln(第i个分箱的坏样本数/总坏样本数)-ln(第i个分箱的好样本数/总好样本数) 此时可以理解为:对于第i个分箱,该箱坏样本在总坏样本的占比和该箱好样本在总好样本占比的差异性...表 1 - 极端例子1(用第一种方法算WOE) 从表1知,如果该箱坏样本在总坏样本的占比和该箱好样本在总好样本占比相同,WOEi为0。...至此,建模把原始变量转成WOE实现已讲解完毕 往期回顾: 一文囊括Python的函数,持续更新。。。 一文囊括Python的有趣案例,持续更新。。。...一文囊括Python的数据分析与绘图,持续更新。。。 一文囊括模型搭建(原理+Python实现),持续更新。。。

76130

建模的自动分箱的方法有哪些

03 如何评估分箱效果的好坏 04 设计一个基于建模的自动分箱轮子 01 分箱是什么意思,为什么要分箱,什么时候分箱? 分箱的意思就是将连续性变量通过几个划分点,分割成几段的过程。...Actually,对于评分卡的大多数模型,是可以的,只不过有些模型,如果直接把连续变量进入模型的话,带来的模型效果会不太理想。...那么,下面我将从两类我们常用的模型来说下: 1)LR:本身属于线性模型,表达能力有限,将变量分箱后意味着引入了更多的非线性特征,有助于提升模型拟合能力,一般情况下都进行WOE分箱之后再进入模型; 2...(一般是卡方值都高于设定的阈值,或者达到最大分组数等等) 基于最优KS的连续变量最优分箱 KS相信大家也都不陌生,可以稍微回顾下《建模的KS》 ,不过这里的KS值不是基于模型计算的,而是基于变量计算的...《建模的WOE与IV》 04 设计一个基于建模的自动分箱轮子 一般来说,如果要造一个基于建模的连续变量分箱框架,需要考虑什么内容呢?

2.6K31

23年3月推广大使额外奖励规则

【重要规则说明】推广大使应在腾讯云推广许可范围内,使用正当的手段方式进行推广,不应进行任何欺骗或虚假性质的推广行为,包括但不限于:1、与其他推广大使、或被推广客户相互串通,弄虚作假,恶意刷单,骗取活动奖励...三、新春采购节新手推广大使邀新奖励3月1日0点 - 3月31日24点,新会员和1星会员的推广大使领取任务后,拉新客户数≥2,且单笔订单金额≥¥60,即可一次性获得2次抽奖机会。...四、新春采购节高价值客户额外返佣奖励3月1日0点 - 3月31日24点,推广高价值订单可额外奖励返佣5%,单笔佣金上限限时膨胀至¥5000!...cloud.tencent.com/act/pro/Cloudpages2、轻量数据库:https://cloud.tencent.com/act/pro/lighthouse2021六、活动说明1、参与方式:推广大使参与【新春采购节新手推广大使邀新奖励...】和【新春采购节高价值客户额外返佣奖励】两个活动,都需在活动有效期内(3月1日 - 3月31日)主动领取任务,若推广达标但在活动结束前未领取任务,则无法统计和获得额外奖励。

35.5K390

23年2月推广大使额外奖励规则

【重要规则说明】推广大使应在腾讯云推广许可范围内,使用正当的手段方式进行推广,不应进行任何欺骗或虚假性质的推广行为,包括但不限于:1、与其他推广大使、或被推广客户相互串通,弄虚作假,恶意刷单,骗取活动奖励...----一、 新春采购节新手推广大使邀新奖励2月16日0点 - 2月28日24点,新会员和1星会员的推广大使领取任务后,拉新客户数≥2,且单笔订单金额≥¥60,即可获得2次抽奖机会。...图片 二、 新春采购节高价值客户额外返佣奖励2月16日0点 - 2月28日24点,推广高价值订单可额外奖励返佣5%,单笔佣金上限限时膨胀至¥5000!...四、活动说明1、参与方式:推广大使参与【新春采购节新手推广大使邀新奖励】和【新春采购节高价值客户额外返佣奖励】两个活动,都需在活动有效期内(2月16日 - 2月28日)主动领取任务,若推广达标但在活动结束前未领取任务...4、活动邀请实时进度查看:腾讯云推广大使邀新奖励>最新活动图片5、中奖记录查看图片更多3月新春采购节额外激励奖励敬请期待!

40.4K210

信贷是如何做拒量回捞的?

本篇来介绍下风的拒绝回捞策略,内容节选自《100天专家》第65期。 1. 什么是拒绝回捞? 拒绝回捞是指 “被拒绝的客户重新通过的过程”。 广义理解上等同于做A类调优,涵盖各类调优方法。...狭义理解上,是决策流程的一个回捞动作,或者回捞节点,如下图所示。 从图形化更形象的角度解释,相当于在已经策略规则拒绝客户中上再切出一刀进行通过,且通过的大部分需为好客户。 2....比如下面示例,被政策和黑名单命中的客户会直接拒绝,不进行任何回捞动作,因为这个两个属于原则性的底线,因此在配置决策流程上需注意不可对此类客户回捞。 2)确定需回捞对象,要对哪些拒绝客户回捞?...以上来自东哥原创课程的节选。

13310

策略如何制定差异化利率定价方案

策略如何制定差异化利率定价方案 前言 一、框架设计 二、流程设计 三、方案测算 四、策略上线 总结 ---- 前言 一个产品上线后,随着规模的扩大,基于风险收益的匹配原则,以及差异化营销的管理要求...二、流程设计 根据(一)的框架设计,先对客户进行特征分群,在每一个客户群体上跑我们常用的风险分层模型,这里的模型分布需符合以下规律:随着模型组数的增大,客户质量下降,其授信通过率降低,平均授信额度降低...策略上线 各公司用的策略部署平台都不同,这里不对策略的部署的操作过程进行赘述,在这个环节我们需要注意几个问题: 先开发变量,再进行流程部署; 注意变量的局部性和全局性,特别针对同一个变量需要在一个策略多次调用

1.3K20

视觉:人工智能在风险管理的革新应用

视觉技术,作为人工智能领域的一项重要应用,正在帮助企业和组织提高其风险管理的效率和准确性。本文将探讨视觉技术能做哪些工作,以及这些工作如何用于。...视觉技术概览 视觉技术利用深度学习、计算机视觉等先进技术,对图像内容进行智能分析和风险评估。这项技术能够自动检测图像的异常行为、不当内容和潜在风险,为风险控制提供了强有力的支持。...视觉的主要工作 1. 人脸相似度检测 通过与黑名单库的人脸数据进行比对,视觉技术能够快速识别图像的人脸是否与已知的风险个体相似。...模型训练与评估 模型训练是视觉技术的关键步骤。需要注意以下几点: 数据预处理:包括图像的标准化、归一化以及数据增强,如旋转、缩放等,以提高模型的鲁棒性。...合规性检查:在需要严格着装规范或特定操作标准的行业,视觉技术能够帮助企业确保员工遵守规定。

18210
领券