首页
学习
活动
专区
工具
TVP
发布

大数据风控

专栏作者
57
文章
129329
阅读量
60
订阅数
Python中的虚拟变量(dummy variables)
虚拟变量(dummy variables) 虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。 ① 离散特征的取值之间有大小的意义 例如:尺寸(L、XL、XXL) 离散特征的取值有大小意义的处理函数map pandas.Series.map(dict) 参数 dict:映射的字典 ② 离散特征的取值之间没有大小的意义 pandas.get_dummies 例如:颜色(Red,Blue,Green) 处理函数: get_dummies(data,prefix=None,pref
Erin
2018-01-09
3.3K0
Python中的数据标准化
数据标准化 数据标准化是指将数据按比例缩放,使之落入到特定区间。 为了消除量纲的影响,方便进行不同变量间的比较分析。 0-1标准化: x=(x-min)/(max-min) Python代码实现: import pandas data = pandas.read_csv( 'D:\\PDA\\4.14\\data.csv' ) data['scale'] = round( ( data.score-data.score.min() )/( data
Erin
2018-01-09
1.3K0
Python中重复值、缺失值、空格值处理
1、重复值处理 把数据结构中,行相同的数据只保留一行。 函数语法: drop_duplicates() 删除重复值newdf=df.drop_duplicates() from pandas import read_csv df = read_csv('D://PDA//4.3//data.csv') df #找出行重复的位置 dIndex = df.duplicated() #根据某些列,找出重复的位置 dIndex = df.duplicated('id') dIndex = df.duplic
Erin
2018-01-09
3.9K0
R中的向量化运算
1、R中的向量化运算-seq seq(1, 10, by=1) seq(1, 10, by=0.1) seq(1.9, 10, by=0.1) #注意,不能这样子递减 seq(10, 1, by=0.1) #注意,你可以这样子递减 seq(10, 1, by=-0.1) #除了设置步长,还可以设置均分的步数 seq(10, 1, length.out=10) seq(10, 1, length.out=100) seq(10, 1, length.out=91) #数清楚里面的个数 2、R中
Erin
2018-01-09
1.9K0
R中的数据导入与导出
1、数据的导入 导入文本文件 使用read.table函数导入普通文本文件 read.table(file,header=FALSE,sep="",...) #导入csv文件 data1 <- rea
Erin
2018-01-09
2.3K0
如何在Python中实现RFM分析
本文介绍了如何利用Python实现RFM分析。首先,介绍了RFM分析的基本概念,然后详细讲解了如何在Python中实现这个过程。主要包括计算RFM各项分值、归总RFM分值、根据RFM分值对客户分类以及具体的算法实现。最后,介绍了在Python中应用RFM分析的示例代码。
Erin
2018-01-09
3.8K0
评分卡模型开发-数据集准备
本文通过介绍一种信用风险评级模型的开发过程,包括数据准备、特征选择、模型训练和模型验证等步骤。在数据准备阶段,需要清洗和处理原始数据,使其适用于模型训练。在特征选择阶段,需要确定哪些特征对信用风险的影响最大,并将其纳入模型。在模型训练阶段,需要选择合适的模型和参数,并进行训练。在模型验证阶段,需要使用测试集对模型进行验证,并计算模型的区分能力。最后,通过五折交叉验证的方法,选出稳定性和区分能力最优的模型,作为最终的信用风险评级模型。
Erin
2018-01-09
1K0
评分卡模型开发-定量指标筛选
本文介绍了在模型开发中,如何从数据中筛选出对违约状态影响最显著的指标。首先介绍了违约状态的数据特点,然后给出了五种定量指标筛选方法,包括随机森林法、计算变量间的相对重要性、基于自变量的逐步回归法、基于自变量的广义交叉验证法和基于变量的“Boruta”法。最后,综合这五种方法,筛选出了对违约状态影响最显著的四个入模指标,分别为:账户状态、是否逾期、是否申请提高额度和申请额度是否获批。对于定性指标,则通过文本挖掘的方法提取了“是否逾期”和“是否申请提高额度”两个入模指标。通过这些指标,可以更好地预测客户的违约状态,为金融机构提供更精准的风险评估和决策依据。同时,在筛选指标的过程中,要注意指标的可解释性和稳定性,以确保模型的预测效果和泛化能力。
Erin
2018-01-09
1.1K0
评分法模型开发-WOE值计算
本文介绍了信用风险计量模型开发的一个关键步骤,即如何确定信用风险计量的指标体系和权重。作者详细解释了信用风险计量模型的开发过程,包括数据清洗、特征选择、模型训练和模型验证。在模型开发过程中,作者使用了多个定量和定性指标,并采用了基于逻辑回归的WOE编码来处理定性指标。最终,作者构建了一个信用风险计量模型,并提供了该模型的详细解释。
Erin
2018-01-09
1.4K0
评分卡模型开发-基于逻辑回归的标准评分卡实现
由逻辑回归的基本原理,我们将客户违约的概率表示为p,则正常的概率为1-p。因此,可以得到: 此时,客户违约的概率p可表示为: 评分卡设定的分值刻度可以通过将分值表示为比率对数的
Erin
2018-01-09
4.5K0
评分卡模型开发-主标尺设计及模型验证
上一步中开发的信用风险评分卡模型,得到的是不同风险等级客户对应的分数,我们还需要将分数与违约概率和评级符号联系起来,以便差异化管理证券公司各面临信用风险敞口的客户,这就需要对证券公司各面临信用风险敞口
Erin
2018-01-09
1.7K0
懒癌必备-dplyr和data.table让你的数据分析事半功倍
本文介绍了如何使用dplyr和data.table两个R包进行数据清洗、数据加工和数据分析,通过几个实际案例展示了dplyr和data.table的常用功能和高效操作。
Erin
2018-01-09
2.4K0
数据分析中非常实用的自编函数和代码模块整理
本文介绍了两个用于数据预处理的函数,具体是用于处理缺失值和异常值的。这些函数可以极大地提高数据预处理的速度,方便进行后续的建模和结果分析。
Erin
2018-01-09
9950
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档