腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据风控

专栏作者

57

文章

129329

阅读量

60

订阅数

Python中的虚拟变量(dummy variables)

数据处理 python

虚拟变量(dummy variables) 虚拟变量，也叫哑变量和离散特征编码，可用来表示分类变量、非数量因素可能产生的影响。 ① 离散特征的取值之间有大小的意义例如：尺寸(L、XL、XXL) 离散特征的取值有大小意义的处理函数map pandas.Series.map(dict) 参数 dict:映射的字典 ② 离散特征的取值之间没有大小的意义 pandas.get_dummies 例如：颜色(Red,Blue,Green) 处理函数： get_dummies(data,prefix=None,pref

2018-01-09

3.3K0

Python中的数据标准化

python 数据处理

数据标准化数据标准化是指将数据按比例缩放，使之落入到特定区间。为了消除量纲的影响，方便进行不同变量间的比较分析。 0-1标准化： x=(x-min)/(max-min) Python代码实现： import pandas data = pandas.read_csv( 'D:\\PDA\\4.14\\data.csv' ) data['scale'] = round( ( data.score-data.score.min() )/( data

2018-01-09

1.3K0

Python中重复值、缺失值、空格值处理

python 数据处理

1、重复值处理把数据结构中，行相同的数据只保留一行。函数语法： drop_duplicates() 删除重复值newdf=df.drop_duplicates() from pandas import read_csv df = read_csv('D://PDA//4.3//data.csv') df #找出行重复的位置 dIndex = df.duplicated() #根据某些列，找出重复的位置 dIndex = df.duplicated('id') dIndex = df.duplic

2018-01-09

3.9K0

R中的向量化运算

r 语言数据处理

1、R中的向量化运算-seq seq(1, 10, by=1) seq(1, 10, by=0.1) seq(1.9, 10, by=0.1) #注意，不能这样子递减 seq(10, 1, by=0.1) #注意，你可以这样子递减 seq(10, 1, by=-0.1) #除了设置步长，还可以设置均分的步数 seq(10, 1, length.out=10) seq(10, 1, length.out=100) seq(10, 1, length.out=91) #数清楚里面的个数 2、R中

2018-01-09

1.9K0

R中的数据导入与导出

r 语言数据处理

1、数据的导入导入文本文件使用read.table函数导入普通文本文件 read.table(file,header=FALSE,sep="",...) #导入csv文件 data1 <- rea

2018-01-09

2.3K0

如何在Python中实现RFM分析

python 数据处理

本文介绍了如何利用Python实现RFM分析。首先，介绍了RFM分析的基本概念，然后详细讲解了如何在Python中实现这个过程。主要包括计算RFM各项分值、归总RFM分值、根据RFM分值对客户分类以及具体的算法实现。最后，介绍了在Python中应用RFM分析的示例代码。

2018-01-09

3.8K0

评分卡模型开发-数据集准备

本文通过介绍一种信用风险评级模型的开发过程，包括数据准备、特征选择、模型训练和模型验证等步骤。在数据准备阶段，需要清洗和处理原始数据，使其适用于模型训练。在特征选择阶段，需要确定哪些特征对信用风险的影响最大，并将其纳入模型。在模型训练阶段，需要选择合适的模型和参数，并进行训练。在模型验证阶段，需要使用测试集对模型进行验证，并计算模型的区分能力。最后，通过五折交叉验证的方法，选出稳定性和区分能力最优的模型，作为最终的信用风险评级模型。

2018-01-09

1K0

评分卡模型开发-定量指标筛选

数据库数据处理

本文介绍了在模型开发中，如何从数据中筛选出对违约状态影响最显著的指标。首先介绍了违约状态的数据特点，然后给出了五种定量指标筛选方法，包括随机森林法、计算变量间的相对重要性、基于自变量的逐步回归法、基于自变量的广义交叉验证法和基于变量的“Boruta”法。最后，综合这五种方法，筛选出了对违约状态影响最显著的四个入模指标，分别为：账户状态、是否逾期、是否申请提高额度和申请额度是否获批。对于定性指标，则通过文本挖掘的方法提取了“是否逾期”和“是否申请提高额度”两个入模指标。通过这些指标，可以更好地预测客户的违约状态，为金融机构提供更精准的风险评估和决策依据。同时，在筛选指标的过程中，要注意指标的可解释性和稳定性，以确保模型的预测效果和泛化能力。

2018-01-09

1.1K0

评分法模型开发-WOE值计算

本文介绍了信用风险计量模型开发的一个关键步骤，即如何确定信用风险计量的指标体系和权重。作者详细解释了信用风险计量模型的开发过程，包括数据清洗、特征选择、模型训练和模型验证。在模型开发过程中，作者使用了多个定量和定性指标，并采用了基于逻辑回归的WOE编码来处理定性指标。最终，作者构建了一个信用风险计量模型，并提供了该模型的详细解释。

2018-01-09

1.4K0

评分卡模型开发-基于逻辑回归的标准评分卡实现

由逻辑回归的基本原理，我们将客户违约的概率表示为p，则正常的概率为1-p。因此，可以得到：此时，客户违约的概率p可表示为：评分卡设定的分值刻度可以通过将分值表示为比率对数的

2018-01-09

4.5K0

评分卡模型开发-主标尺设计及模型验证

上一步中开发的信用风险评分卡模型，得到的是不同风险等级客户对应的分数，我们还需要将分数与违约概率和评级符号联系起来，以便差异化管理证券公司各面临信用风险敞口的客户，这就需要对证券公司各面临信用风险敞口

2018-01-09

1.7K0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

数据处理数据挖掘

本文介绍了如何使用dplyr和data.table两个R包进行数据清洗、数据加工和数据分析，通过几个实际案例展示了dplyr和data.table的常用功能和高效操作。

2018-01-09

2.4K0

数据分析中非常实用的自编函数和代码模块整理

人工智能机器学习数据处理

本文介绍了两个用于数据预处理的函数，具体是用于处理缺失值和异常值的。这些函数可以极大地提高数据预处理的速度，方便进行后续的建模和结果分析。

2018-01-09

9950

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态