首页
学习
活动
专区
工具
TVP
发布

大数据风控

专栏作者
57
文章
129337
阅读量
60
订阅数
Python中的相关分析correlation analysis
相关分析(correlation analysis) 研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法。 线性相关关系主要采用皮尔逊(Pearson)相关系数r来度量连续变量之间线性相
Erin
2018-01-09
2.4K0
Python中的交叉分析pivot_table
交叉分析 通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析; 从数据的不同维度,综合进行分组细分,进一步了解数据的构成、分布特征。 交叉计数函数: pivot_table(values,index,columns,aggfunc,fill_value) 参数说明: values:数据透视表中的值 index:数据透视表中的行 columns:数据透视表中的列 aggfunc:统计函数 fill_value:NA值的同一替换 #相当于excel中的数据透视表功
Erin
2018-01-09
2.3K0
Python中的分布分析cut+groupby
分布分析(cut+groupby) 根据分析目的,将数据(定量数据)进行等距或者不等距的分组, 进行研究各组分布规律的一种分析方法。 import numpy import pandas data = pandas.read_csv( 'C:/Users/ZL/Desktop/Python/5.3/data.csv' ) aggResult = data.groupby( by=['年龄'] )['年龄'].agg({ '人数': numpy.size }) data
Erin
2018-01-09
1.6K0
Python中时间格式数据的处理
1、时间转换 时间转换是指字符型的时间格式数据,转换成为时间型数据的过程。 一般从csv导入过来的文件,时间都保存为字符型格式的,需要转换。 时间转换函数: datatime=pandas.to_da
Erin
2018-01-09
2.8K0
Python中的虚拟变量(dummy variables)
虚拟变量(dummy variables) 虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。 ① 离散特征的取值之间有大小的意义 例如:尺寸(L、XL、XXL) 离散特征的取值有大小意义的处理函数map pandas.Series.map(dict) 参数 dict:映射的字典 ② 离散特征的取值之间没有大小的意义 pandas.get_dummies 例如:颜色(Red,Blue,Green) 处理函数: get_dummies(data,prefix=None,pref
Erin
2018-01-09
3.3K0
Python中的分组分析groupby
分组分析 根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间差异性的一种分析方法。 定性分组 定量分组 分组统计函数: groupby(by=[分组列1,分组列2,...]) [统计列1,统计列2,...] .agg({统计列别名1:统计函数1,统计列别名2:统计函数2,...}) 参数说明: by  用于分组的列 中括号 用于统计的列 agg  统计别名显示统计值的名称,统计函数用于统计数据 代码示例: import numpy import pandas data = pandas.re
Erin
2018-01-09
2K0
Python中如何进行数据分组
数据分组 根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,以揭示其内在联系和规律性。 cut 函数: cut(series,bins,right=True,labels=NULL) ① series  需要分组的数据 ② bins    分组的划分数组 ③ right   分组的时候,右边是否闭合,默认为闭合True ④ labels  分组的自定义标签,可以不自定义 import pandas data = pandas.read_csv( 'D:\\PDA\
Erin
2018-01-09
3.1K0
Python中的数据标准化
数据标准化 数据标准化是指将数据按比例缩放,使之落入到特定区间。 为了消除量纲的影响,方便进行不同变量间的比较分析。 0-1标准化: x=(x-min)/(max-min) Python代码实现: import pandas data = pandas.read_csv( 'D:\\PDA\\4.14\\data.csv' ) data['scale'] = round( ( data.score-data.score.min() )/( data
Erin
2018-01-09
1.3K0
Python中如何实现分层抽样
Python中如何实现分层抽样 在我们日常的数据分析工作中,常用到随机抽样这一数据获取的方法。 如果我们想在一个大的数据总体中,按照数据的不同分类进行分层抽样,在Python中如何用代码来实现这一操作呢。 下面我们要进行分层抽样的应用背景: 随机抽取2017年重庆市不同区域高中学生的高考成绩。 这里数据总体为2017年重庆市所有区域高中的学生高考成绩。 分层抽样按照区域分类。 设沙坪坝区为1,渝北区为2,南岸区为3(作为方法展示,只列出三个区,实际分析中按照抽样方法添加参数即可 代码实现: #分层抽样 gb
Erin
2018-01-09
6.6K0
Python中重复值、缺失值、空格值处理
1、重复值处理 把数据结构中,行相同的数据只保留一行。 函数语法: drop_duplicates() 删除重复值newdf=df.drop_duplicates() from pandas import read_csv df = read_csv('D://PDA//4.3//data.csv') df #找出行重复的位置 dIndex = df.duplicated() #根据某些列,找出重复的位置 dIndex = df.duplicated('id') dIndex = df.duplic
Erin
2018-01-09
3.9K0
Python中字段抽取、字段拆分、记录抽取
1、字段抽取 字段抽取是根据已知列数据的开始和结束位置,抽取出新的列 字段截取函数:slice(start,stop) 注意:和数据结构的访问方式一样,开始位置是大于等于,结束位置是小于。 from pandas import read_csv df = read_csv( 'D:\\PDA\\4.6\\data.csv' ) #默认将电话号码按照数值型来处理了,需要先转换为字符型,astype df['tel'] = df['tel'].astype(str) #运营商 bands = df[
Erin
2018-01-09
3.2K0
如何在Python中实现RFM分析
本文介绍了如何利用Python实现RFM分析。首先,介绍了RFM分析的基本概念,然后详细讲解了如何在Python中实现这个过程。主要包括计算RFM各项分值、归总RFM分值、根据RFM分值对客户分类以及具体的算法实现。最后,介绍了在Python中应用RFM分析的示例代码。
Erin
2018-01-09
3.8K0
如何在Python中实现矩阵分析
Erin
2018-01-09
2.4K0
Python中的结构分析pivot_table
本文介绍了Python中的结构分析pivot_table,包括市场细分、市场占有率、股权结构等应用,并提供了相关代码示例。
Erin
2018-01-09
1.6K1
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档