腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据风控

专栏作者

57

文章

129337

阅读量

60

订阅数

Python中的相关分析correlation analysis

相关分析（correlation analysis）研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法。线性相关关系主要采用皮尔逊（Pearson）相关系数r来度量连续变量之间线性相

2018-01-09

2.4K0

Python中的交叉分析pivot_table

交叉分析通常用于分析两个或两个以上，分组变量之间的关系，以交叉表形式进行变量间关系的对比分析；从数据的不同维度，综合进行分组细分，进一步了解数据的构成、分布特征。交叉计数函数： pivot_table(values,index,columns,aggfunc,fill_value) 参数说明： values：数据透视表中的值 index：数据透视表中的行 columns：数据透视表中的列 aggfunc：统计函数 fill_value：NA值的同一替换 #相当于excel中的数据透视表功

2018-01-09

2.3K0

Python中的分布分析cut+groupby

分布分析（cut+groupby）根据分析目的，将数据（定量数据）进行等距或者不等距的分组，进行研究各组分布规律的一种分析方法。 import numpy import pandas data = pandas.read_csv( 'C:/Users/ZL/Desktop/Python/5.3/data.csv' ) aggResult = data.groupby( by=['年龄'] )['年龄'].agg({ '人数': numpy.size }) data

2018-01-09

1.6K0

Python中时间格式数据的处理

1、时间转换时间转换是指字符型的时间格式数据，转换成为时间型数据的过程。一般从csv导入过来的文件，时间都保存为字符型格式的，需要转换。时间转换函数： datatime=pandas.to_da

2018-01-09

2.8K0

Python中的虚拟变量(dummy variables)

数据处理 python

虚拟变量(dummy variables) 虚拟变量，也叫哑变量和离散特征编码，可用来表示分类变量、非数量因素可能产生的影响。 ① 离散特征的取值之间有大小的意义例如：尺寸(L、XL、XXL) 离散特征的取值有大小意义的处理函数map pandas.Series.map(dict) 参数 dict:映射的字典 ② 离散特征的取值之间没有大小的意义 pandas.get_dummies 例如：颜色(Red,Blue,Green) 处理函数： get_dummies(data,prefix=None,pref

2018-01-09

3.3K0

Python中的分组分析groupby

分组分析根据分组字段，将分析对象划分成不同的部分，以进行对比分析各组之间差异性的一种分析方法。定性分组定量分组分组统计函数： groupby(by=[分组列1,分组列2,...]) [统计列1,统计列2,...] .agg({统计列别名1:统计函数1,统计列别名2:统计函数2,...}) 参数说明： by 用于分组的列中括号用于统计的列 agg 统计别名显示统计值的名称，统计函数用于统计数据代码示例： import numpy import pandas data = pandas.re

2018-01-09

2K0

Python中如何进行数据分组

数据分组根据数据分析对象的特征，按照一定的数值指标，把数据分析对象划分为不同的区间进行研究，以揭示其内在联系和规律性。 cut 函数： cut(series,bins,right=True,labels=NULL) ① series 需要分组的数据 ② bins 分组的划分数组 ③ right 分组的时候，右边是否闭合，默认为闭合True ④ labels 分组的自定义标签，可以不自定义 import pandas data = pandas.read_csv( 'D:\\PDA\

2018-01-09

3.1K0

Python中的数据标准化

python 数据处理

数据标准化数据标准化是指将数据按比例缩放，使之落入到特定区间。为了消除量纲的影响，方便进行不同变量间的比较分析。 0-1标准化： x=(x-min)/(max-min) Python代码实现： import pandas data = pandas.read_csv( 'D:\\PDA\\4.14\\data.csv' ) data['scale'] = round( ( data.score-data.score.min() )/( data

2018-01-09

1.3K0

Python中如何实现分层抽样

Python中如何实现分层抽样在我们日常的数据分析工作中，常用到随机抽样这一数据获取的方法。如果我们想在一个大的数据总体中，按照数据的不同分类进行分层抽样，在Python中如何用代码来实现这一操作呢。下面我们要进行分层抽样的应用背景：随机抽取2017年重庆市不同区域高中学生的高考成绩。这里数据总体为2017年重庆市所有区域高中的学生高考成绩。分层抽样按照区域分类。设沙坪坝区为1，渝北区为2，南岸区为3（作为方法展示，只列出三个区，实际分析中按照抽样方法添加参数即可代码实现： #分层抽样 gb

2018-01-09

6.6K0

Python中重复值、缺失值、空格值处理

python 数据处理

1、重复值处理把数据结构中，行相同的数据只保留一行。函数语法： drop_duplicates() 删除重复值newdf=df.drop_duplicates() from pandas import read_csv df = read_csv('D://PDA//4.3//data.csv') df #找出行重复的位置 dIndex = df.duplicated() #根据某些列，找出重复的位置 dIndex = df.duplicated('id') dIndex = df.duplic

2018-01-09

3.9K0

Python中字段抽取、字段拆分、记录抽取

1、字段抽取字段抽取是根据已知列数据的开始和结束位置，抽取出新的列字段截取函数：slice(start,stop) 注意：和数据结构的访问方式一样，开始位置是大于等于，结束位置是小于。 from pandas import read_csv df = read_csv( 'D:\\PDA\\4.6\\data.csv' ) #默认将电话号码按照数值型来处理了，需要先转换为字符型，astype df['tel'] = df['tel'].astype(str) #运营商 bands = df[

2018-01-09

3.2K0

如何在Python中实现RFM分析

python 数据处理

本文介绍了如何利用Python实现RFM分析。首先，介绍了RFM分析的基本概念，然后详细讲解了如何在Python中实现这个过程。主要包括计算RFM各项分值、归总RFM分值、根据RFM分值对客户分类以及具体的算法实现。最后，介绍了在Python中应用RFM分析的示例代码。

2018-01-09

3.8K0

如何在Python中实现矩阵分析

2018-01-09

2.4K0

Python中的结构分析pivot_table

本文介绍了Python中的结构分析pivot_table，包括市场细分、市场占有率、股权结构等应用，并提供了相关代码示例。

2018-01-09

1.6K1

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态