首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python分析成长之路9

pandas入门 统计分析是数据分析重要组成部分,它几乎贯穿整个数据分析流程。运用统计方法,将定量与定性结合,进行研究活动叫做统计分析。而pandas是统计分析重要库。...1.Series:Series是一种一维数组型对象,它包含一个序列,含有数据标签。...(group.median()) #返回每组中位数 15 print(group.cumcount()) #每个分组中成员进行标记 16 print(group.size()) #返回每个分组大小...(group.median()) #返回每组中位数 14 print(group.cumcount()) #每个分组中成员进行标记 15 print(group.size()) #返回每个分组大小...返回每组中位数 print(group.cumcount()) #每个分组中成员进行标记 print(group.size()) #返回每个分组大小 print(group.min())

2.1K11

Pandas速查卡-Python数据科学

按升序排序 df.sort_values(col2,ascending=False) 将col2按降序排序 df.sort_values([col1,ascending=[True,False]...) 将col1按升序排序,然后按降序排序col2 df.groupby(col) 从一列返回一对象 df.groupby([col1,col2]) 从多列返回一对象 df.groupby(col1...=max) 创建一个数据透视表,按col1分计算col2和col3平均值 df.groupby(col1).agg(np.mean) 查找每个唯一col1所有列平均值 data.apply(...df.describe() 数值列汇总统计信息 df.mean() 返回所有列平均值 df.corr() 查找数据列之间相关性 df.count() 计算每个数据列中非空数量 df.max...() 查找每个列中最大值 df.min() 查找每列中最小 df.median() 查找每列中值 df.std() 查找每个标准差 点击“阅读原文”下载此速查卡打印版本 END.

9.2K80

Pandas入门(二)

首先我们还是随机产生一个数据表,5行3列数据。保存到csv文件读取。...首先介绍一下如何对数据进行排序,总的来说,pandas提供两种排序方法,一个是根据索引排序,一个是根据数据中某一列或者某一行排序,这个就和Excel中排序是一样,但是它排序结果是扩展到整个数据...,如果要按照某一行或者列最大值排序,该怎么做。...首先我们新添加一列,用来求每一行最大值。然后我们根据最大值降序排序就可以了。...=True, squeeze=False, **kwargs) 然后还是之前数据,我们新添加一列,列名为key1,分组意思就是将数据以某种标志分为不同,这里选择key1作为分组依据,这样就分为了两

1.2K50

Pandas必知必会使用技巧,值得收藏!

作者:风控猎人 本期主题是关于python一个数据分析工具pandas,归纳整理了一些工作中常用到pandas使用技巧,方便更高效地实现数据分析。...,只要加上参数axis=1 2.获取分组里最大值所在行方法 分为分组中有重复和无重复两种。...,然后对分组之后数据使用idxmax函数取出Count最大值所在列,再用iloc位置索引将行取出。...[df["rank"] == 1][["ID", "class"]] ID进行分组之后再对分数应用rank函数,分数相同情况会赋予相同排名,然后取出排名为1数据。...df = pd.DataFrame([['A',1],['A',3],['A',2],['B',5],['B',9]], columns = ['name','score']) 介绍两种高效地排序方法

1.6K10

Python 离群点检测算法 -- KNN

其步骤包括计算每个数据点与其他数据距离,根据距离从小到大对数据进行排序,然后选取前 K 个条目。常用距离计算方法之一是欧氏距离。 步骤1:计算每个数据点与其他数据距离。...步骤2:根据距离从小到大对数据进行排序。 步骤3:选取前 K 个条目。 计算两个数据点之间距离有多种选择。最常用是欧氏距离。...通过计算新数据点与其他数据距离选取最近 5 个邻居,算法进行了类别统计,然后采用多数投票规则来确定类别。...建模步骤 在建模过程中,步骤1要建立模型识别离群。步骤2选择一个阈值,将离群和正常观测分开。在步骤3中,使用各组描述性统计量进行分析,确保模型合理性。...接下来代码将建立模型,训练数据和测试数据进行评分。每行含义如下: label_:训练数据标签向量,在训练数据上使用.predict()时也是如此。

14510

Pandas库常用方法、函数集合

Pandas是Python数据分析处理核心第三方库,它使用二维数组形式,类似Excel表格,封装了很多实用函数方法,让你可以轻松地对数据进行各种操作。...“堆叠”为一个层次化Series unstack: 将层次化Series转换回数据形式 append: 将一行或多行数据追加到数据末尾 分组 聚合 转换 过滤 groupby:按照指定列或多个列对数据进行分组...agg:每个分组应用自定义聚合函数 transform:每个分组应用转换函数,返回与原始数据形状相同结果 rank:计算元素在每个分组中排名 filter:根据分组某些属性筛选数据 sum...、cumprod:计算分组累积和、最小最大值、累积乘积 数据清洗 dropna: 丢弃包含缺失行或列 fillna: 填充或替换缺失 interpolate: 缺失进行 duplicated...: 替换字符串中特定字符 astype: 将一列数据类型转换为指定类型 sort_values: 对数据按照指定列进行排序 rename: 列或行进行重命名 drop: 删除指定列或行 数据可视化

25110

一文介绍特征工程里的卡方分箱,附代码实现

它主要包括两个阶段:初始化阶段和自底向上合并阶段。 1、初始化阶段: 首先按照属性大小进行排序(对于非连续特征,需要先做数值转换,比如转为坏人率,然后排序),然后每个属性单独作为一。...2、合并阶段: (1)每一相邻,计算卡方。 (2)根据计算的卡方其中最小邻组合并为一。...值得注意是,小编之前发现有的实现方法在合并阶段,计算并非相邻的卡方(只考虑在此两样本,计算期望频数),因为他们用整体样本来计算此相邻两期望频数。...x: 需要转换到分组 cutoffs: 各组起始。 return: x对应,如group1。从group1开始。 ''' #切分点从小到大排序。...归类到最后一,如果不想这么简单粗暴,需要在最开始时候缺失进行填充。

3.8K20

七步搞定一个综合案例,掌握pandas进阶用法!

2.分组聚合 按照需求,需要计算每个城市每个子类别下产品销售总量,因此需要按照city和sub_cate分组,amt求和。为计算占比,求得和还需要和原始数据合在一块作为新一列。...第二种是排序之后,改变数据实际顺序。我们使用lambda函数实现:每个分组按照上一步生成rank,升序排列。...这里需要对每组内按行进行遍历,用到了iterrows函数,判断cum_pct与50%,group_rank与3关系。我们自定义一个函数来实现。...= num break return res 调用该函数之后,每个能得到符合条件目标group_rank,如下面代码和图片所示: data_target_rank...上图第三列就是我们需要目标group_rank,注意先要把默认名字改过来,并将此结果与原始数据做一个合并。在此基础上,就可以将每组内不超过目标group_rank行筛选出来。

2.4K40

玩转Pandas,让数据处理更easy系列6

01 系列回顾 玩转Pandas系列已经连续推送5篇,尽量贴近Pandas本质原理,结合工作实践,按照使用Pandas逻辑步骤,系统地结合实例推送Pandas主要常用功能,已经推送5篇文章:...03 Groupby:分-治-合 group by具体来说就是分为3步骤,分-治-合,具体来说: 分:基于一定标准,splitting数据成为不同组 治:将函数功能应用在每个独立上 合:收集结果到一个数据结构上...分和合按照字面理解就可,但是“治”又是怎么理解,进一步将治分为3件事: 聚合操作,比如统计每组个数,总和,平均值 转换操作,每个进行标准化,依据其他组队个别组NaN填充 过滤操作,忽略一些...get_group可以取得对应内行,如下图所示, agroup = df.groupby('A') agroup.get_group('foo') ?...如想下载以上代码,请后台回复: pandas 小编所推文章分类整理,欢迎后台回复数字,查找感兴趣文章: 1. 排序算法 2. 图算法(含树) 3. 动态规划 4.

2.7K20

Machine Learning-特征工程之卡方分箱(Python)

它主要包括两个阶段:初始化阶段和自底向上合并阶段。 1、初始化阶段: 首先按照属性大小进行排序(对于非连续特征,需要先做数值转换,比如转为坏人率,然后排序),然后每个属性单独作为一。...2、合并阶段: (1)每一相邻,计算卡方。 (2)根据计算的卡方其中最小邻组合并为一。...值得注意是,小编之前发现有的实现方法在合并阶段,计算并非相邻的卡方(只考虑在此两样本,计算期望频数),因为他们用整体样本来计算此相邻两期望频数。...x: 需要转换到分组 cutoffs: 各组起始。 return: x对应,如group1。从group1开始。 ''' #切分点从小到大排序。...归类到最后一,如果不想这么简单粗暴,需要在最开始时候缺失进行填充。

5.7K20

数据分析之Pandas分组操作总结

之前介绍过索引操作,现在接着Pandas分组操作进行介绍:主要包含SAC含义、groupby函数、聚合、过滤和变换、apply函数。...其中split指基于某一些规则,将数据拆成若干;apply是指每一独立地使用函数;combine指将每一结果组合成某一类数据结构。...2. apply过程 在apply过程中,我们实际往往会遇到四类问题: 整合(Aggregation):即分组计算统计量(如求均值、求每组元素个数); 变换(Transformation):即分组每个单元数据进行操作...变换(Transformation):即分组每个单元数据进行操作(如元素标准化):输入是每组数据,输出是每组数据经过某种规则变换后数据,不改变数据维度。...以重量分组(0-0.5,0.5-1,1-1.5,1.5-2,2+),按递增深度为索引排序,求每组中连续严格递增价格序列长度最大值

7.5K41

特征锦囊:一文介绍特征工程里的卡方分箱,附代码实现

它主要包括两个阶段:初始化阶段和自底向上合并阶段。 1、初始化阶段: 首先按照属性大小进行排序(对于非连续特征,需要先做数值转换,比如转为坏人率,然后排序),然后每个属性单独作为一。...2、合并阶段: (1)每一相邻,计算卡方。 (2)根据计算的卡方其中最小邻组合并为一。...值得注意是,阿Sam之前发现有的实现方法在合并阶段,计算并非相邻的卡方(只考虑在此两样本,计算期望频数),因为他们用整体样本来计算此相邻两期望频数。...x: 需要转换到分组 cutoffs: 各组起始。 return: x对应,如group1。从group1开始。 ''' #切分点从小到大排序。...归类到最后一,如果不想这么简单粗暴,需要在最开始时候缺失进行填充。

2.6K20

MySQL(五)汇总和分组数据

②获得表中行和 ③找出表列(或所有行或某些特定行)最大值、最小和平均值 聚集函数(aggregate function):运行在行上,计算和返回单个函数(MySQL还支持一些列标准偏差聚集函数...; 这条SQL语句中国返回products表中price列最大值; PS:MySQL允许max()用来返回任意列中最大值,包括返回文本列最大值;但用于文本数据时,如果数据按相应排序,则max(...products group by vend_id; 这条SQL语句指定了2个列,group by指示MySQL按照vend_id排序并且分组(如果使用group by,则不必指定要计算每个group...by子句指示指示MySQL分组数据,然后都每个而不是整个结果集进行聚集;关于group by使用,请注意以下规则: ①group by子句可以包含任意数目的列(使得对分组进行嵌套,为数据分组提供更细致控制...); ②如果在group by子句中嵌套分组,数据将在最后规定分组上进行汇总,即:建立分组时,指定所有列都一起计算(所以不能从个别列取回数据); ③group by子句中列出每个列都必须是检索列或有效表达式

4.7K20
领券