专栏首页数据分析[数据分析工具] Pandas 功能介绍(二)
原创

[数据分析工具] Pandas 功能介绍(二)

条件过滤

我们需要看第一季度的数据是怎样的,就需要使用条件过滤

体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据

最后整合上面两种条件,在一季度体感湿度比较舒适的数据

列排序

数据按照某列进行排序

“by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列表

ascending 默认值是 True

列中的每行上的 apply 函数

在前一篇的增加列的部分,根据风速计算人体感觉是否舒适,为了功能的演示,在这里使用 DataFrame 的 apply 方法,他会在指定列的每个值上执行。详见代码:

均值和标准差

我们通过 describe 方法查看的统计信息中均值和方差都是按照列统计呢,这里要说的,既可以按照列,还可以按照行

均值,行 df.mean(axis=0),列df.mean(axis=1)

方差,行 df.std(axis=0),列df.std(axis=1)

DataFrame 转换为 Numpy

DataFrame 合并

连接合并

在两个 df 的结果一致的情况下,我们可以简单两个 df 拼接起来

垂直(行)拼接,pd.concat([df1,df2],axis=0),水平(列)拼接,pd.concat([df1,df2],axis=1)

基于索引关键字合并

Pandas 还提供了像 SQL 一样的连接,内联,外联,左联,右联

作为我们的示例数据,可以唯一标识一行的就是 Datatime 列

merged_df = df_1.merge(df_2, how='left', on='datetime')

在 DataFrame 中查找 NaN

每行有多少 NaN,df.isnull().sum()

Dataframe 中 NaN 的总数,上面统计出来的数量求和,df.isnull().sum().sum()

分组 Group By

分组在数据统计的时候经常使用。特别是统计数量、计算和、求平均值,等等。

我们在这里统计一下每个季度的假期数是多少

在统计一下,每个季度的平均分风速是多少

定义范围

如果我们想根据风力把风的等级区分出来,你可能可快就想到上面刚刚介绍的 apply,不过,现在介绍另外一种方式

通过这两次的分享,我们已经了解了 pandas 数据处理常用的方式方法。

文件内容简单说明:

文件地址:

补充:[数据分析工具] Pandas 功能介绍(一),我会后续迁移过来

知乎:[数据分析工具] Pandas 功能介绍(二)

博客园:[数据分析工具] Pandas 功能介绍(二)

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [数据分析工具] Pandas 不可不知的功能(一)

    如果你在使用 Pandas(Python Data Analysis Library) 的话,下面介绍的对你一定会有帮助的。 首先我们先介绍一些简单的概念 D...

    数据分析
  • [数据分析工具] Pandas 功能介绍(二)

    条件过滤 我们需要看第一季度的数据是怎样的,就需要使用条件过滤 ? 体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据 ? 最后整合上面两种条件,在...

    数据分析
  • [数据清洗]- Pandas 清洗“脏”数据(二)

    概要 了解数据 分析数据问题 清洗数据 整合代码 了解数据 在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的。我们尝试去理解数据的列/行、记录、...

    数据分析
  • 销售数据发生波动,怎么办?

    以下是一家B2C电子商务网站一周销售数据,该网站主要用户是办公室女性,销售额主要集中在5款产品上,如果你是分析师:

    猴子数据分析
  • SaltStack——小叙(grains和pillar组件)

    所有机器执行的状态是要放在base 环境中。(基础环境配置:如:zabbix-agent,salt-minion,dns,等)

    江小白
  • 如何设计报表?

    报表就是报告状况的表,是通过表格、图表来展示指标,从而方便业务部门掌握业务的情况。

    猴子数据分析
  • CVE-2017-12635 Apache CouchDB 特权提升漏洞分析

    风流
  • Python通过两个dataframe用for循环求笛卡尔积

    这段代码的思路是对两个表的每一行进行循环,运行速度比较慢,复杂度应该是O(m*n),m是A表的行数,n是B表的行数。

    砸漏
  • python数据预处理之将类别数据转换为数值的方法

    有时候不得不处理一些非数值类别的数据,嗯, 今天要说的就是面对这些数据该如何处理。

    学到老
  • XenMobile 9.0 完全部署指南之安装第一台 DeviceManager--04

      经过前期的证书与数据库准备,接下来我们可以开始XenMobile的正式安装了,XenMobile2个组件,我们首先介绍DeviceManager的安装,该组...

    SuperDream

扫码关注云+社区

领取腾讯云代金券