首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

浅谈NumPy和Pandas库(一)

http://pandas.pydata.org/pandas-docs/version/0.19.2/ 下面我们先聊一下NumPy,它内置了进行数据分析时,所要执行大量基础任务所需函数。...比如一个数据结构由四个姓名(name)、年龄(age)、BMI、是否健康(healthy?)构成(其中还含有数字NaN条目)。你可以把数据框架看做Excel表格。 ?...#'name'、'age'等这样名字为key(键),Series是Python序列:里面为对应,index为目标索引组 #对于数值组NaN,空出来就好,在索引组也空出来就好。...4 我们可以调用适用数据框架向我们提供参数总和和任意函数。...由于我水平有限,所以接下来几天给大家转几篇大神写关于Pandas和NumPy很好文章,大家可以一起学习一下哈!最后感谢大家阅读。

2.3K60

统计师Python日记【第5天:Pandas,露两手】

这就很奇怪了,2012、2013、2014、2015四个年份第一季度加总,这是什么鬼?其实我更想看横向加总,就是每一年四个季度加总,得到一年总和,原来,指定axis=1即可: ?...特别注意是缺失情况! 如果有缺失,比如四个数值2,3,1,NaN,那么加总结果是2+3+1+NaN=6,也就是缺失自动排除掉了!...这点特别注意,因为这可能会导致你数据不必苛,比如某一年少一个季度,那么这一年其实就是三个季度加总,跟其他年份四个季度怎么比?...一些函数记录在此(参考书本《利用Python进行数据分析》): 方法 描述 count() NA数量 describe() 各列汇总统计 min()、max() 最小、最大 argmin()、...也可以单独只计算两列系数,比如计算S1与S3相关系数: ? 二、缺失处理 Pandas和Numpy采用NaN来表示缺失数据, ? 1.

3K70
您找到你想要的搜索结果了吗?
是的
没有找到

数据分析利器,Pandas 软件包详解与应用示例

Pandas提供了高性能、易于使用数据结构和数据分析工具,可以处理各种类型数据,包括时间序列数据、结构化数据和结构化数据。...import pandas as pd import numpy as np # 创建一个包含缺失和重复项DataFrame data = {'A': [1, 2, np.nan], 'B': [...4, np.nan, 4]} df_with_issues = pd.DataFrame(data) # 清洗数据:填充缺失,删除重复项 df_clean = df_with_issues.fillna...(0).drop_duplicates() # 查看清洗后数据 print(df_clean) 上面的例子中,首先创建了一个包含缺失(np.nan)和重复项DataFrame。...我们指定了kind='scatter'来告诉Pandas我们想要绘制是散点图,并通过x和y参数指定了对应列。最后,使用plt.show()显示图表。

6710

图解pandas窗口函数rolling

如果使用int,数值表示计算统计量观测数量即向前几个数据。如果是offset类型,表示时间窗口大小min_periods:每个窗口内最少包含观测数量,如果小于这个窗口,则结果为NA。...下面汇总了常用统计相关函数:方法 描述 count() 统计空数量 sum() 求和 mean() 求均值 median()...2、3、4;均值为( 2 + 3 + 4) / 3 = 3以此类推…图片如果是移动之后求和,也是同样道理:图片图片在这里需要注意是:pandas或者numpy中np.nan与其他数值相乘或者相加都是...:(0+1+2)/3=1第四个元素3:往前最多也是4个元素,为0、1、2、3,计算均值:(0+1+2+3)/4=1.5以此类推...取值4:neither如果直接使用neither,结果全部为NaN:图片解决...所以我们需要手动将min_periods设置成: n-1图片具体解释参考下面的图示:第一个元素0:排除第一个和最后一个元素后,均为NaN,均值为NaN第二个元素1:排除第一个和最后一个元素后,为NaN

2.3K30

Pandas系列 - 基本功能和统计操作

() 返回前n行 8 tail() 返回最后n行 axes示例: import pandas as pd import numpy as np #Create a series with 100 random...8 values NDFrameNumpy表示 9 head() 返回开头前n行 10 tail() 返回最后n行 sum(),mean()等聚合函数应用 先创建个一个数据帧,然后在此基础上进行演示...2 sum() 所有之和 3 mean() 所有平均值 4 median() 所有中位数 5 mode() 6 std() 标准偏差 7 min() 所有最小 8 max...() 所有最大 9 abs() 绝对 10 prod() 数组元素乘积 11 cumsum() 累计总和 12 cumprod() 累计乘积 注 - 由于DataFrame是异构数据结构。...那么,如果想要都包含的话,该怎么操作: object - 汇总字符串列 number - 汇总数字列 all - 将所有列汇总在一起(不应将其作为列表传递) 包含字符串列 import pandas

67610

Pandas图鉴(二):Series 和 Index

Pandas 图鉴系列文章由四个部分组成: Part 1. Motivation:Pandas图鉴(一):Pandas vs Numpy Part 2....大多数Pandas函数都会忽略缺失: 更高级函数(median, rank, quantile等)也是如此。 算术操作是根据索引来调整: 在索引中存在唯一情况下,其结果是不一致。...不要对具有唯一索引系列使用算术运算。 比较 对有缺失数组进行比较可能很棘手。...下面是插入数值一种方式和删除数值两种方式: 第二种删除方法(通过删除)比较慢,而且在索引中存在唯一情况下可能会导致复杂错误。...对于每一组,要求提供元素总和,元素数量,以及每一组平均值。 除了这些集合功能,还可以根据特定元素在组内位置或相对价值来访问它们。

22120

数据科学 IPython 笔记本 7.7 处理缺失数据

在标记方法中,标记可能是某些特定于数据惯例,例如例如使用-9999或某些少见位组合来表示缺失整数值,或者它可能是更全局惯例,例如使用NaN数字)表示缺失浮点,这是一个特殊,它是 IEEE...Pandas缺失数据 Pandas 处理缺失方式受到其对 NumPy 包依赖性限制,NumPy 包没有浮点数据类型 NA 内置概念。...NaN:缺失数值数据 另一个缺失数据表示,NaN(“数字”首字母缩写)是不同;它是所有系统都识别的特殊浮点,使用标准 IEEE 浮点表示: vals2 = np.array([1, np.nan...空操作 正如我们所看到Pandas 将None和NaN视为基本可互换,用于指示缺失或空。为了促进这个惯例,有几种有用方法可用于检测,删除和替换 Pandas 数据结构中。...参数允许你为要保留行/列指定最小数量: df.dropna(axis='rows', thresh=3) 0 1 2 3 1 2.0 3.0 5 NaN 这里删除了第一行和最后一行,因为它们只包含两个

4K20

Python 金融编程第二版(二)

③ 选择第一行第三个元素;在括号内,索引由逗号分隔。 ④ 选择第二列。 ⑤ 计算所有总和。 ⑥ 沿第一个轴计算总和,即按列计算。 ⑦ 沿第二轴计算总和,即按行计算。...这也可以被视为pandas一项重要优势。例如,假设我们四个列中九个数据条目对应于从 2019 年 1 月开始每月末数据。...pandas相当容错,以捕获错误并在相应数学运算失败时仅放置NaN。不仅如此,正如之前简要展示那样,您还可以在许多情况下像处理完整数据集一样处理这些不完整数据集。...② 具有相同随机数DataFrame对象。 ③ 通过head()方法获得前五行。 ④ 通过tail()方法获得最后五行。 下面的代码说明了 Python 比较运算符和逻辑运算符在两列应用。...最后,更多基于 eval() 和 apply() 方法选项。

9510

Day4.利用Pandas做数据处理

计算时,如果 Pandas在两个Series里找不到相同 index,对应位置就返回一个空 NaN。...,相同索引会相对应,缺少会添加NaN # 此种情况出现在,将表格中几列数据组合在一起时,部分列多出几行;表格中一列可以看做一个Series对象 data = { 'Name':pd.Series...数据处理包含以下四个部分: 对Series过滤NaN 对DataFrame过滤NaN 填充缺失数据 移除重复数据 from numpy import nan as NaN # 通过pandasdropna...#传入thresh=n保留至少有n个NaN数据行: df4 = df print(df4.dropna(thresh=1)) # thresh等于1表示一行含有一个NaN数据则保留 df5 =...df print(df5.dropna(thresh=2)) #如果thresh等于2则表示一行含有两个以上NaN会被保留 ''' 0 1 2 0 1.0 2.0 3.0 1 NaN

6K10

快速介绍Python数据分析库pandas基础知识和代码示例

NaN(数字首字母缩写)是一个特殊浮点,所有使用标准IEEE浮点表示系统都可以识别它 pandasNaN看作是可互换,用于指示缺失或空。...要检查panda DataFrame中,我们使用isnull()或notnull()方法。方法返回布尔数据名,对于NaN为真。...我们可以使用fillna()来填充缺失。例如,我们可能想用0替换' NaN '。...注意:使用len时候需要假设数据中没有NaN。 description()用于查看一些基本统计细节,如数据名称或一系列数值百分比、平均值、标准等。...类似地,我们可以使用df.min()来查找每一行或每列最小。 其他有用统计功能: sum():返回所请求总和。默认情况下,axis是索引(axis=0)。

8.1K20

手把手教你做一个“渣”数据师,用Python代替老情人Excel

1、从“头”到“脚” 查看第一行或最后五行。默认为5,也可以自定义参数。 ? 2、查看特定列数据 ? 3、查看所有列名字 ? 4、查看信息 查看DataFrame数据属性总结: ?...四、统计功能 1、描述性统计 描述性统计,总结数据集分布集中趋势,分散程度和正态分布程度,不包括NaN: ? 描述性统计总结: ?...五、数据计算 1、计算某一特定列 输出结果是一个系列。称为单列数据透视表: ? 2、计数 统计每列或每行NA单元格数量: ? 3、求和 按行或列求和数据: ? 为每行添加总列: ?...4、将总列添加到已存在数据集 ? 5、特定列总和,使用loc函数 ? 或者,我们可以用以下方法: ? 6、用drop函数删除行 ? 7、计算每列总和 ?...NaN; inner——仅显示两个共享列重叠数据。

8.3K30

数据科学 IPython 笔记本 9.6 聚合:最小、最大和之间任何东西

也许最常见汇总统计数据是均值和标准差,它允许你汇总数据集中“典型”,但其他汇总也很有用(总和,乘积,中位数,最小和最大,分位数等)。...NumPy 具有内置快速聚合函数,可用于处理数组;我们将在这里讨论和演示其中一些内容。 对数组中求和 作为一个简单例子,考虑计算数组中所有总和。...]) 该函数返回四个,对应于四列数字。...此外,大多数聚合都有一个NaN安全替代品来计算结果,同时忽略缺失,缺失由特殊 IEEE 浮点NaN标记(对于缺失数据更全面讨论,请参阅“处理缺失数据)。...我们将在第三章中更全面地探索 Pandas

49030

Pandas基础操作学习笔记

Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好支持。...panel data是经济学中关于多维数据集一个术语,在Pandas中也提供了panel数据类型。...NaN NaN NaN #row3 NaN 8.0 9.0 10.0 #汇总和计算描述统计 #常用数学和统计方法 #相关系数与协方差 #唯一计数以及成员资格 #count...NA数量 #describe方法针对Series或各DataFrame列计算总统计 #min/max 计算最小、最大 #argmin、argmax 计算能够获取到最小和最大索引位置(整数...) #idxmin、idxmax 计算能够获取到最小和最大索引 #quantile 计算样本分位数(0到1) #sum 总和 #mean 平均数 #median 算术中位数(50%

97930

玩转Pandas,让数据处理更easy系列6

Pandas,让数据处理更easy系列5) 善于处理missing data,如NaN, non-floating数据(玩转Pandas,让数据处理更easy系列5) 强大而灵活分组功能,在数据集上实现分...分和合按照字面理解就可,但是“治”又是怎么理解,进一步将治分为3件事: 聚合操作,比如统计每组个数,总和,平均值 转换操作,对每个组进行标准化,依据其他组队个别组NaN填充 过滤操作,忽略一些组...如果我们想看下每组第一行,可以调用 first(),可以看到是每个分组第一个,last()显示每组最后一个: agroup.first() ?...06 治:分组上操作 对分组上操作,最直接是使用aggregate操作,如下,求出每个分组上对应列总和,大家可以根据上面的分组情况,对应验证: agroup = df.groupby('A')...如果根据两个字段组合进行分组,如下所示,为对应分组总和, abgroup = df.groupby(['A','B']) abgroup.aggregate(np.sum) ?

2.7K20
领券