首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

30 个 Python 函数,加速你的数据分析处理速度!

Pandas 是 Python 中最广泛使用数据分析和操作库。它提供了许多功能和方法,可以加快 「数据分析」 和 「预处理」 步骤。...我们减了 4 ,因此列数 14 个减少到 10 。 2.选择特定 我们 csv 文件中读取部分列数据。可以使用 usecols 参数。...df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True) 17.将特定设置为索引 我们可以将数据帧中的任何设置为索引...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡的直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多的小数点。...30.设置数据帧样式 我们可以通过使用返回 Style 对象的 Style 属性来实现此目的,它提供了许多用于格式化和显示数据的选项。例如,我们可以突出显示最小值或最大值。

8.9K60

时间序列的重采样和pandas的resample方法介绍

下面是resample()方法的基本用法和一些常见的参数: import pandas as pd # 创建一个示例时间序列数据 data = {'date': pd.date_range(...1、指定列名 默认情况下,Pandas的resample()方法使用Dataframe或Series的索引,这些索引应该是时间类型。但是,如果希望基于特定重新采样,则可以使用on参数。...这允许您选择一个特定进行重新采样,即使它不是索引。...在上采样过程中,特别是较低频率转换到较高频率时,由于新频率引入了间隙,会遇到丢失数据点的情况。所以需要对间隙的数据进行填充填充一般使用以下几个方法: 向前填充-前一个可用的值填充缺失的值。...重采样是时间序列数据处理中的一个关键操作,通过进行重采样可以更好地理解数据的趋势和模式。 在Python中,可以使用Pandas库的resample()方法来执行时间序列的重采样。 作者:JI

55830
您找到你想要的搜索结果了吗?
是的
没有找到

【Mark一下】46个常用 Pandas 方法速查表

有关更多数据文件的读取将在第三章介绍,本节介绍对象和文件创建数据的方式,具体如表1所示: 表1 Pandas创建数据对象 方法用途示例示例说明read_table read_csv read_excel...方法用途示例示例说明info查看数据索引的类型、费控设置和内存用量信息。...例如可以dtype的返回值中仅获取类型为bool的。 3 数据切片和切块 数据切片和切块是使用不同的索引切分数据,实现从数据中获取特定子集的方式。...的记录,行索引不包含2 提示 如果选择特定索引数据,直接写索引值即可。...,默认计算方式为求均值 8 高级函数使用 Pandas能直接实现数据级别高级函数的应用,而不用写循环遍历每条记录甚至每个值后做计算,这种方式能极大提升计算效率,具体如表8所示: 表8 Pandas

4.7K20

pandas时间序列常用方法简介

在进行时间相关的数据分析时,时间序列的处理是自然而然的事情,创建、格式转换到筛选、重采样和聚合统计,pandas都提供了全套方法支持,用的熟练简直是异常丝滑。 ?...需要指出,时间序列pandas.dataframe数据结构中,当该时间序列索引时,则可直接调用相应的属性;若该时间序列是dataframe中的一时,则需先调用dt属性再调用接口。...举例如下: 1.首先创建数据结构如下,其中初始dataframe索引是时间序列,两数据分别为数值型和字符串型 ? 2.运用to_datetime将B字符串格式转换为时间序列 ?...3.分别访问索引序列中的时间和B中的日期,并输出字符串格式 ? 03 筛选 处理时间序列的另一个常用需求是筛选指定范围的数据,例如选取特定时段、特定日期等。...进一步的,当freq参数为None时,则仅仅是滑动指定数目的记录,而不管索引实际取值;而当freq设置有效参数时,此时要求索引必须为时间序列,并根据时间序列滑动到指定周期处,并从此处开始取值(在上图中

5.7K10

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Series 序列是表示 DataFrame 的一数据结构。使用序列类似于引用电子表格的。 4. Index 每个 DataFrame 和 Series 都有一个索引,它们是数据行上的标签。...在 Pandas 中,您使用特殊方法/向 Excel 文件读取和写入。 让我们首先基于上面示例中的数据,创建一个新的 Excel 文件。 tips.to_excel("....可以通过多种方式过滤数据,其中最直观的是使用布尔索引。...请记住,Python 索引是从零开始的。 tips["sex"].str.find("ale") 结果如下: 3. 按位置提取子串 电子表格有一个 MID 公式,用于给定位置提取子字符串。...获取第一个字符: =MID(A2,1,1) 使用 Pandas,您可以使用 [] 表示法按位置位置字符串中提取子字符串。请记住,Python 索引是从零开始的。

19.5K20

Python数据分析笔记——Numpy、Pandas

Numpy基础 1、创建ndarray数组 使用array函数,它接受一切序列型的对象,包括其他数组,然后产生一个新的Numpy数组。 嵌套序列将会被转换成一个多维数组。...如果指定了序列索引,则DataFrame的会按指定顺序及索引进行排列。 也可以设置DataFrame的index和columns的name属性,则这些信息也会被显示出来。...对于缺失值除使用fill_value的方式填充特定值以外还可以使用method=ffill(向前填充、即后面的缺失值用前面非缺失值填充)、bfill(向后填充,即前面的缺失值用后面的非缺失值填充)。...obj.rank() (2)DataFrame数据结构的排序和排名 按索引值进行排列,一或多中的值进行排序,通过by将列名传递给sort_index. 5、缺失数据处理 (1)滤出缺失数据 使用data.dropna...(0开始计数) 6、汇总和计算描述统计 就是针对数组进行常用的数学和统计运算。大部分都属于约简和汇总统计。 其中有求和(sum)运算、累计(cumsum)运算、平均值(mean)等运算。

6.4K80

Pandas库常用方法、函数集合

Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。...这里列举下Pandas中常用的函数和方法,方便大家查询使用。...,适合将数值进行分类 qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间的频率 join:通过索引合并两个dataframe stack: 将数据...“堆叠”为一个层次化的Series unstack: 将层次化的Series转换回数据形式 append: 将一行或多行数据追加到数据的末尾 分组 聚合 转换 过滤 groupby:按照指定的或多个数据进行分组...sort_values: 对数据按照指定进行排序 rename: 对或行进行重命名 drop: 删除指定的或行 数据可视化 pandas.DataFrame.plot.area:绘制堆积图 pandas.DataFrame.plot.bar

25110

Python替代Excel Vba系列(三):pandas处理不规范数据

但是身经百战的你肯定会觉得,前2篇例子中的数据太规范了,如果把数据导入到数据库还是可以方便解决问题的。 因此,本文将使用稍微复杂的数据做演示,充分说明 pandas 是如何灵活处理各种数据。...本文要点: 使用 pandas 处理不规范数据pandas 中的索引。...如下: 为了管理方便,下面会把每个环节的处理放入一个独立的方法中 ---- 加载数据 代码如下: 由于这次的标题是第3行开始,因此 wrk.range('a3').current_region...注意索引0开始算。 values=arr[3:],第4行往后一大片作为值。 pd.DataFrame(values,columns=header) , 生成一个 DataFrame 。...---- 处理标题 pandas 的 DataFrame 最大的好处是,我们可以使用列名字操作数据,这样子就无需担心的位置变化。因此需要把标题处理好。

5K30

Pandas 学习手册中文第二版:11~15

这是因为连接首先按每个DataFrame对象的行索引标签对齐,然后第一个DataFrame对象然后是第二个对象填充,而不考虑行索引标签。...这些通常是确定两个日期之间的持续时间或另一个日期和/或时间开始特定时间间隔内计算日期的结果。...DateOffset为 Pandas 提供了智能,使其能够确定如何参考日期和时间开始计算特定的时间间隔。...新时间序列中的数据与旧数据一致,并可能导致许多NaN值。 使用填充方法可以部分解决此问题,但是其填充适当信息的能力受到限制。 重采样的不同之处在于,它不会执行纯对齐。...每个代表数据的第一和第三四分位数之间的值,并且在中位数处跨有一条线。

3.3K20

30 个小例子帮你快速掌握Pandas

读取数据集 本次演示使用Kaggle上提供的客户流失数据集[1]。 让我们将csv文件读取到pandas DataFrame开始。...我们删除了4,因此列数14减少到10。 2.读取时选择特定 我们只打算读取csv文件中的某些。读取时,列表将传递给usecols参数。如果您事先知道列名,则比以后删除更好。...尽管我们对loc和iloc使用了不同的列表示形式,但行值没有改变。原因是我们使用数字索引标签。因此,行的标签和索引都相同。 缺失值的数量已更改: ? 7.填充缺失值 fillna函数用于填充缺失值。...我们可以使用特定值,聚合函数(例如均值)或上一个或下一个值。 对于Geography,我将使用最常见的值。 ?...25.绘制直方图 Pandas不是数据可视化库,但用它创建一些基本图形还是非常简单的。 我发现使用Pandas创建基本图比使用其他数据可视化库更容易。 让我们创建Balance的直方图。

10.6K10

Day4.利用Pandas数据处理

在NumPy中数据结构是围绕ndarray展开的, 那么在Pandas中的核心数据结构是Series和 DataFrame,分别代表着一维的序列和二维的表结构。...基于这两种数据结构,Pandas可以对数据进行导入、清洗、处理、统计和输出。 Series对象 Series是Pandas中最基本的对象,代表着一维的序列,类似一种一维数组。...b 1 1 b 1 c 2 2 c 2 d 3 3 d 2 e 4 4 e 2 将一数据变为行索引的好处是,索引0开始,如果要按照表格中的一,如id中的序号,1...开始,可以将其指定为行索引顺序 ''' # 拓展: reset_index()把索引变成某一 可以自己尝试,就不演示了 添加数据 import pandas as pd from pandas import...,用append方法") df4=df.append(new,ignore_index=True) # ignore_index=False,表示不按原来的索引0开始自动递增 print(df4)

6K10

数据科学 IPython 笔记本 7.4 Pandas 对象介绍

在最基本的层面上,Pandas 对象可以认为是 NumPy 结构化数组的增强版本,其中行和用标签而不是简单的整数索引来标识。...我们将使用标准的 NumPy 和 Pandas 导入,来启动我们的代码会话: import numpy as np import pandas as pd Pandas 序列对象 Pandas Series...构造序列对象 我们已经看到了从头开始构建 Pandas Series的几种方法;所有这些都是以下内容的某个版本: >>> pd.Series(data, index=index) 其中index是一个可选参数...正如你可能将二维数组视为对齐的一维的有序序列一样,你可以将DataFrame视为对齐的Series对象的序列。在这里,“对齐”是指它们共享相同的索引。...字典将键映射到值,DataFrame将列名称映射到数据的Series。

2.3K10

小白也能看懂的Pandas实操演示教程(下)

5 pandas实现SQL操作 pandas实现对数据的增删改查 增:添加新行或增加新 dict={'Name':['LiuShunxiang','Zhangshan'], 'Sex':['...使用填充法时,相对于常数填充或者前项、后项填充使用众数,均值或中位数填充要更加合理些,这也是工作中常用的一个快捷手段。...8 多层索引使用 接下再讲一个Pandas中的重要功能,那就是多层索引序列的多层索引类似于Excel中如下形式。 ?...将多层次索引序列转换为数据的形式 s.unstack() 期中 期末 小张 1 2 老王 3 4 以上是对序列的多层次索引,接下来将对数据的多层次索引,多层索引的形式类似excel中的如下形式...在数据使用多层索引,可以将整个数据集控制在二维表结构中,这对于数据重塑和基于分组的操作(如数据透视表的生成)比较有帮助。以test_data二维数据为例,构造一个多层索引数据集。

2.4K20

地理空间数据的时间序列分析

在本文中,将经历一系列过程,从下载光栅数据开始,然后将数据转换为pandas数据,并为传统的时间序列分析任务进行设置。...在下一节中,我将提取这些值并将它们转换为pandas数据光栅文件中提取数据 现在进入关键步骤——提取每个366个光栅图像的像素值。...从这里开始,我们将采取额外的步骤将数据转换为时间序列对象。...), columns = ['date', 'rainfall_mm']) df.head() 现在我们有了一个pandas数据,但请注意,“日期”中的值是字符串,pandas尚不知道它代表日期...将日期设置为索引也是一个好主意。这有助于按不同日期和日期范围切片和过滤数据,并使绘图任务变得容易。我们首先将日期排序到正确的顺序,然后将该设置为索引

11010

Pandas 基础

Pandas 简介 ? Pandas Pandas 库基于 NumPy 构建,为 Python 编程语言提供易于使用数据结构和数据分析工具。 ?...Pandas 使用以下约定导入 Pandas import pandas as pd 帮助 help(pd.Series.loc) Pandas 数据结构 序列(Series) 能够保存任何数据类型的一维标记数组...dtype: int64 数据(DataFrame) 不同类型的二维标记数据结构,类似 Excel 表格 上面一行为列名 左侧一索引 - 姓 名 民族 姓别 年龄 1 贾 小武 汉 男 3 2...5 黄 7 宇 9 dtype: int64 中删除值(axis = 1) df.drop('姓', axis=1) 排序和排名 按轴标签排序 df.sort_index() 按轴的值排序...宇 12.0 玄 12.0 黄 5.0 dtype: float64 填充方法的算术运算 借助填充方法自行完成内部数据对齐 s.add(s3, fill_value=0)

85660

Pandas时序数据处理入门

作为一个几乎每天处理时间序列数据的人,我发现pandas Python包对于时间序列的操作和分析非常有用。 使用pandas操作时间序列数据的基本介绍开始前需要您已经开始进行时间序列分析。...如果想要处理已有的实际数据,可以使用pandas read_csv将文件读入数据开始,但是我们将从处理生成的数据开始。...2日的数据,我们可以使用如下索引。...您可能希望更频繁地向前填充数据,而不是向后填充。 在处理时间序列数据时,可能会遇到UNIX时间中的时间值。...以下是在处理时间序列数据时要记住的一些技巧和要避免的常见陷阱: 1、检查您的数据中是否有可能由特定地区的时间变化(如夏令时)引起的差异。

4.1K20

Pandas 学习手册中文第二版:6~10

和PeriodIndex 设置和重置索引 创建分层索引 使用分层索引选择数据 配置 Pandas 我们 Pandas 的标准配置开始,但是我们也加载了 S&P 500 数据,以供几个示例使用。...Pandas 的最新版本添加了RangeIndex作为Int64Index的优化。 它具有表示基于整数的索引的能力,该索引特定的整数值开始,具有结束的整数值,并且还可以指定步骤。...使用DatetimeIndex的日期时间索引 DatetimeIndex用于表示一组日期和时间。 这些在时间序列数据中得到了广泛使用,在这些时间序列数据中,以特定的时间间隔采样。...可以通过使用PeriodIndex并为索引中的时间段指定特定频率来对这些场景进行建模。 下面通过对2017-01开始的三个 1 个月周期进行建模进行演示。...Pandas 已经意识到,文件的第一行包含列名和数据中批量读取到数据帧的名称。 读取 CSV 文件时指定索引 在前面的示例中,索引是数字的,0开始,而不是按日期。

2.2K20

Pandas 学习手册中文第二版:1~5

正如我们将首先使用Series然后使用DataFrame所看到的那样,pandas 将结构化数据组织为一个或多个数据,每个都是一个特定数据类型,然后是零个或多个数据行的序列。...序列与 NumPy 数组相似,但是它的不同之处在于具有索引,该索引允许对项目进行更丰富的查找,而不仅仅是从零开始的数组索引值。 以下 Python 列表创建一个序列。: 输出包括两信息。...创建数据帧期间的行对齐 选择数据帧的特定和行 将切片应用于数据帧 通过位置和标签选择数据帧的行和 标量值查找 应用于数据帧的布尔选择 配置 Pandas 我们使用以下导入和配置语句开始本章中的示例...结果数据帧将由两个的并集组成,缺少的数据填充有NaN。 以下内容通过使用与df1相同的索引创建第三个数据帧,但只有一个的名称不在df1中来说明这一点。...此外,我们看到了如何替换特定行和中的数据。 在下一章中,我们将更详细地研究索引使用,以便能够有效地 pandas 对象内检索数据

8.1K10

Python中Pandas库的相关操作

1.Series(序列):Series是Pandas库中的一维标记数组,类似于带标签的数组。它可以容纳任何数据类型,并具有标签(索引),用于访问和操作数据。...2.DataFrame(数据):DataFrame是Pandas库中的二维表格数据结构,类似于电子表格或SQL中的表。它由行和组成,每可以包含不同的数据类型。...DataFrame可以各种数据源中创建,如CSV文件、Excel文件、数据库等。 3.Index(索引):索引Pandas中用于标识和访问数据的标签。它可以是整数、字符串或其他数据类型。...可以使用标签、位置、条件等方法来选择特定的行和。 5.缺失数据处理:Pandas具有处理缺失数据的功能,可以检测、删除或替换数据中的缺失值。...9.时间序列数据处理:Pandas对处理时间序列数据提供了广泛的支持,包括日期范围生成、时间戳索引、重采样等操作。

24130
领券