首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python pandas十分钟教程

包括如何导入数据集以及浏览,选择,清理,索引,合并和导出数据等常用操作的函数使用,这是一个很好的快速入门指南,如果你已经学习过pandas,那么这将是一个不错的复习。...import pandas as pd pandas默认情况,如果数据集中有很多,则并非所有都会显示输出显示。....unique():返回'Depth'的唯一值 df.columns:返回所有的名称 选择数据 选择:如果只想选择,可以使用df['Group']....要选择多个,可以使用df[['Group', 'Contour', 'Depth']]。 子集选择/索引:如果要选择特定的子集,我们可以使用.loc或.iloc方法。...基本使用方法如下: df.loc[:,['Contour']]:选择'Contour'的所有数据。 其中单冒号:选择所有行。 在逗号的左侧,您可以指定所需的行,并在逗号的右侧指定

9.8K50
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas之实用手册

一、一分钟入门Pandas1.1 加载数据最简单方法之一是,加载csv文件(格式类似Excel表文件),然后以多种方式对它们进行切片和切块:Pandas加载电子表格并在 Python 以编程方式操作它...用read_csv加载这个包含来自音乐流服务的数据的基本 CSV 文件:df = pandas.read_csv('music.csv')现在变量df是 pandas DataFrame:1.2 选择我们可以使用其标签选择任何...:使用数字选择一行或多行:也可以使用标签和行号来选择表的任何区域loc:1.3 过滤使用特定值轻松过滤行。...例如,按流派对数据集进行分组,看看每种流派有多少听众和剧目:Pandas 将两个“爵士乐”行组合为一行,由于使用了sum()聚合,因此它将两位爵士乐艺术家的听众和演奏加在一起,并在合并的爵士乐显示总和...除了 sum(),pandas 还提供了多种聚合函数,包括mean()计算平均值、min()、max()和多个其他函数。1.6 从现有创建新通常在数据分析过程,发现需要从现有创建新

14710

Pandas替换值的简单方法

这可能涉及从现有创建新,或修改现有以使它们适合更易于使用。为此,Pandas 提供了多种方法,您可以使用这些方法来处理 DataFrame 中所有数据类型的。...首先,让我们快速看一如何通过将“Of The”更改为“of the”来对表的“Film”进行简单更改。...某些情况使用查找和替换与定义的正则表达式匹配的所有内容可能更容易。 但是,在想要将不同的值更改为不同的替换值的情况,不必多次调用 replace 方法。...让我们做一些数据清理,并在 replace 方法中使用正则表达式删除这些数据。...首先,如果有多个想要匹配的正则表达式,可以列表定义它们,并将其作为关键字参数传递给 replace 方法。然后,只需要显式传递另一个关键字参数值来定义想要的替换值。

5.4K30

Pandas图鉴(四):MultiIndex

] ) 用多指标建立一个DataFrame 除了从CSV文件读取和从现有建立外,还有一些方法来创建MultiIndex。...Columns - 通过常规方括号 行和单元格--使用.loc[] 现在,如果想选择俄勒冈州的所有城市,或者只留下有人口的那一怎么办?...它感觉不够Pythonic,尤其是选择多个层次时。 这个方法无法同时过滤行和,所以名字xs(代表 "cross-section")背后的原因并不完全清楚。它不能用于设置值。...处理这种情况的首选方法是为pd.IndexSlice创建一个别名,并在.loc中使用它: idx=pd.IndexSlice; df.loc[:, idx[:, 'population']] 这更像是...你可以同时选择行和。 你可以学习如何使用slice来代替冒号。

46420

给数据科学家的10个提示和技巧Vol.3

该博客由一群数据科学家所运营,专注于讲解各种领域如何使用大数据技术(从机器学习和人工智能到业务领域)。 1 引言 前面已经介绍了一些数据分析的技巧,主要是用Python和R实现。...When … Else … End)”语句 SQL,Count(Case When … Else … End)是一个使用频率非常高的计数语句。...,例如id[gender=="m"]就是id找出male的数据并形成一个子集: > df%>%summarise(male_cnt=length(id[gender=="m"]),...3.2 利用applymap改变多个的值 通过一个示例演示如何使用applymap()函数更改pandas数据框多个值。...我们可以利用pandas,并在.to_csv()中使用mode=a参数,该参数的含义是追加: import os import pandas as pd # 遍历 My_Folder的所有文件 for

76840

pandas 入门 1 :数据集的创建和绘制

如果发现任何问题,我们将不得不决定如何处理这些记录。 分析数据- 我们将简单地找到特定年份中最受欢迎的名称。 现有数据- 通过表格数据和图表,清楚地向最终用户显示特定年份中最受欢迎的姓名。...除非另有指明,否则文件将保存在运行环境的相同位置。 df.to_csv? 我们将使用的唯一参数是索引和标头。将这些参数设置为False将阻止导出索引和标头名称。...在此分析,我不担心任何可能的异常值。 要意识到除了我们“名称”中所做的检查之外,简要地查看数据框内的数据应该是我们游戏的这个阶段所需要的。...解释一df ['Names'] - 这是婴儿名字的整个列表,整个名字栏 df ['Births'] - 这是1880年的整个出生列表,整个出生 df['Births'].max() - 这是Births...['Births'].max()] 等于选择NamesWHERE [Births等于973]的所有记录 另一种方法可能是使用Sorted dataframe: Sorted ['Names'].

6.1K10

Pandas与SQL的数据操作语句对照

就我个人而言,我发现真正有用的是思考如何在SQL操作数据,然后Pandas复制它。所以如果你想更加精通Pandas,我强烈建议你也采用这种方法。...# Pandas table_df SELECT a, b FROM 如果你想从一个表中选择特定的,列出你想要的双括号: # SQL SELECT column_a, column_b...AND 如果您希望通过多个条件进行筛选,只需将每个条件用圆括号括起来,并使用' & '分隔每个条件。...使用“ascending”参数指定是按升序排序还是按降序排序——默认情况像SQL一样是升序排序。...=False) ORDER BY 多 如果您希望按多个排序,请列出方括号并在方括号的' ascending '参数中指定排序的方向。

3.1K20

快速提升效率的6个pandas使用小技巧

对连续数据进行离散化处理 在数据准备过程,常常会组合或者转换现有特征以创建一个新的特征,其中将连续数据离散化是非常重要的特征转化方式,也就是将数值变成类别特征。...从多个文件构建一个DataFrame 有时候数据集可能分布多个excel或者csv文件,但需要把它读取到一个DataFrame,这样的需求该如何实现?...做法是分别读取这些文件,然后将多个dataframe组合到一起,变成一个dataframe。 这里使用内置的glob模块,来获取文件路径,简洁且更有效率。...在上图中,glob()指定目录查找所有以“ data_row_”开头的CSV文件。 glob()以任意顺序返回文件名,这就是为什么使用sort()函数对列表进行排序的原因。...concat()方法进行合并,得到结果: 「合并」 假设数据集按分布2个文件,分别是data_row_1.csv和data_row_2.csv 用以下方法可以逐合并: files = sorted

3.3K10

6个提升效率的pandas小技巧

还可以看缺失值的占比是多少,用df.isna().mean()方法: df.isna().mean() ? 注意:这里isnull()和isna()使用效果一样。 那如何处理缺失值呢?...对连续数据进行离散化处理 在数据准备过程,常常会组合或者转换现有特征以创建一个新的特征,其中将连续数据离散化是非常重要的特征转化方式,也就是将数值变成类别特征。...从多个文件构建一个DataFrame 有时候数据集可能分布多个excel或者csv文件,但需要把它读取到一个DataFrame,这样的需求该如何实现?...在上图中,glob()指定目录查找所有以“ data_row_”开头的CSV文件。 glob()以任意顺序返回文件名,这就是为什么使用sort()函数对列表进行排序的原因。...「合并」 假设数据集按分布2个文件,分别是data_row_1.csv和data_row_2.csv ?

2.8K20

6个提升效率的pandas小技巧

还可以看缺失值的占比是多少,用df.isna().mean()方法: df.isna().mean() ? 注意:这里isnull()和isna()使用效果一样。 那如何处理缺失值呢?...对连续数据进行离散化处理 在数据准备过程,常常会组合或者转换现有特征以创建一个新的特征,其中将连续数据离散化是非常重要的特征转化方式,也就是将数值变成类别特征。...从多个文件构建一个DataFrame 有时候数据集可能分布多个excel或者csv文件,但需要把它读取到一个DataFrame,这样的需求该如何实现?...在上图中,glob()指定目录查找所有以“ data_row_”开头的CSV文件。 glob()以任意顺序返回文件名,这就是为什么使用sort()函数对列表进行排序的原因。...「合并」 假设数据集按分布2个文件,分别是data_row_1.csv和data_row_2.csv ?

2.4K20

快速解释如何使用pandas的inplace参数

介绍 操作dataframe时,初学者有时甚至是更高级的数据科学家会对如何在pandas中使用inplace参数感到困惑。 更有趣的是,我看到的解释这个概念的文章或教程并不多。...注意,age、second name和children中有一些缺失值(nan)。 现在我们将演示dropna()函数如何使用inplace参数工作。...它用所需的操作修改现有的dataframe,并在原始dataframe上“就地”(inplace)执行。 如果在dataframe上运行head()函数,应该会看到有两行被删除。...那么,为什么会有使用inplace=True产生错误呢?我不太确定,可能是因为有些人还不知道如何正确使用这个参数。让我们看看一些常见的错误。...常见错误 使用inplace = True处理一个片段 如果我们只是想去掉第二个name和age的NaN,而保留number of children不变,我们该怎么办?

2.4K20

10快速入门Query函数使用的Pandas的查询示例

=,>,<,≥,≤中选择,例如 df.query("Quantity != 95") 文本过滤 对于文本过滤时,条件是列名与字符串进行比较。 请Query()表达式已经是字符串。...那么如何在另一个字符串写一个字符串?...与数值的类似可以同一或不同列上使用多个条件,并且可以是数值和非数值列上条件的组合。...除此以外, Pandas Query()还可以查询表达式中使用数学计算 查询的简单数学计算 数学操作可以是的加,减,乘,除,甚至是中值或者平方等,如下所示: 示例6 df.query("Shipping_Cost...日期时间过滤 使用Query()函数日期时间值上进行查询的唯一要求是,包含这些值的应为数据类型dateTime64 [ns] 示例数据,OrderDate是日期时间,但是我们的df其解析为字符串

4.4K10

《Python for Excel》读书笔记连载11:使用pandas进行数据分析之组合数据

在下一章,我们将使用它从多个CSV文件中生成单个数据框架: pd.concat([df1,df2, df3, …]) 而join和merge只适用于两个数据框架,这是我们下面介绍的内容。...图5-3通过使用两个示例数据框架df1和df2,展示了四种联接类型(即内联接Inner、左联接Left、右联接Right和外联接Outer)如何工作。...左联接(leftjoin)获取左数据框架df1的所有行,并在索引上匹配右数据框架df2的行,df2没有匹配行的地方,pandas将填充NaN。左联接对应于Excel的VLOOKUP情况。...表5-5.联接类型 让我们看看它们在实践如何运作的,将图5-3的示例付诸实践: 如果要在一个或多个数据框架列上联接而不是依赖索引,那么使用“合并”(merge)而不是“联接”(join)。...现在知道了如何操作一个或多个数据框架,是时候进入数据分析旅程的下一步:理解数据。

2.5K20

10个快速入门Query函数使用的Pandas的查询示例

使用单一条件进行过滤 单个条件进行过滤时,Query()函数中表达式仅包含一个条件。返回的输出将包含该表达式评估为真的所有行。...=,>,<,≥,≤中选择,例如: df.query("Quantity != 95") 文本过滤 对于文本过滤时,条件是列名与字符串进行比较。 请Query()表达式已经是字符串。...那么如何在另一个字符串写一个字符串?将文本值包装在单个引号“”,就可以了。...与数值的类似可以同一或不同列上使用多个条件,并且可以是数值和非数值列上条件的组合。 除此以外, Pandas Query()还可以查询表达式中使用数学计算。...日期时间过滤 使用Query()函数日期时间值上进行查询的唯一要求是,包含这些值的应为数据类型dateTime64 [ns] 示例数据,OrderDate是日期时间,但是我们的df其解析为字符串

4.4K20

整理了10个经典的Pandas数据查询案例

使用单一条件进行过滤 单个条件进行过滤时,Query()函数中表达式仅包含一个条件。返回的输出将包含该表达式评估为真的所有行。...=,>,<,≥,≤中选择,例如: df.query("Quantity != 95") 文本过滤 对于文本过滤时,条件是列名与字符串进行比较。 请query()表达式已经是字符串。...那么如何在另一个字符串写一个字符串?将文本值包装在单个引号“”,就可以了。...与数值的类似可以同一或不同列上使用多个条件,并且可以是数值和非数值列上条件的组合。 除此以外, Pandas的query()方法还可以查询表达式中使用数学计算。...日期时间过滤 使用query()函数日期时间值上进行查询的唯一要求是,包含这些值的应为数据类型dateTime64 [ns] 示例数据,OrderDate是日期时间,但是我们的df其解析为字符串

21020

整理了10个经典的Pandas数据查询案例

使用单一条件进行过滤 单个条件进行过滤时,Query()函数中表达式仅包含一个条件。返回的输出将包含该表达式评估为真的所有行。...=,>,<,≥,≤中选择,例如: df.query("Quantity != 95") 文本过滤 对于文本过滤时,条件是列名与字符串进行比较。 请query()表达式已经是字符串。...那么如何在另一个字符串写一个字符串?将文本值包装在单个引号“”,就可以了。...与数值的类似可以同一或不同列上使用多个条件,并且可以是数值和非数值列上条件的组合。 除此以外, Pandas的query()方法还可以查询表达式中使用数学计算。...日期时间过滤 使用query()函数日期时间值上进行查询的唯一要求是,包含这些值的应为数据类型dateTime64 [ns] 示例数据,OrderDate是日期时间,但是我们的df其解析为字符串

3.9K20

PyGWalker,一个用可视化的方式操作 pandas 数据集的库

安装 使用pygwalker之前,请确保使用pip通过命令行安装软件包。...Jupyter笔记本中使用pygwalker 将pygwalker和pandas导入您的Jupyter笔记本以开始。...import pandas as pd import pygwalker as pyg 您可以不破坏现有工作流的情况使用pygwalker。...你可以用Graphic Walker做一些很酷的事情: 您可以将标记类型更改为其他类型以制作不同的图表,例如,折线图: 要比较不同的度量值,可以通过将多个度量值添加到行/来创建凹面视图。...若要创建由维度的值划分的多个子视图的分面视图,请将维度放入行或以创建分面视图。规则类似于Tableau。 您可以查看表的数据框架,并配置分析类型和语义类型。

40110

精通 Pandas 探索性分析:1~4 全

二、数据选择 本章,我们将学习使用 Pandas 进行数据选择的高级技术,如何选择数据子集,如何从数据集中选择多个行和如何对 Pandas 数据帧或一序列数据进行排序,如何过滤 Pandas 数据帧的角色...本节,我们将学习更多有关从读取到 Pandas 的数据集中选择多个行和的方法的信息。...我们还学习了如何从数据集中选择多个角色和。 我们学习了如何对 Pandas 数据帧或序列进行排序。...本节,我们学习了如何使用groupby方法将数据拆分和聚合为组。 我们将groupby方法分解为多个部分,以探讨其工作方式。...接下来,我们了解如何将函数应用于多个或整个数据帧的值。 我们可以使用applymap()方法。 它以类似于apply()方法的方式工作,但是或整个数据帧上。

28.1K10
领券