首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas图鉴(三):DataFrames

它由许多系列对象组成(有一个共享的索引),每个对象代表一个列,可能有不同的dtypes。...df.shape返回行和列的数量。 df.info()总结了所有相关信息 还可以将一个或几个列设置为索引。...如果该列已经在索引中,你可以使用join(这只是merge的一个别名,left_index或right_index设置为True,默认值不同)。...现在,如果要合并的列已经在右边DataFrame的索引中,请使用join(或者用right_index=True进行合并,这完全是同样的事情): join()在默认情况下做左外连接 这一次,Pandas...要将其转换为宽格式,请使用df.pivot: 这条命令抛弃了与操作无关的东西(即索引和价格列),并将所要求的三列信息转换为长格式,将客户名称放入结果的索引中,将产品名称放入其列中,将销售数量放入其 "

44420

python数据科学系列:pandas入门详细教程

[ ],这是一个非常便捷的访问方式,不过需区分series和dataframe两种数据结构理解: series:既可以用标签也可以用数字索引访问单个元素,还可以用相应的切片访问多个值,因为只有一维信息,...例如,当标签列类型(可通过df.index.dtype查看)为时间类型时,若使用无法隐式转换为时间的字符串作为索引切片,则引发报错 ? 切片形式返回行查询,且为范围查询 ?...与[ ]访问类似,loc按标签访问时也是执行范围查询,包含两端结果 at/iat,loc和iloc的特殊形式,不支持切片访问,仅可以用单个标签值或单个索引值进行访问,一般返回标量结果,除非标签值存在重复...ix,可混合使用标签和数字索引,但往往容易混乱,所以现已弃用 05 数据处理 ?...字符串向量化,即对于数据类型为字符串格式的一列执行向量化的字符串操作,本质上是调用series.str属性的系列接口,完成相应的字符串操作。

15K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Pandas知识点-连接操作concat

    这些方法都可以将多个Series或DataFrame组合到一起,返回一个新的Series或DataFrame。每个方法在用法上各有特点,可以适用于不同的场景,本系列会逐一进行介绍。...这个例子中,两个DataFrame的行索引和列索引都不相等,将它们按行连接时,先将两个DataFrame的行拼接起来,然后在每行中没有数据的列填充空值。按列连接同理。...按列连接同理。 ? 四按列连接时修改行索引 ---- ? 按列连接时,可以使用reindex()方法修改结果的行索引(按行连接时不支持)。...按行连接时,设置ignore_index为True,结果的行索引被重设为0开始的整数索引。按列连接时,则列索引被重设。 六添加外层行索引 ---- ?...对不是多重行索引的数据,levels参数不支持,会报错。 当然,添加进去的值在结果中不会显示,因为没有对应的数据,这个功能基本上也不会使用。 ?

    2.6K50

    python数据分析——数据的选择和运算

    Python的Pandas库为我们提供了强大的数据选择工具。通过DataFrame的结构化数据存储方式,我们可以轻松地按照行或列进行数据的选择。...(data) data[1:5:2,1:5:2] 【例】请使用Python对如下的二维数组进行提取,选择第一行第二列的数据元素并输出。...数据获取 ①列索引取值 使用单个值或序列,可以从DataFrame中索引出一个或多个列。...关键技术:如果DataFrame行索引和当前分析工作无关且不需要展示,需要将ignore_index设置为True。请注意,索引会完全更改,键也会被覆盖。 【例】按列合并对象。...关键技术:可以使用乘法运算符*,程序如下所示: 【例】请使用Python对给定数组的元素进行以e为底的对数函数(log)的操作。

    19310

    Pandas图鉴(四):MultiIndex

    你可以在DataFrame从CSV解析出来后指定要包含在索引中的列,也可以直接作为read_csv的参数。...比如说: 用MultiIndex编制索引 通过MultiIndex访问DataFrame的好处是,可以很容易地一次引用所有层次(可能会省略内部层次),而且语法很好,很熟悉。...作为一维的,Series在不同情况下可以作为行向量或列向量,但通常被认为是列向量(例如DataFrame的列)。 比如说: 也可以通过名称或位置索引来指定要堆叠/取消堆叠的级别。...官方Pandas文档有一个表格[4],列出了所有~20种支持的格式。 多指标算术 在整体使用多索引DataFrame的操作中,适用与普通DataFrame相同的规则(见第三部分)。...一种方法是将所有不相关的列索引层层叠加到行索引中,进行必要的计算,然后再将它们解叠回来(使用pdi.lock来保持原来的列顺序)。

    62120

    最近,又发现了Pandas中三个好用的函数

    我们知道,Pandas中的DataFrame有很多特性,比如可以将其视作是一种嵌套的字典结构:外层字典的key为各个列名(column),相应的value为对应各列,而各列实际上即为内层字典,其中内层字典的...key即为行索引,相应的value则为对应取值。...首先来看函数的签名文档: 而后,仍以前述DataFrame为例,查看其返回结果: 这里仍然显式转化为list输出 结果不出所料:返回结果包含5个元组对,其中各元组的第一个值为相应的行索引,第二个值为对应行的...示例DataFrame的各列信息 那么,如果想要保留DataFrame中各列的原始数据类型时,该如何处理呢?这就需要下面的itertuples。...namedtuple除了可以使用索引来访问各元素取值外,还支持以各位置的'name'来访问元素(类似于C语言中的结构体类型),或者说namedtuple可以很方便的无缝转换为dict。

    2K10

    Python进阶之Pandas入门(三) 最重要的数据流操作

    .head()默认输出DataFrame的前五行,但是我们也可以传递一个数字:例如,movies_df.head(10)将输出前十行。 要查看最后五行,请使用.tail()。....通常,当我们加载数据集时,我们喜欢查看前五行左右的内容,以了解隐藏在其中的内容。在这里,我们可以看到每一列的名称、索引和每行中的值示例。...您将注意到,DataFrame中的索引是Title列,您可以通过单词Title比其他列稍微低一些的方式看出这一点。...,比如行和列的数量、非空值的数量、每个列中的数据类型以及DataFrame使用了多少内存。...假设您刚刚导入了一些JSON,而这些整数被记录为字符串。你去做一些算术,发现一个“不支持的操作数”异常,因为你不能用字符串做算术。调用.info()会很快指出,您认为所有的整数实际上都是字符串对象。

    2.7K20

    一文介绍Pandas中的9种数据访问方式

    "访问 切片形式访问时按行进行查询,又区分数字切片和标签切片两种情况:当输入数字索引切片时,类似于普通列表切片;当输入标签切片时,执行范围查询(即无需切片首末值存在于标签列中),包含两端标签结果,无匹配行时返回为空...例如,当标签列类型(可通过df.index.dtype查看)为时间类型时,若使用无法隐式转换为时间的字符串作为索引切片,则引发报错 ? 切片形式返回行查询,且为范围查询 ?...3. at/iat,其实是可看分别做为loc和iloc的一种特殊形式,只不过不支持切片访问,仅可用于单值提取,即指定单个标签值或单个索引值进行访问,一般返回标量结果,除非标签值存在重复。...4. isin,条件范围查询,一般是对某一列判断其取值是否在某个可迭代的集合中。即根据特定列值是否存在于指定列表返回相应的结果。 5. where,妥妥的Pandas仿照SQL中实现的算子命名。...实际上,这里的lookup可看做是loc的一种特殊形式,即分别传入一组行标签和列标签,lookup解析成一组行列坐标,返回相应结果: ?

    3.8K30

    Pandas笔记

    DataFrame是一个类似于表格(有行有列)的数据类型,可以理解为一个二维数组,索引有两个维度(行级索引,列级索引),可更改。...DataFrame具有以下特点: 列和列之间可以是不同的类型 :不同的列的数据类型可以不同 大小可变 (扩容) 标记轴(行级索引 和 列级索引) 针对行与列进行轴向统计(水平,垂直) import pandas...⭐️核心数据结构操作 行和列的增删改查 列访问 DataFrame的单列数据为一个Series。...loc方法使用方法如下: ​ 只支持索引名称,不支持索引位置 import pandas as pd d = {'one' : pd.Series([1, 2, 3], index=['a', 'b'...找行的方式,因为底层有赋值的过程 # 如果通过行找列,因为底层没有赋值的过程,所以没有效果,不会修改成功 ⭐️复合索引 DataFrame的行级索引与列级索引都可以设置为复合索引,表示从不同的角度记录数据

    7.7K10

    Pandas vs Spark:获取指定列的N种方式

    导读 本篇继续Pandas与Spark常用操作对比系列,针对常用到的获取指定列的多种实现做以对比。...因此,如果从DataFrame中单独取一列,那么得到的将是一个Series(当然,也可以将该列提取为一个只有单列的DataFrame,但本文仍以提取单列得到Series为例)。...,此处用单个列名即表示提取单列,提取结果为该列对应的Series,若是用一个列名组成的列表,则表示提取多列得到一个DataFrame子集; df.iloc[:, 0]:即通过索引定位符iloc实现,与loc...类似,只不过iloc中传入的为整数索引形式,且索引从0开始;仍与loc类似,此处传入单个索引整数,若传入多个索引组成的列表,则仍然提取得到一个DataFrame子集。...:Spark中的DataFrame每一列的类型为Column、行为Row,而Pandas中的DataFrame则无论是行还是列,都是一个Series;Spark中DataFrame有列名,但没有行索引,

    11.5K20

    如何在Python 3中安装pandas包和使用数据结构

    ], name='Squares') 现在,让我们打电话给系列,这样我们就可以看到pandas的作用: s 我们将看到以下输出,左列中的索引,右列中的数据值。...索引和切片系列 使用pandasSeries,我们可以通过相应的数字索引来检索值: avg_ocean_depth[2] 3741 我们还可以按索引号切片来检索值: avg_ocean_depth[2:...用字典初始化的系列 有了pandas,我们也可以用字典数据类型来初始化一个系列。这样,我们不会将索引声明为单独的列表,而是使用内置键作为索引。...第一个系列将是我们之前的avg_ocean_depth系列,第二个max_ocean_depth系列将包含地球上每个海洋最大深度的数据,以米为单位。...在我们的示例中,这两个系列都具有相同的索引标签,但如果您使用具有不同标签的Series,则会标记缺失值NaN。 这是以我们可以包含列标签的方式构造的,我们将其声明为Series'变量的键。

    19.5K00

    Python面试十问2

    此外,你可以通过传递参数来调整df.describe()的行为,例如include参数可以设置为'all'来包含所有列的统计信息,或者设置为'O'来仅包含对象列的统计信息。...df.info():主要用于提供关于DataFrame的一般信息,如列索引、数据类型、非空值数量以及内存使用情况。它不会提供数值型数据的统计摘要,而是更多地关注于数据集的整体结构和数据类型。...语法: DataFrame.set_index(keys, inplace=False) keys:列标签或列标签/数组列表,需要设置为索引的列 inplace:默认为False,适当修改DataFrame...Pandas提供了一系列内置函数,如sum()、mean()、max()、min()等,用于对数据进行聚合计算。此外,还可以使用apply()方法将自定义函数应用于DataFrame或Series。...先分组,再⽤ sum()函数计算每组的汇总数据  多列分组后,⽣成多层索引,也可以应⽤ sum 函数 分组后可以使用如sum()、mean()、min()、max()等聚合函数来计算每个组的统计值。

    8810

    Pandas Sort:你的 Python 数据排序指南

    行和列都有索引,它是数据在 DataFrame 中位置的数字表示。您可以使用 DataFrame 的索引位置从特定行或列中检索数据。默认情况下,索引号从零开始。您也可以手动分配自己的索引。...准备数据集 在本教程中,您将使用美国环境保护署 (EPA) 为 1984 年至 2021 年间制造的车辆编制的燃油经济性数据。...要将其更改为稳定的排序算法,请使用mergesort。...对 DataFrame 的列进行排序 您还可以使用 DataFrame 的列标签对行值进行排序。使用设置为.sort_index()的可选参数将按列标签对 DataFrame 进行排序。...DataFrame的轴指的是索引 ( axis=0) 或列 ( axis=1)。您可以使用这两个轴来索引和选择DataFrame 中的数据以及对数据进行排序。

    14.3K00

    十分钟入门 Pandas

    (),为DataFrame中的每一行返回一个产生一个命名元祖的迭代器,元祖的第一个元素将是行的相应索引值,剩余的值是行值 print('itertuples:') for row in dataFrame.itertuples...# 5、split(' ') 用给定的模式拆分每个字符串。 # 6、cat(sep=' ') 使用给定的分隔符连接系列/索引元素。...# 12、startswith(pattern) 如果系列/索引中的元素以模式开始,则返回true。 # 13、endswith(pattern) 如果系列/索引中的元素以模式结束,则返回true。...# 17、islower() 检查系列/索引中每个字符串中的所有字符是否小写,返回布尔值 # 18、isupper() 检查系列/索引中每个字符串中的所有字符是否大写,返回布尔值 # 19、isnumeric...() 检查系列/索引中每个字符串中的所有字符是否为数字,返回布尔值。

    3.7K30

    玩转Pandas,让数据处理更easy系列4

    01 系列回顾 玩转Pandas系列已经连续推送3篇,尽量贴近Pandas的本质原理,结合工作实践,按照使用Pandas的逻辑步骤,系统地并结合实例推送Pandas的主要常用功能,已经推送的3篇文章:...02 Pandas核心应用场景 按照使用逻辑,盘点Pandas的主要可以做的事情: 能将Python, Numpy的数据结构灵活地转换为Pandas的DataFrame结构(玩转Pandas,让数据处理更...easy系列1; 玩转Pandas,让数据处理更easy系列2) DataFrame可以方便地实现增加和删除行、列 ( 玩转Pandas,让数据处理更easy系列2) 智能地带标签的切片,好玩的索引提取大数据集的子集...ok,现在我想作如下转化,index设置为foo, columns设置为bar, values设置为baz列, df.pivot(index='foo', columns='bar',values='baz...默认情况下,排序中等于NaN的值相应地位于后面,如果设置na_position='first',才会将NaN值位于前面; 排序默认不是就地排序,inplace=False; 多列排序中,第一个参数是主排序字段

    1.1K31

    十分钟入门Pandas

    (),为DataFrame中的每一行返回一个产生一个命名元祖的迭代器,元祖的第一个元素将是行的相应索引值,剩余的值是行值 print('itertuples:') for row in dataFrame.itertuples...# 5、split(' ') 用给定的模式拆分每个字符串。 # 6、cat(sep=' ') 使用给定的分隔符连接系列/索引元素。...# 12、startswith(pattern) 如果系列/索引中的元素以模式开始,则返回true。 # 13、endswith(pattern) 如果系列/索引中的元素以模式结束,则返回true。...# 17、islower() 检查系列/索引中每个字符串中的所有字符是否小写,返回布尔值 # 18、isupper() 检查系列/索引中每个字符串中的所有字符是否大写,返回布尔值 # 19、isnumeric...() 检查系列/索引中每个字符串中的所有字符是否为数字,返回布尔值。

    4K30

    python对100G以上的数据进行排序,都有什么好的方法呢

    行和列都有索引,它是数据在 DataFrame 中位置的数字表示。您可以使用 DataFrame 的索引位置从特定行或列中检索数据。默认情况下,索引号从零开始。您也可以手动分配自己的索引。...准备数据集 在本教程中,您将使用美国环境保护署 (EPA) 为 1984 年至 2021 年间制造的车辆编制的燃油经济性数据。...要将其更改为稳定的排序算法,请使用mergesort。...对 DataFrame 的列进行排序 您还可以使用 DataFrame 的列标签对行值进行排序。使用设置为.sort_index()的可选参数将按列标签对 DataFrame 进行排序。...DataFrame的轴指的是索引 ( axis=0) 或列 ( axis=1)。您可以使用这两个轴来索引和选择DataFrame 中的数据以及对数据进行排序。

    10K30
    领券