首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

直观地解释和可视化每个复杂的DataFrame操作

Pivot 透视表将创建一个新的“透视表”,该透视表将数据中的现有列投影为新表的元素,包括索引,列和值。初始DataFrame中将成为索引的列,并且这些列显示为唯一值,而这两列的组合将显示为值。...我们选择一个ID,一个维度和一个包含值的列/列。包含值的列将转换为两列:一列用于变量(值列的名称),另一列用于值(变量中包含的数字)。 ?...Stack 堆叠采用任意大小的DataFrame,并将列“堆叠”为现有索引的子索引。因此,所得的DataFrame仅具有一列和两级索引。 ? 堆叠名为df的表就像df.stack()一样简单 。...合并不是pandas的功能,而是附加到DataFrame。始终假定合并所在的DataFrame是“左表”,在函数中作为参数调用的DataFrame是“右表”,并带有相应的键。...为了防止这种情况,请添加一个附加参数join ='inner',该参数 只会串联两个DataFrame共有的列。 ? 切记:在列表和字符串中,可以串联其他项。

13.3K20

python数据科学系列:pandas入门详细教程

和DML操作在pandas中都可以实现 类比Excel的数据透视表功能,Excel中最为强大的数据分析工具之一是数据透视表,这在pandas中也可轻松实现 自带正则表达式的字符串向量化操作,对pandas...、切片访问、通函数、广播机制等 series是带标签的一维数组,所以还可以看做是类字典结构:标签是key,取值是value;而dataframe则可以看做是嵌套字典结构,其中列名是key,每一列的series...count、value_counts,前者既适用于series也适用于dataframe,用于按列统计个数,实现忽略空值后的计数;而value_counts则仅适用于series,执行分组统计,并默认按频数高低执行降序排列...2 分组聚合 pandas的另一个强大的数据分析功能是分组聚合以及数据透视表,前者堪比SQL中的groupby,后者媲美Excel中的数据透视表。...两种数据结构作图,区别仅在于series是绘制单个图形,而dataframe则是绘制一组图形,且在dataframe绘图结果中以列名为标签自动添加legend。

15K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    手把手教你做一个“渣”数据师,用Python代替老情人Excel

    二、查看的数据的属性 现在我们有了DataFrame,可以从多个角度查看数据了。Pandas有很多我们可以使用的功能,接下来将使用其中一些来看下我们的数据集。...2、查看多列 ? 3、查看特定行 这里使用的方法是loc函数,其中我们可以指定以冒号分隔的起始行和结束行。注意,索引从0开始而不是1。 ? 4、同时分割行和列 ? 5、在某一列中筛选 ?...11、在Excel中复制自定义的筛选器 ? 12、合并两个过滤器的计算结果 ? 13、包含Excel中的功能 ? 14、从DataFrame获取特定的值 ?...有四种合并选项: left——使用左侧DataFrame中的共享列并匹配右侧DataFrame,N/A为NaN; right——使用右侧DataFrame中的共享列并匹配左侧DataFrame,N/A为...NaN; inner——仅显示两个共享列重叠的数据。

    8.4K30

    我用Python展示Excel中常用的20个操

    ,"高","低")),将薪资大于10000的设为高,低于10000的设为低,添加一列在最后 ?...数据交换 说明:交换指定数据 Excel 在Excel中交换数据是很常用的操作,以交换示例数据中地址与岗位两列为例,可以选中地址列,按住shift键并拖动边缘至下一列松开即可 ?...Pandas 在pandas中交换两列也有很多方法,以交换示例数据中地址与岗位两列为例,可以通过修改列号来实现 ?...数据合并 说明:将两列或多列数据合并成一列 Excel 在Excel中可以使用公式也可以使用Ctrl+E快捷键完成多列合并,以公式为例,合并示例数据中的地址+岗位列步骤如下 ?...Pandas 在Pandas中没有现成的vlookup函数,所以实现匹配查找需要一些步骤,首先我们读取该表格 ? 接着将该dataframe切分为两个 ?

    5.6K10

    整理了 25 个 Pandas 实用技巧,拿走不谢!

    你可以对前两列使用astype()函数: ? 但是,如果你对第三列也使用这个函数,将会引起错误,这是因为这一列包含了破折号(用来表示0)但是pandas并不知道如何处理它。...第一个步骤是只读取那些你实际上需要用到的列,可以调用usecols参数: ? 通过仅读取用到的两列,我们将DataFrame的空间大小缩小至13.6KB。...神奇的是,pandas已经将第一列作为索引了: ? 需要注意的是,如果你想要你的工作在未来可复制,那么read_clipboard()并不值得推荐。 12....如果我们想要划分一个字符串,但是仅保留其中一个结果列呢?比如说,让我们以", "来划分location这一列: ?...如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至DataFrame: ? 17.

    3.2K10

    【说站】python中pandas有哪些功能特色

    2、便捷的数据读写操作,相比于numpy仅支持数字索引,pandas的两种数据结构均支持标签索引,包括bool索引也是支持的。...3、类比SQL的join和groupby功能,pandas可以很容易实现SQL这两个核心功能,实际上,SQL的绝大部分DQL和DML操作在pandas中都可以实现。...4、类比Excel的数据透视表功能,Excel中最为强大的数据分析工具之一是数据透视表,这在pandas中也可轻松实现。...5、自带正则表达式的字符串向量化操作,对pandas中的一列字符串进行通函数操作,而且自带正则表达式的大部分接口。 丰富的时间序列向量化处理接口。...0, 1, (10, 5)) pd.DataFrame(stock_change) # 添加行索引 stock = ["股票{}".format(i) for i in range(10)] pd.DataFrame

    73520

    整理了25个Pandas实用技巧(下)

    从剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中,你又想要尽快地将他们读取至DataFrame中。 你需要选择这些数据并复制至剪贴板。...: 神奇的是,pandas已经将第一列作为索引了: 需要注意的是,如果你想要你的工作在未来可复制,那么read_clipboard()并不值得推荐。...我们将会使用str.split()函数,告诉它以空格进行分隔,并将结果扩展成一个DataFrame: 这三列实际上可以通过一行代码保存至原来的DataFrame: 如果我们想要划分一个字符串,但是仅保留其中一个结果列呢...比如说,让我们以", "来划分location这一列: 如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至DataFrame: Series扩展成DataFrame 让我们创建一个新的示例...DataFrame: 这里有两列,第二列包含了Python中的由整数元素组成的列表。

    2.4K10

    最全面的Pandas的教程!没有之一!

    构建一个 DataFrame 对象的基本语法如下: 举个例子,我们可以创建一个 5 行 4 列的 DataFrame,并填上随机数据: 看,上面表中的每一列基本上就是一个 Series ,它们都用了同一个...增加数据列有两种办法:可以从头开始定义一个 pd.Series,再把它放到表中,也可以利用现有的列来产生需要的新列。比如下面两种操作: 定义一个 Series ,并放入 'Year' 列中: ?...其中 left 参数代表放在左侧的 DataFrame,而 right 参数代表放在右边的 DataFrame;how='inner' 指的是当左右两个 DataFrame 中存在不重合的 Key 时,...数据透视表 在使用 Excel 的时候,你或许已经试过数据透视表的功能了。数据透视表是一种汇总统计表,它展现了原表格中数据的汇总统计结果。...Pandas 数据透视表的语法是 .pivot_table(data, values='', index=[''], columns=['']) ,其中 values 代表我们需要汇总统计的数据点所在的列

    26K64

    PySpark SQL——SQL和pd.DataFrame的结合体

    select:查看和切片 这是DataFrame中最为常用的功能之一,用法与SQL中的select关键字类似,可用于提取其中一列或多列,也可经过简单变换后提取。...这里补充groupby的两个特殊用法: groupby+window时间开窗函数时间重采样,对标pandas中的resample groupby+pivot实现数据透视表操作,对标pandas中的pivot_table...:删除指定列 最后,再介绍DataFrame的几个通用的常规方法: withColumn:在创建新列或修改已有列时较为常用,接收两个参数,其中第一个参数为函数执行后的列名(若当前已有则执行修改,否则创建新列...DataFrame基础上增加或修改一列,并返回新的DataFrame(包括原有其他列),适用于仅创建或修改单列;而select准确的讲是筛选新列,仅仅是在筛选过程中可以通过添加运算或表达式实现创建多个新列...实际上show是spark中的action算子,即会真正执行计算并返回结果;而前面的很多操作则属于transform,仅加入到DAG中完成逻辑添加,并不实际执行计算 take/head/tail/collect

    10K20

    从pandas中的这几个函数,我看懂了道家“一生二、二生三、三生万物”

    而其中的几个聚合统计函数,不仅常用更富有辩证思想,细品之下不禁让人拍手称快、直呼叫好! ? 本文主要讲解pandas中的7个聚合统计相关函数,所用数据创建如下: ?...如果说前面的三个函数主要适用于pandas中的一维数据结构series的话(nunique也可用于dataframe),那么接下来的这两个函数则是应用于二维dataframe。...05 pivot_table pivot_table是pandas中用于实现数据透视表功能的函数,与Excel中相关用法如出一辙。 何为数据透视表?...数据透视表本质上仍然数据分组聚合的一种,只不过是以其中一列的唯一值结果作为行、另一列的唯一值结果作为列,然后对其中任意(行,列)取值坐标下的所有数值进行聚合统计,就好似完成了数据透视一般。...在以上参数中,最重要的有4个: values:用于透视统计的对象列名 index:透视后的行索引所在列名 columns:透视后的列索引所在列名 aggfunc:透视后的聚合函数,默认是求均值 这里仍然以求各班每门课程的平均分为例

    2.5K10

    在Python中利用Pandas库处理大数据

    如果只想移除全部为空值的列,需要加上 axis 和 how 两个参数: df.dropna(axis=1, how='all') 共移除了14列中的6列,时间也只消耗了85.9秒。...接下来是处理剩余行中的空值,经过测试,在 DataFrame.replace() 中使用空字符串,要比默认的空值NaN节省一些空间;但对整个CSV文件来说,空列只是多存了一个“,”,所以移除的9800万...对数据列的丢弃,除无效值和需求规定之外,一些表自身的冗余列也需要在这个环节清理,比如说表中的流水号是某两个字段拼接、类型描述等,通过对这些数据的丢弃,新的数据文件大小为4.73GB,足足减少了4.04G...DataFrame.astype() 方法可对整个DataFrame或某一列进行数据格式转换,支持Python和NumPy的数据类型。...pandas.merge ,groupby 9800万行 x 3列的时间为99秒,连接表为26秒,生成透视表的速度更快,仅需5秒。

    2.9K90

    Pandas速查手册中文版

    如果你想学习Pandas,建议先看两个网站。...(1)官网: Python Data Analysis Library (2)十分钟入门Pandas: 10 Minutes to pandas 在第一次学习Pandas的过程中,你会发现你需要记忆很多的函数和方法...():检查DataFrame对象中的空值,并返回一个Boolean数组 pd.notnull():检查DataFrame对象中的非空值,并返回一个Boolean数组 df.dropna():删除所有包含空值的行...):返回按列col1分组的所有列的均值 data.apply(np.mean):对DataFrame中的每一列应用函数np.mean data.apply(np.max,axis=1):对DataFrame...中的每一行应用函数np.max 数据合并 df1.append(df2):将df2中的行添加到df1的尾部 df.concat([df1, df2],axis=1):将df2中的列添加到df1的尾部 df1

    12.2K92

    【学习】在Python中利用Pandas库处理大数据的简单介绍

    如果只想移除全部为空值的列,需要加上 axis 和 how 两个参数: df.dropna(axis=1, how='all') 共移除了14列中的6列,时间也只消耗了85.9秒。...接下来是处理剩余行中的空值,经过测试,在 DataFrame.replace() 中使用空字符串,要比默认的空值NaN节省一些空间;但对整个CSV文件来说,空列只是多存了一个“,”,所以移除的9800万...对数据列的丢弃,除无效值和需求规定之外,一些表自身的冗余列也需要在这个环节清理,比如说表中的流水号是某两个字段拼接、类型描述等,通过对这些数据的丢弃,新的数据文件大小为4.73GB,足足减少了4.04G...DataFrame.astype() 方法可对整个DataFrame或某一列进行数据格式转换,支持Python和NumPy的数据类型。...以及 pandas.merge ,groupby 9800万行 x 3列的时间为99秒,连接表为26秒,生成透视表的速度更快,仅需5秒。

    3.2K70

    通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

    在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引值实际上可用于引用行。...在 Excel 中,您将下载并打开 CSV。在 pandas 中,您将 CSV 文件的 URL 或本地路径传递给 read_csv()。...DataFrame.drop() 方法从 DataFrame 中删除一列。...数据透视表 电子表格中的数据透视表可以通过重塑和数据透视表在 Pandas 中复制。再次使用提示数据集,让我们根据聚会的规模和服务器的性别找到平均小费。...添加一行 假设我们使用 RangeIndex(编号为 0、1 等),我们可以使用 DataFrame.append() 在 DataFrame 的底部添加一行。

    19.6K20

    【Python】这25个Pandas高频实用技巧,不得不服!

    有很多种实现的途径,我最喜欢的方式是传一个字典给DataFrame constructor,其中字典中的keys为列名,values为列的取值。...通过多种类型对DataFrame进行过滤 我们先看一眼movies这个DataFrame: movies.head() 其中有一列是genre(类型): movies.genre.unique()...DataFrame: df[['first', 'middle', 'last']] = df.name.str.split(' ', expand=True) df 如果我们想要划分一个字符串,但是仅保留其中一个结果列呢...比如说,让我们以", "来划分location这一列: df.location.str.split(', ', expand=True) 如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至...中新的一列: orders['total_price'] = total_price orders.head(10) 你可以看到,每个订单的总价格在每一行中显示出来了。

    6.6K50

    使用Python Pandas处理亿级数据

    如果只想移除全部为空值的列,需要加上 axis 和 how 两个参数: df.dropna(axis=1, how='all') 共移除了14列中的6列,时间也只消耗了85.9秒。...接下来是处理剩余行中的空值,经过测试,在 DataFrame.replace() 中使用空字符串,要比默认的空值NaN节省一些空间;但对整个CSV文件来说,空列只是多存了一个“,”,所以移除的9800万...对数据列的丢弃,除无效值和需求规定之外,一些表自身的冗余列也需要在这个环节清理,比如说表中的流水号是某两个字段拼接、类型描述等,通过对这些数据的丢弃,新的数据文件大小为4.73GB,足足减少了4.04G...DataFrame.astype() 方法可对整个DataFrame或某一列进行数据格式转换,支持Python和NumPy的数据类型。...pandas.merge ,groupby 9800万行 x 3列的时间为99秒,连接表为26秒,生成透视表的速度更快,仅需5秒。

    2.2K70
    领券