每种方法都将包括说明,可视化,代码以及记住它的技巧。 Pivot 透视表将创建一个新的“透视表”,该透视表将数据中的现有列投影为新表的元素,包括索引,列和值。...堆叠中的参数是其级别。在列表索引中,索引为-1将返回最后一个元素。这与水平相同。级别-1表示将取消堆叠最后一个索引级别(最右边的一个)。...此键允许将表合并,即使它们的排序方式不一样。完成的合并DataFrame 默认情况下会将后缀_x 和 _y添加 到value列。 ?...默认情况下,合并功能执行内部联接:如果每个DataFrame的键名均未列在另一个键中,则该键不包含在合并的DataFrame中。...因此,它接受要连接的DataFrame列表。 如果一个DataFrame的另一列未包含,默认情况下将包含该列,缺失值列为NaN。
例如, DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用(apply)到各个分组并产生一个新值。...) 对于DataFrame,你可以定义一组应用于全部列的一组函数,或不列应用不同的函数。...具体的办法是向agg传入一个从列名映射到函数的字典: 只有将多个函数应用到至少一列时,DataFrame才会拥有层次化的列 2.3.返回不含行索引的聚合数据 到目前为止,所有例中的聚合数据都有由唯一的分组键组成的索引...于是,最终结果就有了一个层次化索引,其内层索引值来自原DataFrame。 【例14】在apply函数中设置其他参数和关键字。...数据透视表 pivot()的用途就是,将一个dataframe的记录数据整合成表格(类似Excel中的数据透视表功能),pivot_table函数可以产生类似于excel数据透视表的结果,相当的直观。
具有多个未用作列或索引输入的值列,则生成的“透视”DataFrame将具有分层列,其最顶层指示相应的值列: In [5]: df["value2"] = df["value"] * 2 In [6]:...+ `unstack()`:(`stack()`的逆操作)将(可能是分层的)行索引的一个级别“枢轴”到列轴,生成一个重新塑造的带有新的最内层列标签的`DataFrame`。 ![.....DataFrame 有多列值,这些值不用作 pivot() 的列或索引输入,则生成的“透视” DataFrame 将具有分层列,其最顶层指示相应的值列: In [5]: df["value2"] = df...具有多列值,这些值未用作列或索引输入到pivot(),则生成的“透视”DataFrame将具有层次化的列,其最顶层指示相应的值列: In [5]: df["value2"] = df["value"]...unstack():(与stack()的反向操作)将可能是分层的行索引的一级“旋转”到列轴,产生一个带有新的最内层列标签的重塑DataFrame。
df.info():主要用于提供关于DataFrame的一般信息,如列索引、数据类型、非空值数量以及内存使用情况。它不会提供数值型数据的统计摘要,而是更多地关注于数据集的整体结构和数据类型。...五、pandas中的索引操作 pandas⽀持四种类型的多轴索引,它们是: Dataframe.[ ] 此函数称为索引运算符 Dataframe.loc[ ] : 此函数⽤于标签 Dataframe.iloc...七、apply() 函数使用方法 如果需要将函数应⽤到DataFrame中的每个数据元素,可以使⽤ apply() 函数以便将函数应⽤于给定dataframe中的每⼀⾏。...先分组,再⽤ sum()函数计算每组的汇总数据 多列分组后,⽣成多层索引,也可以应⽤ sum 函数 分组后可以使用如sum()、mean()、min()、max()等聚合函数来计算每个组的统计值。...十、数据透视表应用 透视表是⼀种可以对数据动态排布并且分类汇总的表格格式,在pandas中它被称作pivot_table。
作者 | Ritvik Kharkar 来源 | Medium 编辑 | 代码医生团队 在处理地理空间数据时,经常需要以最自然的方式可视化这些数据:地图。...如果可以使用Python快速轻松地创建数据的交互式地图,在本教程中使用洛杉矶县所有星巴克位置的数据集。...当然可以自定义点的任何颜色和形状。 Choropleth地图 在使用Python中的地图之前,实际上不知道什么是等值线图,但事实证明它们在可视化聚合的地理空间数据方面非常有用。...例如,等值线需要知道填写邮政编码90001的颜色。它检查由所引用的数据帧大熊猫数据字段,搜索KEY_ON为邮政编码列,并发现中列出的其他列的列是numStores。...唯一遗憾的是,还没有找到一种方法将这些地图的实际交互式版本嵌入到Medium帖子中,所以只能显示截图。强烈建议通过此帖子运行一小段代码,以便自己使用交互式地图。这是一次完全不同的体验。
例如, DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用(apply)到各个分组并产生一个新值。...) 对于DataFrame,你可以定义一组应用于全部列的一组函数,或不列应用不同的函数。...具体的办法是向agg传入一个从列名映射到函数的字典: 只有将多个函数应用到至少一列时,DataFrame才会拥有层次化的列 返回不含行索引的聚合数据 到目前为止,所有例中的聚合数据都有由唯一的分组键组成的索引...于是,最终结果就有了一个层次化索引,其内层索引值来自原DataFrame。 示例二 【例14】在apply函数中设置其他参数和关键字。...(data) 我们可以使用pivot()函数将这个数据集进行透视,例如将姓名作为行索引,性别作为列索引,成绩作为数值: df_pivot = df.pivot(index='姓名', columns='
Series 序列是表示 DataFrame 的一列的数据结构。使用序列类似于引用电子表格的列。 4. Index 每个 DataFrame 和 Series 都有一个索引,它们是数据行上的标签。...列的选择 在Excel电子表格中,您可以通过以下方式选择所需的列: 隐藏列; 删除列; 引用从一个工作表到另一个工作表的范围; 由于Excel电子表格列通常在标题行中命名,因此重命名列只需更改第一个单元格中的文本即可...提取第n个单词 在 Excel 中,您可以使用文本到列向导来拆分文本和检索特定列。(请注意,也可以通过公式来做到这一点。)...在 Pandas 中提取单词最简单的方法是用空格分割字符串,然后按索引引用单词。请注意,如果您需要,还有更强大的方法。...数据透视表 电子表格中的数据透视表可以通过重塑和数据透视表在 Pandas 中复制。再次使用提示数据集,让我们根据聚会的规模和服务器的性别找到平均小费。
本篇是涉及帮助你将技能和技术从 EXcel 和 SQL 转移到 Python。 首先,让我们来设置 Python。最简单的方法就是使用 Jupyter Notebook 和 Anaconda。...有关数据结构,如列表和词典,如何在 Python 中的运行的更多信息,本篇将有所帮助。...使用一行代码,我们已经将这些数据分配并保存到 Pandas dataframe 中 —— 事实证明是这种情况,字典是要转换为 dataframe 的完美数据格式。 ?...请注意,Python 索引从0开始,而不是1,这样,如果要调用 dataframe 中的第一个值,则使用0而不是1!你可以通过在圆括号内添加你选择的数字来更改显示的行数。试试看!...幸运的是,Pandas 拥有强大的数据透视表方法。 ? ? 你会看到我们收集了一些不需要的列。幸运的是,使用 Pandas 中的 drop 方法,你可以轻松地删除几列。 ? ?
本教程是涉及帮助你将技能和技术从 EXcel 和 SQL 转移到 Python。 首先,让我们来设置 Python。最简单的方法就是使用 Jupyter Notebook 和 Anaconda。...有关数据结构,如列表和词典,如何在 Python 中的运行的更多信息,本教程将有所帮助。...使用一行代码,我们已经将这些数据分配并保存到 Pandas dataframe 中 - 事实证明是这种情况,字典是要转换为 dataframe 的完美数据格式。 ?...请注意,Python 索引从0开始,而不是1,这样,如果要调用 dataframe 中的第一个值,则使用0而不是1!你可以通过在圆括号内添加你选择的数字来更改显示的行数。试试看!...为此,我们必须使用 Excel 用户的旧喜爱:数据透视表。幸运的是,Pandas 拥有强大的数据透视表方法。 ? ? 你会看到我们收集了一些不需要的列。
它类似于电子表格或SQL表或R中的data.frame。最常用的熊猫对象是数据帧。大多数情况下,数据是从其他数据源(如csv,excel,SQL等)导入到pandas数据帧中的。...在本教程中,我们将学习如何创建一个空数据帧,以及如何在 Pandas 中向其追加行和列。...然后,通过将列名 ['Name', 'Age'] 传递给 DataFrame 构造函数的 columns 参数,我们在数据帧中创建 2 列。...ignore_index参数设置为 True 以在追加行后重置数据帧的索引。 然后,我们将 2 列 [“薪水”、“城市”] 附加到数据帧。“薪水”列值作为系列传递。序列的索引设置为数据帧的索引。...然后,我们在数据帧后附加了 2 列 [“罢工率”、“平均值”]。 “罢工率”列的列值作为系列传递。“平均值”列的列值作为列表传递。列表的索引是列表的默认索引。
然而,Data8 中引入的表格仅包含列标签。 DataFrame的标签称为DataFrame的索引,并使许多数据操作更容易。...我们再次将这个问题分解成更简单的表格操作。 将baby表按'Year'和'Sex'分组。 对于每一组,计算最流行的名称。 认识到每个问题需要哪种操作,有时很棘手。...现在让我们使用多列分组,来计算每年和每个性别的最流行的名称。 由于数据已按照年和性别的递减顺序排序,因此我们可以定义一个聚合函数,该函数返回每个序列中的第一个值。...我们可以看到baby_pop中的Sex索引成为了数据透视表的列。...通过在pandas文档中查看绘图,我们了解到pandas将DataFrame的一行中的列绘制为一组条形,并将每列显示为不同颜色的条形。 这意味着letter_dist表的透视版本将具有正确的格式。
Stefanie Molin 主持的熊猫工作坊 Stefanie Molin 主持的入门熊猫工作坊,旨在快速让您掌握熊猫,使用真实数据集。...默认情况下不包括在计算中。请参阅缺失数据部分。 重新索引允许您在指定轴上更改/添加/删除索引。...Series或DataFrame进行操作将使结果与索引或列标签的并集对齐。...默认情况下不包括在计算中。请参阅缺失数据部分。 重新索引允许您更改/添加/删除指定轴上的索引。...,用于轻松组合不同种类的Series和DataFrame对象,针对索引的各种集合逻辑以及关系代数功能在连接/合并类型操作的情况下。
columns:指定哪些离散的分组变量 aggfunc:指定相应的聚合函数 fill_value:使用一个常数替代缺失值,默认不替换 margins:是否进行行或列的汇总,默认不汇总 dropna:默认所有观测为缺失的列...8 多层索引的使用 接下再讲一个Pandas中的重要功能,那就是多层索引。 序列的多层索引类似于Excel中如下形式。 ?...[['小张']] 小张 期中 1 期末 2 dtype: int64 取回最内层所有为‘期中’的数据 s[:,'期中'] 小张 1 老王 3 dtype: int64...将多层次索引的序列转换为数据框的形式 s.unstack() 期中 期末 小张 1 2 老王 3 4 以上是对序列的多层次索引,接下来将对数据框的多层次索引,多层索引的形式类似excel中的如下形式...在数据框中使用多层索引,可以将整个数据集控制在二维表结构中,这对于数据重塑和基于分组的操作(如数据透视表的生成)比较有帮助。以test_data二维数据框为例,构造一个多层索引数据集。
for 循环遍历每一行/列 使用 for 循环可以遍历 DataFrame 中的每一行或每一列。需要使用 iterrows() 方法遍历每一行,或者使用 iteritems() 方法遍历每一列。...中的每一个元素,返回一个新的 DataFrame。...其中,iterrows方法返回一个迭代器,可以逐行遍历DataFrame,返回每一行数据的索引和值。...它的基本使用方法如下: import pandas as pd df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]}) for index, row in df.iterrows...Pandas DataFrame,应该尽量避免使用循环遍历,而是使用 Pandas 内置的方法,如 apply() 和 applymap() 等。
如果 index 不包含重要信息 (如上例),可以将 ignore_index 设置为 True,这样就得到默认的 index 值了。...透视表是用来汇总其它表的数据: 首先把源表分组,将不同值当做行 (row)、列 (column) 和值 (value) 然后对各组内数据做汇总操作如排序、平均、累加、计数等 这种动态将·「源表」得到想要...在 Pandas 里透视的方法有两种: 用 pivot 函数将「一张长表」变「多张宽表」, 用 melt 函数将「多张宽表」变「一张长表」, 本节使用的数据描述如下: 5 只股票:AAPL, JD,...这个 grouped 也不例外,当你对如果使用某个对象感到迷茫时,用 dir() 来查看它的「属性」和「内置方法」。...key 来 split 成 n 组 将函数 apply 到每个组 把 n 组的结果 combine 起来 在看具体例子之前,我们先定一个 top 函数,返回 DataFrame 某一栏中 n 个最大值
在数据分析工作中,Pandas 的使用频率是很高的,一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,转换起来就很方便。...它包括了行索引和列索引,我们可以将 DataFrame 看成是由相同索引的 Series 组成的字典类型。...我一般会用 df, df1, df2 这些作为 DataFrame 数据类型的变量名,我们以例子中的 df2 为例,列索引是[‘English’, ‘Math’, ‘Chinese’],行索引是[‘ZhangFei...(2.1)删除 DataFrame 中的不必要的列或行 Pandas 提供了一个便捷的方法 drop() 函数来删除我们不想要的列或行 df2 = df2.drop(columns=['Chinese'...访问每一行某个元素的时候, 需要getattr函数 使用iteritems遍历每一行 这个访问每一行元素的时候, 用的是每一列的数字索引 3.
一些第三方库可以使用SQL语法直接查询DataFrames(duckdb[3]),或者通过将DataFrame复制到SQLite并将结果包装成Pandas对象(pandasql[4])间接查询。...DataFrame算术 你可以将普通的操作,如加、减、乘、除、模、幂等,应用于DataFrame、Series以及它们的组合。...垂直stacking 这可能是将两个或多个DataFrame合并为一个的最简单的方法:你从第一个DataFrame中提取行,并将第二个DataFrame中的行附加到底部。...现在,如果要合并的列已经在右边DataFrame的索引中,请使用join(或者用right_index=True进行合并,这完全是同样的事情): join()在默认情况下做左外连接 这一次,Pandas...要将其转换为宽格式,请使用df.pivot: 这条命令抛弃了与操作无关的东西(即索引和价格列),并将所要求的三列信息转换为长格式,将客户名称放入结果的索引中,将产品名称放入其列中,将销售数量放入其 "
2 3 6.0 456 获取子集 >>> a[0:2] # 选择索引0和1的项 array([1, 2]) >>> b[0:2,1] # 选择第1列中第0行和第1行中的项目 array([ 2.,...的子集 >>> df[df['Population']>1200000000] # 使用过滤器来调整数据框 # 设置 >>> s['a'] = 6 # 将Series s的索引a设为6 Dropping...Stack: 将数据的列索引转换为行索引(列索引可以简单理解为列名) Unstack: 将数据的行索引转换为列索引 >>> stacked = df5.stack() >>> stacked.unstack...col_level : 如果列是MultiIndex,则使用此级别。 宽数据--->>长数据,有点像用excel做透视跟逆透视的过程。...Join join方法提供了一个简便的方法用于将两个DataFrame中的不同的列索引合并成为一个DataFrame。
领取专属 10元无门槛券
手把手带您无忧上云