首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

干货!直观地解释和可视化每个复杂的DataFrame操作

Melt Melt可以被认为是“不可透视的”,因为它将基于矩阵的数据(具有二维)转换为基于列表的数据(列表,行表示唯一的数据点),而枢轴相反。...因此,所得的DataFrame具有和两级索引。 ? 堆叠名为df的表就像df.stack()一样简单 。 为了访问狗的身高,只需两次调用基于索引的检索,例如 df.loc ['dog']。...例如,如果 df1 具有3个键foo , 而 df2 具有2个相同键的 在最终DataFrame中将有6个条目,其中 leftkey = foo 和 rightkey = foo。 ?...“inner”:包含元件的键是存在于两个数据帧键(交集)。默认合并。 记住:如果您使用过SQL,单词“ join”应立即与按添加相联系。...请注意,concat是pandas函数,而不是DataFrame之一。因此,它接受要连接的DataFrame列表如果一个DataFrame的另一未包含,默认情况下将包含该,缺失列为NaN。

13.3K20

30 个小例子帮你快速掌握Pandas

我们删除了4,因此列数从14减少到10。 2.读取时选择特定 我们只打算读取csv文件中的某些。读取时,列表将传递给usecols参数。如果您事先知道列名,比以后删除更好。...选择特定 3.读取DataFrame的一部分行 read_csv函数允许按行读取DataFrame的一部分。有两种选择。第一个是读取前n行。...8.删除缺失 处理缺失另一种方法是删除它们。“已退出”中仍缺少。以下代码将删除缺少任何的行。...如果我们将groupby函数的as_index参数设置为False,组名将不会用作索引。 16.带删除的重置索引 在某些情况下,我们需要重置索引并同时删除原始索引。...但新将添加在末尾。如果要将新放在特定位置,则可以使用插入函数。 df_new.insert(0, 'Group', group) df_new ?

10.7K10
您找到你想要的搜索结果了吗?
是的
没有找到

python数据科学系列:pandas入门详细教程

支持一维和二维数据,但数据内部可以是异构数据,要求同数据类型一致即可 numpy的数据结构支持数字索引,而pandas数据结构同时支持数字索引和标签索引 从功能定位上看: numpy虽然也支持字符串等其他数据类型...isin/notin,条件范围查询,即根据特定是否存在于指定列表返回相应的结果 where,仍然是执行条件查询,但会返回全部结果,只是将不满足匹配条件的结果赋值为NaN或其他指定,可用于筛选或屏蔽...由于该方法默认是按行进行检测,如果存在某个需要需要按删除,则可以先转置再执行该方法 异常值,判断异常值的标准依赖具体分析数据,所以这里给出两种处理异常值的可选方法 删除,drop,接受参数在特定轴线执行删除一条或多条记录...,要求每个df内部列名是唯一的,但两个df间可以重复,毕竟有相同才有拼接的实际意义) merge,完全类似于SQL中的join语法,支持横向拼接,通过设置连接字段,实现对同一记录的不同信息连接,支持...unique、nunique,也是适用于series对象,统计唯一信息,前者返回唯一结果列表,后者返回唯一个数(number of unique) ?

13.8K20

Scikit-Learn教程:棒球分析 (一)

导入数据 您将通过使用sqlite3包查询sqlite数据库并使用转换为DataFrame来读入数据pandas。您的数据将被过滤,包括当前活跃的现代团队,以及团队玩150场或更多游戏的年份。...清理和准备数据 如上所示,DataFrame没有标题。您可以通过将标题列表传递给columns属性来添加标题pandas。...有几种方法可以消除空,但最好先显示每的空计数,以便决定如何最好地处理它们。 在这里你会看到一个权衡:你需要干净的数据,但你也没有大量的数据。其中两具有相对少量的空。...CS(Caught Stealing)中有419个空,而(HBPPitch by Pitch)中有1777个空如果消除具有少量空的行,则会丢失超过百分之五的数据。...请注意,如果您不使用Jupyter笔记本,必须使用它plt.show()来显示图表。 打印出每年的平均胜利(W)。您可以使用此mean()方法。

3.4K20

Pandas 2.2 中文官方教程和指南(十·一)

NA 和缺失数据处理 na_values 标量、字符串、类似列表或字典,默认为None 附加字符串识别为 NA/NaN。如果传递了字典,则为每指定特定的 NA 。...如果keep_default_na为True,并且未指定na_values,使用默认 NaN 进行解析。...如果您的 CSV 文件包含具有混合时区的默认结果将是一个对象类型的,其中包含字符串,即使使用 parse_dates 也是如此。...True,推断数据类型;如果是列到数据类型的字典,使用它们;如果为`False`,根本不推断数据类型,默认为 True,适用于数据。...+ `convert_dates`:要解析日期的列表如果为`True`,尝试解析类似日期的,默认为`True`。

18500

pandas 入门 1 :数据集的创建和绘制

如果发现任何问题,我们将不得不决定如何处理这些记录。 分析数据- 我们将简单地找到特定年份中最受欢迎的名称。 现有数据- 通过表格数据和图表,清楚地向最终用户显示特定年份中最受欢迎的姓名。...[1]: 0 1 0 Bob 968 1 Jessica 155 2 Mary 77 3 John 578 4 Mel 973 如果我们想给特定的名称...在pandas中,这些是dataframe索引的一部分。您可以将索引视为sql表的主键,但允许索引具有重复项。...plot()是一个方便的属性,pandas可以让您轻松地在数据框中绘制数据。我们学习了如何在上一节中找到Births的最大。现在找到973的实际宝贝名称看起来有点棘手,所以让我们来看看吧。...解释一下:df ['Names'] - 这是婴儿名字的整个列表,整个名字栏 df ['Births'] - 这是1880年的整个出生列表,整个出生 df['Births'].max() - 这是Births

6.1K10

如何漂亮打印Pandas DataFrames 和 Series

默认情况下,当打印出DataFrame且具有相当多的时,的子集显示到标准输出。显示的甚至可以多行打印出来。...display.max_rows的输出DataFrame可能不完整,如下所示。...如何漂亮打印Pandas的DataFrames 如果您的显示器足够宽并且能够容纳更多,则可能需要调整一些显示选项。我将在下面使用的可能不适用于您的设置,因此请确保对其进行相应的调整。...如何打印所有行 现在,如果您的DataFrame包含的行数超过一定数目,那么将显示一些记录(来自df的头部和尾部): import pandas as pd import numpy as np...如果要显示更多,则可能有时还必须调整display.width。 您可以使用describe_option()找到完整的显示列表: pd.describe_option(‘display’) .

2.4K30

Pandas vs Spark:获取指定的N种方式

对于如上DataFrame,需要提取其中的A常用的方法有如下4种: df.A:即应用属性提取符"."...当方括号内用一个列名组成的列表时,意味着提取结果是一个DataFrame子集; df.loc[:, 'A']:即通过定位符loc来提取,其中逗号前面用于定位目标行,此处用:即表示对行不限定;逗号后面用于定位目标...,此处用单个列名即表示提取单列,提取结果为该对应的Series,若是用一个列名组成的列表表示提取多得到一个DataFrame子集; df.iloc[:, 0]:即通过索引定位符iloc实现,与loc...当然,本文不过多对二者的区别做以介绍,而枚举常用的提取特定的方法。...,常用的方法多达7种,在这方面似乎灵活性相较于Pandas中DataFrame而言具有更为明显的优越性。

11.4K20

Pandas中实现Excel的SUMIF和COUNTIF函数功能

例如,如果想要Manhattan区的所有记录: df[df['Borough']=='MANHATTAN'] 图2:使用pandas布尔索引选择行 在整个数据集中,看到来自Manhattan的1076...在df[]中,这个表达式df['Borough']=='MANHATTAN'返回一个完整的True或False列表(2440个条目),因此命名为“布尔索引”。...一旦将这个布尔索引传递到df[]中,只有具有True的记录才会返回。这就是上图2中获得1076个条目的原因。...使用groupby()方法 pandas库有一个groupby()方法,允许对组进行简单的操作(例如求和)。要使用此函数,需要提供组名、数据和要执行的操作。...Pandas中的SUMIFS SUMIFS是另一个在Excel中经常使用的函数,允许在执行求和计算时使用多个条件。 这一次,将通过组合Borough和Location来精确定位搜索。

8.9K30

Pandas 秘籍:6~11

如果max_dept_sal在其索引中重复了任何部门,该操作将失败。 例如,让我们看看当我们在具有重复索引的等式的右侧使用数据帧时会发生什么。...导入时,如果中至少包含一个字符串, pandas的所有数值强制转换为字符串。 通过检查步骤 2 中的特定,我们可以清楚地看到 在这些中有字符串。.../img/00111.jpeg)] 有些具有一个唯一的最大,例如SATVRMID和SATMTMID,而另一具有UGDS_WHITE。...如果没有重复的分组将毫无意义,因为每个组只有一行。 连续数字通常具有很少的重复,并且通常不用于形成组。...如果任何一具有相同的名称,必须为lsuffix或rsuffix参数提供一个,以在结果中区分它们: >>> stocks_2016.join(stocks_2017, lsuffix='_2016'

33.9K10

Python数据分析-pandas库入门

,输出如下: 对于特别大的 DataFrame,head 方法会选取前五行: frame.head() 如果指定了序列, DataFrame 的就会按照指定顺序进行排列,代码示例: pd.DataFrame...例如,我们可以给那个空的 “debt” 赋上一个标量值或一组(数组或列表形式),代码示例: frame2.debt = np.arange(6.) frame2 注意:将列表或数组赋值给某个时,...另一种常见的数据形式是嵌套字典,如果嵌套字典传给 DataFrame,pandas 就会被解释为:外层字典的键作为,内层键作为行索引,代码示例: #DataFrame另一种常见的数据形式是嵌套字典...03-26 4 5 6 7 2019-03-27 8 9 10 11 ''' # 根据标签选择数据 # 获取特定行或 # 指定行数据 print(df.loc['2019-03-25...['20190326', 'A']) ''' 4 ''' # 根据序列iloc获取特定位置的, iloc是根据行数与数来索引的 print(df.iloc[1,0]) # 13, numpy

3.7K20

Pandas 2.2 中文官方教程和指南(九·二)

包括分类: In [103]: frame = pd.DataFrame({"a": ["Yes", "Yes", "No", "No"], "b": range(4)}) In [104]:...,包括分类: In [103]: frame = pd.DataFrame({"a": ["Yes", "Yes", "No", "No"], "b": range(4)}) In [104]:...当设置为 True 时,传递的函数将接收一个 ndarray 对象,如果您不需要索引功能,具有积极的性能影响。 聚合 API 聚合 API 允许以一种简洁的方式表达可能的多个聚合操作。...匹配应用函数返回的 Series 的索引。 如果应用的函数返回其他任何类型,最终输出是一个 Series。...当设置为 True 时,传递的函数将收到一个 ndarray 对象,如果您不需要索引功能,具有积极的性能影响。 聚合 API 聚合 API 允许以一种简洁的方式表达可能的多个聚合操作。

12800

一个数据集全方位解读pandas

.describe()默认情况下分析数字,但是如果使用include参数,则可以提供其他数据类型: >>> import numpy as np >>> nba.describe(include=np.object...我们知道Series对象在几种方面与列表和字典的相似之处。也就意味着我们可以使用索引运算符。现在我们来说明如何使用两种特定pandas的访问方法:.loc和.iloc。...现在,我们继续基于数据集中的选择行以查询数据。例如,我们可以创建一个DataFrame包含2010年之后打过的比赛。...包含其中中的"year_id"大于的行2010。...如果我们为选择正确的数据类型,则可以显着提高代码的性能。我们再看一下nba数据集的: >>> df.info() ? 有十具有数据类型object。

7.4K20

Pandas入门教程

使用列表或数组 data.iloc[:5] 3. 切片对象 data.iloc[:5,:4] # 以,分割,前面切片5行,后面切片4 常见的方法就如上所示。....drop_duplicates() # 某一后出现重复数据被清除 删除先出现的重复 df['A'] = df['A'].drop_duplicates(keep=last) # # 某一先出现重复数据被清除...ignore_index: 布尔,默认为 False。如果为 True,则不要使用串联轴上的索引。结果轴将被标记为 0, …, n - 1。...如果通过了多个级别,则应包含元组。 levels: 序列列表,默认无。用于构建 MultiIndex 的特定级别(唯一)。否则,它们将从密钥中推断出来。 names: 列表,默认无。...可以是列名称、索引级别名称或长度等于 DataFrame 或 Series 长度的数组 left_index:如果True,使用左侧 DataFrame 或 Series 中的索引(行标签)作为其连接键

1.1K30

Pandas 2.2 中文官方教程和指南(一)

警告 如果安装了 BeautifulSoup4,必须安装 lxml 或 html5lib 或两者都安装。安装 BeautifulSoup4 不会 使 read_html() 起作用。...使用 Python 字典列表时,字典键将用作标题,每个列表中的将用作DataFrame的。...当使用 Python 字典的列表时,字典的键将被用作标题,每个列表中的将作为 DataFrame 的。...在这些括号内,您可以使用单个/行标签、/行标签列表、标签切片、条件表达式或冒号。 使用loc选择特定行和/或时,请使用行和列名称。...在这些括号内,您可以使用单个/行标签、/行标签列表、标签切片、条件表达式或冒号。 使用loc选择特定行和/或时,请使用行和列名称。

36610
领券