首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas图鉴(三):DataFrames

df.shape返回行和列数量。 df.info()总结了所有相关信息 还可以一个或几个列设置为索引。...这个过程如下所示: 索引Pandas中有很多用途: 它使通过索引查询更快; 算术运算、堆叠、连接是按索引排列;等等。 所有这些都是以更高内存消耗和更不明显语法为代价。...DataFrame列进行算术运算,只要它们行是有意义标签,如下图所示: 索引DataFrames 普通方括号根本不足以满足所有索引需求。...垂直stacking 这可能是两个或多个DataFrame合并为一个最简单方法:你从第一个DataFrame中提取行,并将第二个DataFrame中行附加到底部。...,连接要求 "right" 列是有索引; 合并丢弃左边DataFrame索引,连接保留它; 默认情况下,merge执行是内连接,join执行是左外连接; 合并不保留顺序,连接保留它们(有一些限制

34620

Pandas 秘籍:6~11

它接受所有列名并转置它们,因此它们成为新最里面的索引级别。 请注意,每个旧列名称仍如何通过与每个状态配对来标记其原始。3 x 3数据帧中有 9 个原始,这些被转换为具有相同数量值单个序列。...该函数以字符串形式传递给每个列名,并且必须返回一个布尔通过这种方式可以节省大量内存。 步骤 2 中stack方法所有列名称放入最里面的索引级别,返回一个序列。...默认情况下,concat函数使用外连接,列表中每个数据帧所有保留在列表中。 但是,它为我们提供了仅在两个数据帧中保留具有相同索引选项。 这称为内连接。...然后,您将问两个不同查询,通过使用merge方法表连接在一起来回答它们。...同样,这是因为保留了第一个索引时间部分。 确切搜索结果为2012-06-30 00:06:00。 那么,我们如何才能准确地获得六个月数据呢? 有两种方法。

33.8K10

盘点 Pandas 中用于合并数据 5 个最常用函数!

作者:阿南 整理:小五 如何Pandas合并数据,大家肯定都不陌生。 作为一个初学者,我发现自己学了很多,却没有好好总结一下。...正好看到一位大佬 Yong Cui 总结文章,我就按照他方法,给大家分享用于Pandas中合并数据 5 个最常用函数。这样大家以后就可以了解它们差异,正确使用它们了。...df0.join(df1) 当索引不同时,join连接默认保留来自左侧 DataFrame 行。...combine 特殊之处,在于它接受一个函数参数。此函数采用两个系列,每个系列对应于每个 DataFrame 中合并列,返回一个系列作为相同列元素操作最终值。听起来很混乱?...他们分别是: concat[1]:按行和按列 合并数据; join[2]:使用索引按行 数据; merge[3]:按列合并数据,如数据库连接操作; combine[4]:按列合并数据,具有列间(相同列

3.3K30

数据分析利器--Pandas

(参考:Series与DataFrame) DataFrame:一个Datarame表示一个表格,类似电子表格数据结构,包含一个经过排序列表集,它们一个都可以有不同类型(数字,字符串,布尔等等...3.2 pandas安装: pip install pandas 3.3 核心数据结构 pandas最核心就是Series和DataFrame两个数据结构。...默认为False keep_date_col 如果列连接到解析日期,保留连接列。默认为False。 converters 列转换器 dayfirst 当解析可以造成歧义日期时,以内部形式存储。...(): 无效替换成为有效 具体用法参照:处理无效 4、Pandas常用函数 函数 用法 DataFrame.duplicated() DataFrameduplicated方法返回一个布尔型...DataFrame.drop_duplicates() 它用于返回一个移除了重复行DataFrame DataFrame.fillna() 无效替换成为有效 5、Pandas常用知识点 5.1

3.6K30

Pandas 2.2 中文官方教程和指南(一)

series 数据可变性和复制 所有 pandas 数据结构都是可变它们包含可以被改变),但不总是大小可变。...社区 今天,pandas 得到全球志同道个人社区积极支持,他们贡献了宝贵时间和精力,帮助使开源 pandas 成为可能。感谢所有贡献者。 如果您有兴趣贡献,请访问贡献指南。...series 可变性和数据复制 所有pandas 数据结构都是可变它们包含可以被改变),但并非总是大小可变。...社区 今天,pandas 受到全球志同道个人社区积极支持,他们贡献了宝贵时间和精力来帮助使开源 pandas 成为可能。感谢我们所有的贡献者。 如果您有兴趣贡献,请访问贡献指南。...请记住,DataFrame是二维,具有行和列两个维度。 转到用户指南 有关索引基本信息,请参阅用户指南中关于索引和选择数据部分。 如何从DataFrame中筛选特定行?

24510

Pandas 学习手册中文第二版:11~15

列标签结果集由指定DataFrame对象中索引标签集定义。 这是应用于所有源对象对齐方式(可以有两个以上)。...忽略索引标签 如果要确保结果索引没有重复项保留所有行,则可以使用ignore_index=True参数。...合并通过一个或多个列或行索引中查找匹配来合并两个 Pandas 对象数据。 然后,基于应用于这些类似关系数据库连接语义,它返回一个新对象,该对象代表来自两者数据组合。...然后,我们研究了如何使用枢轴,堆叠和融合来重塑DataFrame中数据。 通过这一过程,我们看到了每个过程如何通过改变索引形状以及数据移入和移出索引来提供如何移动数据多种变体。...转换一般过程 GroupBy对象.transform()方法一个函数应用于数据帧中每个返回另一个具有以下特征DataFrame: 它索引所有组中索引连接相同 行数等于所有组中行数之和

3.3K20

地理空间数据时间序列分析

幸运是,有工具可以简化这个过程,这正是在本文中尝试内容。 在本文中,经历一系列过程,从下载光栅数据开始,然后数据转换为pandas数据框,并为传统时间序列分析任务进行设置。...较亮像素具有较高降雨。在下一节中,我提取这些并将它们转换为pandas数据框。 从光栅文件中提取数据 现在进入关键步骤——提取每个366个光栅图像像素。...这个过程很简单:我们循环遍历每个图像,读取像素并将它们存储在一个列表中。 我们另外在另一个列表中跟踪日期信息。我们从哪里获取日期信息?...日期列设置为索引也是一个好主意。这有助于按不同日期和日期范围切片和过滤数据,使绘图任务变得容易。我们首先将日期排序到正确顺序,然后将该列设置为索引。...在本文中,通过一个案例研究演示了如何以最少努力轻松完成这项艰巨任务

10810

Pandas 秘籍:1~5

当像上一步那样数字列彼此相加时,pandas 缺失默认为零。 但是,如果缺少特定行所有,则 Pandas 也会将总数也保留为丢失。...通过名称选择列是 Pandas 数据帧索引运算符默认行为。 步骤 3 根据类型(离散或连续)以及它们数据相似程度,所有列名称整齐地组织到单独列表中。...这种与偶数技术联系通常不是学校正式教。 它不会始终将数字偏向更高端。 这里有必要四舍五入,以使两个数据帧相等。equals方法确定两个数据帧之间所有元素和索引是否完全相同,返回一个布尔。...用sort_values替代nlargest 前两个秘籍工作原理类似,它们以略有不同方式对进行排序。 查找一列数据顶部n等同于对整个列进行降序排序获取第一个n。...除了丢弃所有这些外,还可以使用where方法保留它们。where方法保留序列或数据帧大小,并将不符合条件设置为缺失或将其替换为其他

37.2K10

Pandas图鉴(二):Series 和 Index

在此基础上,可以通过标签访问Series,使用一个叫做index类似数字结构。标签可以是任何类型(通常是字符串和时间戳)。...你逐一进行了几次查询,每次都缩小了搜索范围,但只看了列一个子集,因为同时看到所有的一百个字段是不现实。现在你已经找到了目标行,想看到原始表中关于它们所有信息。一个数字索引可以帮助你立即得到它。...字符串和正则表达式 几乎所有的Python字符串方法在Pandas中都有一个矢量版本: count, upper, replace 当这样操作返回多个时,有几个选项来决定如何使用它们: split...第一步是通过提供一个Series(或一个DataFrame)分成若干组标准来建立一个惰性对象。...如果这些还不够,也可以通过自己Python函数传递数据。它可以是 用g.apply(f)接受一个组x(一个系列对象)生成一个单一(如sum())函数f。

21620

Day4:R语言课程(向量和因子取子集)

(1)向量 选择使用索引 从向量中提取一个或多个,可以使用方括号[ ]语法提供一个或多个索引索引表示一个向量中元素数目(桶中隔室编号)。R索引从1开始。...向量索引 提取这个向量第五个,使用以下语法: age[5] 提取除了这个向量第五个之外所有,使用: age[-5] 如果我们想要选择多个元素,我们仍然会使用方括号语法,但不是使用单个,...让我们从年龄中选择前四个: age[1:4] 或者,如果您希望反向可以尝试4:1例如,查看返回内容。 ---- 练习 使用以下字母C,D,X,L,F创建一个名为字母向量。...虽然逻辑表达式返回相同长度TRUE和FALSE向量,但我们可以使用该which()函数输出为TRUE索引。...要重新定义类别,可以levels参数添加到factor()函数中,并为其提供一个向量,其中包含按所需顺序列出类别: expression <- factor(expression, levels=c

5.6K21

玩转Pandas,让数据处理更easy系列5

01 系列回顾 玩转Pandas系列已经连续推送4篇,尽量贴近Pandas本质原理,结合工作实践,按照使用Pandas逻辑步骤,系统地结合实例推送Pandas主要常用功能,已经推送4篇文章:...Pandas主要两个数据结构: Series(一维)和DataFrame(二维), 系统地介绍了创建,索引,增删改查Series, DataFrame等常用操作接口, 总结了Series如何装载到DataFrame...强大而灵活分组功能,在数据集上实现分-应用-操作,达到整合和改变数据形状目的。 时间序列处理功能,生成 data range,移动时间窗,时间移动和lagging等。...pandas使用浮点NaN表示浮点和非浮点数组中缺失数据,它没有什么具体意义,只是一个便于被检测出来标记而已,pandas对象上所有描述统计都排除了缺失数据。...04 concatenate操作 concatenate是连接两个及以上DataFrame操作,一个简单concatenate例子,给定两个DataFrame,concatenate它们, df1

1.9K20

Pandas 学习手册中文第二版:1~5

使用相关性一个常见示例是确定随着时间推移,两只股票价格彼此密切相关程度。 如果变化密切,则两个股票之间相关性很高,如果没有可辨别的格局,则它们之间是不相关。...通过在 Python 列表中指定它们标签,可以检索多个项目。 以下内容检索标签1和3上通过使用index参数指定索引标签,可以使用用户定义索引创建Series对象。...然后乘法应用于两个Series对象对齐,由于索引相同,它们完美对齐。 索引标签不需要对齐。...我们从如何创建和初始化Series及其关联索引开始,然后研究了如何一个或多个Series对象中操纵数据。 我们研究了如何通过索引标签对齐Series对象以及如何在对齐上应用数学运算。...结果数据帧将由两个集组成,缺少列数据填充有NaN。 以下内容通过使用与df1相同索引创建第三个数据帧,但只有一个名称不在df1中来说明这一点。

8.1K10

Pandas 学习手册中文第二版:6~10

可以通过使用PeriodIndex并为索引时间段指定特定频率来对这些场景进行建模。 下面通过对从2017-01开始三个 1 个月周期进行建模进行演示。...尽管它们在本质上看似微不足道,但 Pandas 通过对等式左侧和右侧进行对齐来增加强大效果。 因此,索引在算术中起着很大作用,Pandas 用户必须了解索引如何影响结果。.../-/raw/master/docs/learning-pandas-2e/img/00450.jpeg)] 然后,可以两个结果合并为一个DataFrame,该告诉我们哪个国家/地区预期寿命最短...更具体地说,Pandas 处理NaN方式如下: 数据求和NaN视为 0 如果所有均为NaN,则结果为NaN 像.cumsum()和.cumprod()这样方法会忽略NaN,但会将它们保留在结果数组中.../master/docs/learning-pandas-2e/img/00500.jpeg)] 还可以指定多个要替换项目,还可以通过传递两个列表(第一个要替换,第二个要替换)来指定它们替换

2.2K20

如何Pandas 中创建一个数据帧并向其附加行和列?

在本教程中,我们学习如何创建一个空数据帧,以及如何Pandas 中向其追加行和列。...ignore_index参数设置为 True 以在追加行后重置数据帧索引。 然后,我们 2 列 [“薪水”、“城市”] 附加到数据帧。“薪水”列作为系列传递。序列索引设置为数据帧索引。...“罢工率”列作为系列传递。“平均值”列作为列表传递。列表索引是列表默认索引。...Python 中 Pandas 库创建一个空数据帧以及如何向其追加行和列。...我们还了解了一些 Pandas 方法、它们语法以及它们接受参数。这种学习对于那些开始使用 Python 中 Pandas 库对数据帧进行操作的人来说非常有帮助。

19630

数据科学 IPython 笔记本 7.6 Pandas数据操作

Pandas 包含一些有用调整,但是:对于一元操作,如取负和三角函数,这些ufunc保留输出中索引和列标签,对于二元操作,如加法和乘法,将对象传递给ufunc时,Pandas 将自动对齐索引。...这意味着,保留数据上下文组合来自不同来源数据 - 这两个在原始 NumPy 数组中可能容易出错任务 - 对于 Pandas 来说基本上是万无一失。...NumPy ufunc,结果将是保留索引一个 Pandas 对象: np.exp(ser) ''' 0 403.428793 1 20.085537 2 1096.633158...,无论它们两个对象中顺序如何,并且结果中索引都是有序。...这里我们填充A中所有均值(通过首先堆叠A行来计算): fill = A.stack().mean() A.add(B, fill_value=fill) A B C 0 1.0 15.0 13.5

2.7K10
领券