('1900/1/30', periods=df.shape[0]) 添加日期索引 查看/检查数据 df.head(n) 数据框的前n行 df.tail(n) 数据框的后n行 df.shape() 行数和列数...df.info() 索引,数据类型和内存信息 df.describe() 数值列的汇总统计信息 s.value_counts(dropna=False) 查看唯一值和计数 df.apply(pd.Series.value_counts...) 所有列的唯一值和计数 选择 df[col] 返回一维数组col的列 df[[col1, col2]] 作为新的数据框返回列 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...1) 将df1中的列添加到df2的末尾(行数应该相同) df1.join(df2,on=col1,how='inner') SQL类型的将df1中的列与df2上的列连接,其中col的行具有相同的值。...df.describe() 数值列的汇总统计信息 df.mean() 返回所有列的平均值 df.corr() 查找数据框中的列之间的相关性 df.count() 计算每个数据框的列中的非空值的数量 df.max
我们已经看到了上面的一些数据集,完整的表集合如下: 客户:即有关信贷联盟中客户的基本信息。每个客户在此数据框中只有一行。 贷款:即客户贷款。...每项贷款在此数据框中只有自己单独一行的记录,但客户可能有多项贷款。 付款:即支付贷款。 每笔支付只有一行记录,但每笔贷款都有多笔支付记录。...实体和实体集 featuretools的前两个概念是实体和实体集。实体只是一个表(如果用Pandas库的概念来理解,实体是一个DataFrame(数据框))。...每个实体都必须有一个索引,该索引是一个包含所有唯一元素的列。也就是说,索引中的每个值只能出现在表中一次。 clients数据框中的索引是client_id,因为每个客户在此数据框中只有一行。...例如,在我们的数据集中,clients客户数据框是loan 贷款数据框的父级,因为每个客户在客户表中只有一行,但贷款可能有多行。
t 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 通过在观测值的列数据中插入新的一列,我们可以将上面展示的观测值位置下移一格,由于新加的一行并没有数据...(1) print(df) 运行代码,我们在原有数据集的基础上得到了两列数据,第一列为原始的观测值,第二列为下移后得到的新列。...可以看到,通过前移序列,我们得到了一个原始的监督学习问题( X 和 y 的左右顺序是反的)。忽略行标签,第一列的数据由于存在NaN值应当被丢弃。...除此之外,具有NaN值的行已经从DataFrame中自动删除。 我们可以指定任意长度的输入序列(如3)来重复这个例子。...同样,根据问题的实际情况可以将这些列任意拆分为 X 和 Y 部分,比方说 var1 和 var2 均为观测值但是只有 var2 需要被预测。
在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引值实际上可用于引用行。...在 Pandas 中,您使用特殊方法从/向 Excel 文件读取和写入。 让我们首先基于上面示例中的数据框,创建一个新的 Excel 文件。 tips.to_excel("....; 如果匹配多行,则每个匹配都会有一行,而不仅仅是第一行; 它将包括查找表中的所有列,而不仅仅是单个指定的列; 它支持更复杂的连接操作; 其他注意事项 1....填充柄 在一组特定的单元格中按照设定的模式创建一系列数字。在电子表格中,这将在输入第一个数字后通过 shift+drag 或通过输入前两个或三个值然后拖动来完成。...删除重复项 Excel 具有删除重复值的内置功能。熊猫通过 drop_duplicates() 支持这一点。
在这篇文章中,我们将介绍 Pandas 的内存使用情况,以及如何通过为数据框(dataframe)中的列(column)选择适当的数据类型,将数据框的内存占用量减少近 90%。...最原始的数据是 127 个独立的 CSV 文件,不过我们已经使用 csvkit 合并了这些文件,并且在第一行中为每一列添加了名字。...数据框的内部表示 在底层,Pandas 按照数据类型将列分成不同的块(blocks)。这是 Pandas 如何存储数据框前十二列的预览。 你会注意到这些数据块不会保留对列名的引用。...这两种类型具有相同的存储容量,但如果只存储正数,无符号整数显然能够让我们更高效地存储只包含正值的列。...请注意,这一列可能代表我们最好的情况之一:一个具有 172,000 个项目的列,只有 7 个唯一的值。 将所有的列都进行同样的操作,这听起来很吸引人,但使我们要注意权衡。
图片Pandas的功能与函数极其丰富,要完全记住和掌握是不现实的(也没有必要),资深数据分析师和数据科学家最常使用的大概有二三十个函数。在本篇内容中,ShowMeAI 把这些功能函数总结为10类。...sort_values:通过指定列名对数据进行排序,可以调整升序或者降序规则。图片 5.处理重复我们手上的数据集很可能存在重复记录,某些数据意外两次输入到数据源中,清洗数据时删除重复项很重要。...图片 8.数据透视Dataframe有 2 种常见数据:『宽』格式,指的是每一行代表一条记录(样本),每一列是一个观测维度(特征)。...『长』格式,在这种格式中,一个主题有多行,每一行可以代表某个时间点的度量。我们会在这两种格式之间转换。melt:将宽表转换为长表。...注意:重要参数index(唯一标识符), columns(列成为值列),和 values(具有值的列)。
PAGE DOWN 移动到工作簿中前一个工作表:CTRL+PAGE UP 移动到下一工作簿或窗口:CTRL+F6 或 CTRL+TAB 移动到前一工作簿或窗口:CTRL+SHIFT+F6 移动到已拆分工作簿中的下一个窗格...:F6 移动到被拆分的工作簿中的上一个窗格:SHIFT+F6 滚动并显示活动单元格:CTRL+BACKSPACE 显示“定位”对话框:F5 显示“查找”对话框:SHIFT+F5 重复上一次“查找”操作:...SHIFT+F4 在保护工作表中的非锁定单元格之间移动:TAB 2>Excel快捷键之处于END模式时在工作表中移动 打开或关闭 END 模式:END 在一行或列内以数据块为单位移动:END, 箭头键...向上或向下滚动一行:上箭头键或下箭头键 向左或向右滚动一列:左箭头键或右箭头键 4>Excel快捷键之用于预览和打印文档 显示“打印”对话框:CTRL+P 在打印预览中时: 当放大显示时,在文档中移动...8>Excel快捷键之设置数据格式 显示“样式”对话框:ALT+' (撇号) 显示“单元格格式”对话框:CTRL+1 应用“常规”数字格式:CTRL+SHIFT+~ 应用带两个小数位的“贷币”格式:CTRL
导读 前2篇分别系统性介绍了numpy和matplotlib的入门基本知识,今天本文自然是要对pandas进行入门详细介绍,通过本文你将系统性了解pandas为何会有数据分析界"瑞士军刀"的盛誉。...还是dataframe,均支持面向对象的绘图接口 正是由于具有这些强大的数据分析与处理能力,pandas还有数据处理中"瑞士军刀"的美名。...或字典(用于重命名行标签和列标签) reindex,接收一个新的序列与已有标签列匹配,当原标签列中不存在相应信息时,填充NAN或者可选的填充值 set_index/reset_index,互为逆操作,...检测各行是否重复,返回一个行索引的bool结果,可通过keep参数设置保留第一行/最后一行/无保留,例如keep=first意味着在存在重复的多行时,首行被认为是合法的而可以保留 删除重复值,drop_duplicates...,要求每个df内部列名是唯一的,但两个df间可以重复,毕竟有相同列才有拼接的实际意义) merge,完全类似于SQL中的join语法,仅支持横向拼接,通过设置连接字段,实现对同一记录的不同列信息连接,支持
中任意一个,就可以将光标移动到最底下那一行,进入底线命令模式(也称为指令列命令模式)。...vim1.png 整个界面可以分为两个部分,最底下一行和上面的部分,最底下一行主要是显示当前文件名和文件的行数、列数,上图是一个新的文件,所以最底下显示的是文件名,而且后面括号也说是新文件,而下图是一个已经有内容的文件...J将光标所在行与下一行的数据结合成同一行 其他 c重复删除多个数据,任意方向,并且进入编辑模式 u复原前一个动作。(常用) [Ctrl]+r重做上一个动作。...:w [filename]将编辑的数据储存成另一个档案(类似另存新档) :r [filename]在编辑的数据中,读入另一个档案的数据。...在 vi 中設定一下行號; 6. 移動到第 43 列,向右移動 59 個字元,請問你看到的小括號內是哪個文字? 7. 移動到第一列,並且向下搜尋一下『 gzip 』這個字串,請問他在第幾列? 8.
估算这些缺失的值超出了我们的讨论范围,我们将只关注使用pandas函数来设计一些新特性。 用于标签编码的replace() pandas中的replace函数动态地将当前值替换为给定值。...pandas具有两个对变量进行分箱的功能,即cut() 和qcut() 。 qcut() : qcut是基于分位数的离散化函数,它试图将bins分成相同的频率组。...用于文本提取的apply() pandas的apply() 函数允许在pandas系列上传递函数并将其传递到变量的每个点。 它接受一个函数作为参数,然后将其应用于数据框的行或列。...我们可以将任何函数传递给apply函数的参数,但是我主要使用lambda函数, 这有助于我在单个语句中编写循环和条件。 使用apply和lambda函数,我们可以从列中存在的唯一文本中提取重复凭证。...在我们的大卖场销售数据中,我们有一个Item_Identifier列,它是每个产品的唯一产品ID。此变量的前两个字母具有三种不同的类型,即DR,FD和NC,分别代表饮料,食品和非消耗品。
呈现表格信息的数据网格 grid 可用于显示具有列标题,行标题或两者均有的表格信息。如果表格信息是可编辑的或可交互的, grid 模式特别有用。...如果导航功能可以动态地向DOM添加更多的行或列,则将焦点移动到网格的开头或结尾的键盘事件(例如 control + End ),可将焦点移动到DOM中的最后一行,而不是先前可用数据的最后一行。...这些键盘命令在 Tab 中的元素接收焦点后默认可用。 Right Arrow: 将焦点向右移动一个单元格。可选地,如果焦点位于行中最右侧的单元格上,则焦点可能会移动到下一行中的第一个单元格。...可选地,如果网格具有单个列或每行少于三个单元格,则焦点可以替代地移动到网格中的最后一个单元格。 Control + Home (可选地): 将焦点移动到第一行中的第一个单元格。...如果导航功能可以动态地向DOM中添加更多的行或列,则移动焦点到网格的开头或结尾的键盘事件(例如 control + End ),可将焦点移动到DOM中的最后一行,而不是后端数据中可用的最后一行。
我们可以通过查找 joined 列中的月份或是自然对数化 income 列的数据来构造新的特征。这些都是转换操作,因为它们只用到了一张表的信息。 ?...每个客户只对应数据框中的一行。 ? loans: 向用户提供的贷款。每项贷款只对应数据框中的一行,但是客户可能有多项贷款。 ? payments:贷款还本的支付。...实体和实体集 特征工具的前两个概念的是「实体」和「实体集」。一个实体就是一张表(或是 Pandas 中的一个 DataFrame(数据框))。一个实体集是一组表以及它们之间的关联。...每个实体都必须带有一个索引,它是一个包含所有唯一元素的列。就是说,索引中的每个值只能在表中出现一次。在 clients 数据框中的索引是 client_id,因为每个客户在该数据框中只对应一行。...对表来说,每个父亲对应一张父表中的一行,但是子表中可能有多行对应于同一张父表中的多个儿子。 例如,在我们的数据集中,clients 数据框是 loans 数据框的一张父表。
在 pandas 中,索引可以设置为一个(或多个)唯一值,就像在工作表中使用作为行标识符的列一样。与大多数电子表格不同,这些Index值实际上可以用于引用行。...查看如何从现有列创建新列。 过滤 在 Excel 中,过滤是通过图形菜单完成的。 数据框可以通过多种方式进行过滤;其中最直观的是使用布尔索引。...在 pandas 中,索引可以设置为一个(或多个)唯一值,这类似于在工作表中使用作为行标识符的列。与大多数电子表格不同,这些Index值实际上可以用于引用行。...在 pandas 中,索引可以设置为一个(或多个)唯一值,这类似于在工作表中使用作为行标识符的列。与大多数电子表格不同,这些Index值实际上可以用于引用行。...在电子表格中,可以使用条件公式进行逻辑比较。我们将一个 =IF(A2 的公式拖动到一个新的 bucket 列的所有单元格中。
数据框与R中的DataFrame格式类似,都是一个二维数组。Series则是一个一维数组,类似于列表。数据框是Pandas中最常用的数据组织方式和对象。...,列名为字典的3个key,每一列的值为key对应的value值 2 查看数据信息 查看信息常用方法包括对总体概况、描述性统计信息、数据类型和数据样本的查看,具体如表2所示: 表2 Pandas常用查看数据信息方法汇总...方法用途示例示例说明info查看数据框的索引和列的类型、费控设置和内存用量信息。...0 2 a True 1 1 b True从第一行开始取前2行tail查看后N条结果In: print(data2.tail(2)) Out: col1 col2...,因此都是Falseunique查看特定列的唯一值In: print(data2['col2'].unique()) Out: ['a' 'b']查看col2列的唯一值 注意 在上述查看方法中,除了
如您所见,SAT 成绩栏和大学本科生只有一排具有最大值的行,但是某些种族栏有最大值。 我们的目标是找到具有最大值的第一行。 我们需要再次取累加总和,以使每一列只有一行等于 1。...如果没有重复的值,则分组将毫无意义,因为每个组只有一行。 连续数字列通常具有很少的重复值,并且通常不用于形成组。...原始的第一行数据成为结果序列中的前三个值。 在步骤 2 中重置索引后,pandas 将我们的数据帧的列默认设置为level_0,level_1和0。...merge方法提供了类似 SQL 的功能,可以将两个数据帧结合在一起。 将新行追加到数据帧 在执行数据分析时,创建新列比创建新行更为常见。...我们对数据进行结构设计,以使每位总裁在其批准等级上都有一个唯一的列。 Pandas 为每一列单独一行。
操作DataFrame最简单的方法是提取行和列的子集,称为切片。 我们可能希望提取数据的常见方式包括: DataFrame中的第一行或最后一行。 具有特定标签的数据。...我们将: 对数据框进行排序,使行按%的降序排列 按Party分组并选择每个子数据框的第一行 虽然这可能看起来不直观,但按%的降序对elections进行排序非常有帮助。...然后,如果我们按Party分组,每个 groupby 对象的第一行将包含有关具有最高选民%的Candidate的信息。...left_on和right_on参数被分配给要在执行连接时使用的列的字符串名称。这两个on参数告诉pandas应该将哪些值作为配对键来确定要在数据框之间合并的行。...主键是表中唯一确定其余列值的列或列集。它可以被认为是表中每一行的唯一标识符。例如,Data 100 学生表可能使用每个学生的 Cal ID 作为主键。
Pandas部分应掌握的重要知识点 import numpy as np import pandas as pd 一、DataFrame数据框的创建 1、直接基于二维数据创建(同时使用index和columns...team.head() 二、查看数据框中的数据和联机帮助信息 1、查看特殊行的数据 (1)查看前n行:head(n),不指定n时默认前5行。...索引器中的len(df)是想把当前数据框的长度作为新增加行的行标签。...可以查看drop函数的相关帮助信息。 四、数据框的合并 问题:有两个数据框,如下图所示,现在期望将它们合并成如下图所示的效果,该如何做?...1、分组及统计 针对team数据框,要求按’team’列统计各团队前两个季度的平均销售额: 方法1:先分组再选择列最后计算,推荐此种写法。
默认情况下,pandas会将数据存储到一个专门的数据结构中,这个数据结构能够实现按行索引、通过自定义的分隔符分隔变量、推断每一列的正确数据类型、转换数据(如果需要的话),以及解析日期、缺失值和出错数据。...iris.tail() 调用此函数,如果不带任何参数,将输出五行。如果想要输出不同的行数,调用函数时只需要设置想要的行数作为参数,格式如下: iris.head(2) 上述命令只输出了数据的前两行。...以下是X数据集的后4行数据: ? 在这个例子中,得到的结果是一个pandas数据框。为什么使用相同的函数却有如此大的差异呢?...那么,在前一个例子中,我们想要抽取一列,因此,结果是一维向量(即pandas series)。 在第二个例子中,我们要抽取多列,于是得到了类似矩阵的结果(我们知道矩阵可以映射为pandas的数据框)。...然后,接下来的步骤需要弄清楚要处理的问题的规模,因此,你需要知道数据集的大小。通常,对每个观测计为一行,对每一个特征计为一列。
,适合将数值进行分类 qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间的频率 join:通过索引合并两个dataframe stack: 将数据框的列...“堆叠”为一个层次化的Series unstack: 将层次化的Series转换回数据框形式 append: 将一行或多行数据追加到数据框的末尾 分组 聚合 转换 过滤 groupby:按照指定的列或多个列对数据进行分组...:计算分组的标准差和方差 describe:生成分组的描述性统计摘要 first和 last:获取分组中的第一个和最后一个元素 nunique:计算分组中唯一值的数量 cumsum、cummin、cummax...: 标记重复的行 drop_duplicates: 删除重复的行 str.strip: 去除字符串两端的空白字符 str.lower和 str.upper: 将字符串转换为小写或大写 str.replace...: 替换字符串中的特定字符 astype: 将一列的数据类型转换为指定类型 sort_values: 对数据框按照指定列进行排序 rename: 对列或行进行重命名 drop: 删除指定的列或行 数据可视化
领取专属 10元无门槛券
手把手带您无忧上云