大多数数据科学家可能会赞扬Pandas进行数据准备的能力,但许多人可能无法利用所有这些能力。...包含值的列将转换为两列:一列用于变量(值列的名称),另一列用于值(变量中包含的数字)。 ? 结果是ID列的值(a,b,c)和值列(B,C)及其对应值的每种组合,以列表格式组织。...要记住:从外观上看,堆栈采用表的二维性并将列堆栈为多级索引。 Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应值的新DataFrame的列。...尽管可以通过将axis参数设置为1来使用concat进行列式联接,但是使用联接 会更容易。 请注意,concat是pandas函数,而不是DataFrame之一。...因此,它接受要连接的DataFrame列表。 如果一个DataFrame的另一列未包含,默认情况下将包含该列,缺失值列为NaN。
Series 序列是表示 DataFrame 的一列的数据结构。使用序列类似于引用电子表格的列。 4. Index 每个 DataFrame 和 Series 都有一个索引,它们是数据行上的标签。...在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引值实际上可用于引用行。...pandas 通过在 DataFrame 中指定单个系列来提供矢量化操作。可以以相同的方式分配新列。DataFrame.drop() 方法从 DataFrame 中删除一列。...If/then逻辑 假设我们想要根据 total_bill 是小于还是大于 10 美元,来创建一个具有低值和高值的列。 在Excel电子表格中,可以使用条件公式进行逻辑比较。...VLOOKUP 相比,merge 有许多优点: 查找值不需要是查找表的第一列; 如果匹配多行,则每个匹配都会有一行,而不仅仅是第一行; 它将包括查找表中的所有列,而不仅仅是单个指定的列; 它支持更复杂的连接操作
df.shape返回行和列的数量。 df.info()总结了所有相关信息 还可以将一个或几个列设置为索引。...NumPy 数组和 Pandas DataFrame都没有这样做。另一种方法(如果你事先知道行的数量)是用类似 DataFrame(np.zeros) 的东西来手动预分配内存。...把这些列当作独立变量来操作,例如,df.population /= 10**6,人口以百万为单位存储,下面的命令创建了一个新的列,称为 "density",由现有列中的值计算得出: 此外,你甚至可以对来自不同...例如,插入一列总是在原表进行,而插入一行总是会产生一个新的DataFrame,如下图所示: 删除列也需要注意,除了del df['D']能起作用,而del df.D不能起作用(在Python层面的限制...首先,你可以只用一个名字来指定要分组的列,如下图所示: 如果没有as_index=False,Pandas会把进行分组的那一列作为索引列。
上述代码中,我们通过指定采样数量 n 来进行随机选取。此外,也可以通过指定采样比例 frac 来随机选取数据。当 frac=0.5时,将随机返回一般的数据。...对于行标签,如果我们不分配任何特定的索引,pandas默认创建整数索引。因此,行标签是从0开始向上的整数。与iloc一起使用的行位置也是从0开始的整数。...我们有三个不同的城市,在不同的日子进行测量。我们决定将这些日子表示为列中的行。还将有一列显示测量值。...Merge Merge()根据共同列中的值组合dataframe。考虑以下两个数据: ? 我们可以基于列中的共同值合并它们。设置合并条件的参数是“on”参数。 ?...df1和df2是基于column_a列中的共同值进行合并的,merge函数的how参数允许以不同的方式组合dataframe,如:“inner”、“outer”、“left”、“right”等。
相比较于 Numpy,Pandas 使用一个二维的数据结构 DataFrame 来表示表格式的数据, 可以存储混合的数据结构,同时使用 NaN 来表示缺失的数据,而不用像 Numpy 一样要手工处理缺失的数据...我们将使用 DataFrame.select_dtypes 来选择整数列,然后优化这些列包含的类型,并比较优化前后内存的使用情况。...当我们将列转换为 category dtype 时,Pandas 使用了最省空间的 int 子类型,来表示一列中所有的唯一值。 想要知道我们可以怎样使用这种类型来减少内存使用量。...请注意,这一列可能代表我们最好的情况之一:一个具有 172,000 个项目的列,只有 7 个唯一的值。 将所有的列都进行同样的操作,这听起来很吸引人,但使我们要注意权衡。...我们将编写一个循环程序,遍历每个对象列,检查其唯一值的数量是否小于 50%。如果是,那么我们就将这一列转换为 category 类型。
这里要注意的是,字符串里的字符数量必须与 DataFrame 的列数一致。 3. 重命名列 ? 用点(.)选择 pandas 里的列写起来比较容易,但列名里有空格,就没法这样操作了。...rename()方法改列名是最灵活的方式,它的参数是字典,字典的 Key 是原列名,值是新列名,还可以指定轴向(axis)。 ? 这种方式的优点是可以重命名任意数量的列,一列、多列、所有列都可以。...反转列序 与反转行序类似,还可以用 loc 从左到右反转列序。 ? 逗号前面的分号表示选择所有行,逗号后面的 ::-1 表示反转列,这样一来,country 列就跑到最右边去了。 6....用多个文件建立 DataFrame ~ 按列 上个技巧按行合并数据集,但是如果多个文件包含不同的列,该怎么办? 本例将 drinks 数据集分为了两个 CSV 文件,每个文件都包含 3 列。 ?...接下来,为 DataFrame 新增一列,total_price。 ? 如上所示,每一行都列出了对应的订单总价。 这样一来,计算每行产品占订单总价的百分比就易如反掌了。 ? 20.
这是因为这些块为存储 dataframe 中的实际值进行了优化。pandas 的 BlockManager 类则负责保留行列索引与实际块之间的映射关系。...这意味着我们可以使用这个子类型来表示从 -128 到 127(包括 0)的所有整数值。 我们可以使用 numpy.iinfo 类来验证每个整型数子类型的最大值和最小值。...我们会使用 DataFrame.select_dtypes 来选择整型列,然后我们会对其数据类型进行优化,并比较内存用量。...当我们将一列转换成 category dtype 时,pandas 就使用最节省空间的 int 子类型来表示该列中的所有不同值。...因为这一列不仅要存储所有的原始字符串值,还要额外存储它们的整型值代码。
将字符型转换为数值型 让我们来创建另一个示例DataFrame: ? 这些数字实际上储存为字符型,导致其数据类型为object: ? 为了对这些列进行数学运算,我们需要将数据类型转换成数值型。...将一个字符串划分成多个列 我们先创建另一个新的示例DataFrame: ? 如果我们需要将“name”这一列划分为三个独立的列,用来表示first, middle, last name呢?...将聚合结果与DataFrame进行组合 让我们再看一眼orders这个DataFrame: ? 如果我们想要增加新的一列,用于展示每个订单的总价格呢?...解决的办法是使用transform()函数,它会执行相同的操作但是返回与输入数据相同的形状: ? 我们将这个结果存储至DataFrame中新的一列: ?...我们现在隐藏了索引,将Close列中的最小值高亮成红色,将Close列中的最大值高亮成浅绿色。 这里有另一个DataFrame格式化的例子: ?
如果你仔细查看其他人使用Pandas的代码,你会发现这条导入语句。 Pandas的数据类型 Pandas基于两种数据类型:series与dataframe。...注意到当我们提取了一列,Pandas将返回一个series,而不是一个dataframe。是否还记得,你可以将dataframe视作series的字典。...好,我们也可以在Pandas中做同样的事。 ? 上述代码将范围一个布尔值的dataframe,其中,如果9、10月的降雨量低于1000毫米,则对应的布尔值为‘True’,反之,则为’False’。...在返回的series中,这一行的每一列都是一个独立的元素。 可能在你的数据集里有年份的列,或者年代的列,并且你希望可以用这些年份或年代来索引某些行。这样,我们可以设置一个(或多个)新的索引。 ?...当我们以年份这一列进行合并时,仅仅’jpn_rainfall’这一列和我们UK雨量数据集的对应列进行了合并。 ?
: 类型 描述 二维ndarray 数据矩阵,还可以传入行标和列标 由数组、列表或元组组成的字典 每个序列会变成DataFrame的一列。...所有序列的长度必须相同 NumPy的结构化/记录数组 类似于“由数组组成的字典” 由Series组成的字典 每个Series会成为一列。...另一种用法是通过布尔型DataFrame(比如下面这个由标量比较运算得出的)进行索引: print(data < 5) print(data[data<5]) data[data < 5] = 0...下表对DataFrame进行了总结: 类型 描述 df[val] 从DataFrame选取单列或一组列;在特殊情况下比较便利:布尔型数组(过滤行)、切片(行切片)、或布尔型DataFrame(根据条件设置值...后面的频率值是每个列中这些值的相应计数。
这是因为这些块为存储 dataframe 中的实际值进行了优化。pandas 的 BlockManager 类则负责保留行列索引与实际块之间的映射关系。...我们会使用 DataFrame.select_dtypes 来选择整型列,然后我们会对其数据类型进行优化,并比较内存用量。...当我们将一列转换成 category dtype 时,pandas 就使用最节省空间的 int 子类型来表示该列中的所有不同值。 ?...我们应该坚持主要将 category 类型用于不同值的数量少于值的总数量的 50% 的 object 列。如果一列中的所有值都是不同的,那么 category 类型所使用的内存将会更多。...因为这一列不仅要存储所有的原始字符串值,还要额外存储它们的整型值代码。
但在使用的时候,往往是将列索引作为区分不同数据的标签。DataFrame的数据结构与SQL数据表或者Excel工作表的结构非常类似,可以很方便地互相转换。...可以传给DataFrame构造器的数据: 二维ndarray:可以自行指定索引和列标签 嵌套列表或者元组:类似于二维ndarray 数据、列表或元组组成的字典:每个序列变成一列。...所有序列长度必须相同 由Series组成的字典:每个Series会成为一列。...如果没有指定索引,各Series的索引会被合并 另一个DataFrame:该DataFrame的索引将会被沿用 前面生成了一个DataFrame,变量名为df。下面我们来查看一下df的各个属性值。...▲图3-3 如果某列不存在,为其赋值,会创建一个新列。我们可以用这种方法来添加一个新的列: df['D']=10 df 运行结果如图3-4所示。 ?
2、当文件没有标题行时 可以让pandas为其自动分配默认的列名。 也可以自己定义列名。 3、将某一列作为索引,比如使用message列做索引。通过index_col参数指定’message’。...通过调用merge函数即可进行合并。 当没有指明用哪一列进行连接时,程序将自动按重叠列的列名进行连接,上述语句就是按重叠列“key”列进行连接。也可以通过on来指定连接列进行连接。...(2)对于pandas对象(如Series和DataFrame),可以pandas中的concat函数进行合并。...(2)将‘长格式’旋转为‘宽格式’ 2、转换数据 (1)数据替换,将某一值或多个值用新的值进行代替。(比较常用的是缺失值或异常值处理,缺失值一般都用NULL、NAN标记,可以用新的值代替缺失标记值)。...利用drop_duplicates方法,可以返回一个移除了重复行的DataFrame. 默认情况下,此方法是对所有的列进行重复项清理操作,也可以用来指定特定的一列或多列进行。
等宽法 等宽法将属性的值域从最小值到最大值划分成具有相同宽度的区间,具体划分多少个区间由数据本身的特点决定,或者由具有业务经验的用户指定 等频法 等频法将相同数量的值划分到每个区间,保证每个区间的数量基本一致...2.2 轴向旋转(6.2.2 ) 掌握pivot()和melt()方法的用法,可以熟练地使用这些方法实现轴向旋转操作 2.2.1 pivot方法 pivot()方法用于将DataFrame类对象的某一列数据转换为列索引...基于列值重塑数据(生成一个“透视”表)。使用来自指定索引/列的唯一值来形成结果DataFrame的轴。此函数不支持数据聚合,多个值将导致列中的MultiIndex。...pivot_table透视的过程如下图: 假设某商店记录了5月和6月活动期间不同品牌手机的促销价格,保存到以日期、商品名称、价格为列标题的表格中,若对该表格的商品名称列进行轴向旋转操作,即将商品名称一列的唯一值变换成列索引...,将出售日期一列的唯一值变换成行索引。
神奇的是,pandas已经将第一列作为索引了: ? 需要注意的是,如果你想要你的工作在未来可复制,那么read_clipboard()并不值得推荐。...一个字符串划分成多列 我们先创建另一个新的示例DataFrame: ? 如果我们需要将“name”这一列划分为三个独立的列,用来表示first, middle, last name呢?...如果我们想要划分一个字符串,但是仅保留其中一个结果列呢?比如说,让我们以", "来划分location这一列: ?...如果我们想要增加新的一列,用于展示每个订单的总价格呢?回忆一下,我们通过使用sum()函数得到了总价格: ?...我们可以通过链式调用函数来应用更多的格式化: ? 我们现在隐藏了索引,将Close列中的最小值高亮成红色,将Close列中的最大值高亮成浅绿色。 这里有另一个DataFrame格式化的例子: ?
,但特殊的同时与普通的一维数组不同 列表只能有从0开始的整数索引,而series则可以自定义标签索引,这一点来看,跟字典又比较相似,因此series又可以拥有类似字典的操作方式,series 的标签索引可以随时更新修改替换...loc 用法(Dataframe): loc([这里是行标识], [这里是列标识]) 示例: data.loc[:,'列一'] #取出所有行第一列,loc可以理解为传入两个参数一个是关于行的,一个是关于列的...,读取到文件后就是一个dataframe 对象,之后的操作都是基于dataframe和series 来。...2).参与运算的如果是两个DataFrame,有可能所有的行、列是一致的,那么运算时对应行列的位置进行相应的算术运算,若行列没有对齐,那么填值NaN。 3)....如果参与运算的一个是DataFrame,另一个是Series,那么pandas会对Series进行行方向的广播,然后做相应的运算。 4).
3更改列名 我们来看一下刚才我们创建的示例DataFrame: df 我更喜欢在选取pandas列的时候使用点(.),但是这对那么列名中含有空格的列不会生效。让我们来修复这个问题。...将字符型转换为数值型 我们来创建另一个示例DataFrame: df = pd.DataFrame({'col_one':['1.1', '2.2', '3.3'],...将一个字符串划分成多个列 我们先创建另一个新的示例DataFrame: df = pd.DataFrame({'name':['John Arthur Doe', 'Jane Ann Smith'],...将聚合结果与DataFrame进行组合 我们再看一眼orders这个DataFrame: orders.head(10) 如果我们想要增加新的一列,用于展示每个订单的总价格呢?...我们回到stocks这个DataFrame: stocks 我们可以创建一个格式化字符串的字典,用于对每一列进行格式化。
加入这些参数的另一大好处是,如果这一列中同时含有字符串和数值类型,而你提前声明把这一列看作是字符串,那么这一列作为主键来融合多个表时,就不会报错了。...df[‘c].value_counts().reset_index(): 将这个统计表转换成pandas的dataframe并且进行处理。 8....基于分位数分组 面对一列数值,你想将这一列的值进行分组,比如说最前面的5%放入组别一,5-20%放入组别二,20%-50%放入组别三,最后的50%放入组别四。...另一个技巧是用来处理整数值和缺失值混淆在一起的情况。如果一列含有缺失值和整数值,那么这一列的数据类型会变成float而不是int。...当导出表格时,你可以加上float_format=‘%.0f’以便将所有的浮点数近似成整数。当你想把所有列的输出值都变成整数格式时,就可以使用这个技巧,这样一来你就会告别所有数值后带“.0”的烦恼。
数据统计信息 获取每一列的统计相关数据,count表示一列的行数,mean表示均值,std为标准差,min和max表示最小值和最大值,25%,50%和75%分别表示1/4位数,中位数和3/4位数。...Pandas主要有两种数据查询选择操作: 基于标签的查询 基于整数的位置索引查询 Pandas在选择列时,无需使用 date[:, columns] 的形式,先使用 : 选择所有行,再指定 columns...由于Series只有一列,因此只需要对行进行索引操作即可,也支持基于标签和整数的位置索引方式。...索引切片: 可以理解成 idx 将 MultiIndex 视为一个新的 DataFrame,然后将上层索引视为行,下层索引视为列,以此来进行数据的查询。...,idx['1001A', ['AQI', 'PM10', 'PM2.5']] 表示 data 中的指定列,如果将 idx 看作新的 DataFrame,那么'1001A'则是 idx 中的行,['AQI
领取专属 10元无门槛券
手把手带您无忧上云