首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

详解pd.DataFrame中的几种索引变换

导读 pandas中最常用的数据结构是DataFrame,而DataFrame相较于嵌套list或者二维numpy数组更好用的原因之一在于其提供了行索引和列名。...list而言,最大的便利之处在于其提供了索引,DataFrame中还有列标签名,这些都使得在操作一行或一列数据中非常方便,包括在数据访问、数据处理转换等。...,以新接收的一组标签序列作为索引,当原DataFrame中存在该索引时则提取相应行或列,否则赋值为空或填充指定值。...时对其中的每一行或每一列进行变换;而applymap则仅可作用于DataFrame,且作用对象是对DataFrame中的每个元素进行变换。...05 stack与unstack 这也是一对互逆的操作,其中stack原义表示堆叠,实现将所有列标签堆叠到行索引中;unstack即解堆,用于将复合行索引中的一个维度索引平铺到列标签中。

2.5K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    DataFrame和Series的使用

    ,列索引分别为姓名,职业和年龄 pd.DataFrame() 默认第一个参数放的就是数据 - data 数据 - columns 列名 - index 行索引名 pd.DataFrame(data...('data/nobel_prizes.csv',index_col='id') 2.使用 DataFrame的loc 属性获取数据集里的一行,就会得到一个Series对象 first_row = data.loc...df按行加载部分数据:先打印前5行数据 观察第一列 print(df.head()) 最左边一列是行号,也就是DataFrame的行索引 Pandas默认使用行号作为行索引。...传入的是索引的序号,loc是索引的标签 使用iloc时可以传入-1来获取最后一行数据,使用loc的时候不行 loc和iloc属性既可以用于获取列数据,也可以用于获取行数据 df.loc[[行],[列]...对象就是把continent取值相同的数据放到一组中 df.groupby(‘continent’)[字段] → seriesGroupby对象 从分号组的Dataframe数据中筛序出一列 df.groupby

    10910

    业界使用最多的Python中Dataframe的重塑变形

    pivot pivot函数用于从给定的表中创建出新的派生表 pivot有三个参数: 索引 列 值 def pivot_simple(index, columns, values): """...因此,必须确保我们指定的列和行没有重复的数据,才可以用pivot函数 pivot_table方法实现了类似pivot方法的功能 它可以在指定的列和行有重复的情况下使用 我们可以使用均值、中值或其他的聚合函数来计算重复条目中的单个值...对于不用的列使用通的统计方法 使用字典来实现 df_nodmp5.pivot_table(index="ad_network_name",values=["mt_income","impression"...假设我们有一个在行列上有多个索引的DataFrame。...堆叠DataFrame意味着移动最里面的列索引成为最里面的行索引,反向操作称之为取消堆叠,意味着将最里面的行索引移动为最里面的列索引。

    2K10

    Python中的DataFrame模块学

    删除重复的数据行   import pandas as pd   norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first...=‘first'时,就是保留第一次出现的重复行   # keep='last'时就是保留最后一次出现的重复行。   ...1 1 wang   # 2 2 li   print(data.columns.values.tolist())   # ['ID', 'name']   获取DataFrame的行名   import...异常处理   过滤所有包含NaN的行   dropna()函数的参数配置参考官网pandas.DataFrame.dropna   from numpy import nan as NaN   import...'表示去除列   # how: 'any'表示行或列只要含有NaN就去除,'all'表示行或列全都含有NaN才去除   # thresh: 整数n,表示每行或列中至少有n个元素补位NaN,否则去除

    2.5K10

    (六)Python:Pandas中的DataFrame

    目录 基本特征 创建 自动生成行索引 自定义生成行索引 使用 索引与值 基本操作 统计功能  ---- 基本特征 一个表格型的数据结构 含有一组有序的列(类似于index) 大致可看成共享同一个index...的Series集合 创建         DataFrame与Series相比,除了可以每一个键对应许多值之外,还增加了列索引(columns)这一内容,具体内容如下所示: 自动生成行索引         ... 6000 使用 索引与值                 我们可以通过一些基本方法来查看DataFrame的行索引、列索引和值,代码如下所示: import pandas as pd import...        删除数据可直接用“del 数据”的方式进行,但这种方式是直接对原始数据操作,不是很安全,pandas 中可利用 drop()方法删除指定轴上的数据,drop()方法返回一个新的对象,不会直接修改原始数据...对象的修改和删除还有很多方法,在此不一一列举,有兴趣的同学可以自己去找一下 统计功能  DataFrame对象成员找最低工资和高工资人群信息          DataFrame有非常强大的统计功能,它有大量的函数可以使用

    3.8K20

    python下的Pandas中DataFrame基本操作(二),DataFrame、dict、array构造简析

    DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。...跟其他类似的数据结构相比(如R的data.frame),DataFrame中面向行和面向列的操作基本上是平衡的。...其实,DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。...: Shape of passed values is (3, 5), indices imply (3, 4) 2:传入一个由嵌套的字典;   它就会被解释为:外层字典的键作为列,内层键则作为行索引。...(np.array(s)) 0 1 0 1 2 1 3 4  当然了你也可以主动指定行和列索引(不赘述): >>> pd.DataFrame(np.array(s),index=['

    5.9K30

    访问和提取DataFrame中的元素

    对于一个数据框而言,既有从0开始的整数下标索引,也有行列的标签索引 >>> df = pd.DataFrame(np.random.randn(4, 4), index=['r1', 'r2', 'r3...,可以灵活的访问数据框中的元素,具体的操作方式有以下几种 1....,用法和loc相同,只是将标签替换成了下标索引,示例如下 # 单个索引,视为行索引 >>> df.iloc[0] A -0.220018 B -0.398571 C 0.109313 D...针对访问单个元素的常见,pandas推荐使用at和iat函数,其中at使用标签进行访问,iat使用位置索引进行访问,用法如下 >>> df.at['r1', 'A'] -0.22001819046457136...>>> df.iat[0, 0] -0.22001819046457136 pandas中访问元素的具体方法还有很多,熟练使用行列标签,位置索引,布尔数组这三种基本的访问方式,就已经能够满足日常开发的需求了

    4.4K10

    SparkMLLib中基于DataFrame的TF-IDF

    字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。...除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。...二 TF-IDF统计方法 本节中会出现的符号解释: TF(t,d):表示文档d中单词t出现的频率 DF(t,D):文档集D中包含单词t的文档总数。...为了减少hash冲突,可以增加目标特征的维度,例如hashtable的桶的数目。由于使用简单的模来将散列函数转换为列索引,所以建议使用2的幂作为特征维度,否则特征将不会均匀地映射到列。...推荐你参考http://nlp.stanford.edu/ 和https://github.com/scalanlp/chalk 四 举例说明 下面的例子中,使用Tokenizer将句子分割成单词。

    2K70

    pandas按行按列遍历Dataframe的几种方式

    遍历数据有以下三种方法: 简单对上面三种方法进行说明: iterrows(): 按行遍历,将DataFrame的每一行迭代为(index, Series)对,可以通过row[name]对元素进行访问。...itertuples(): 按行遍历,将DataFrame的每一行迭代为元祖,可以通过row[name]对元素进行访问,比iterrows()效率高。...iteritems():按列遍历,将DataFrame的每一列迭代为(列名, Series)对,可以通过row[index]对元素进行访问。...(inp) print(df) 1 2 3 4 5 6 按行遍历iterrows(): for index, row in df.iterrows(): print(index) # 输出每行的索引值...1 2 row[‘name’] # 对于每一行,通过列名name访问对应的元素 for row in df.iterrows(): print(row[‘c1’], row[‘c2’]) #

    7.1K20

    【疑惑】如何从 Spark 的 DataFrame 中取出具体某一行?

    如何从 Spark 的 DataFrame 中取出具体某一行?...我们可以明确一个前提:Spark 中 DataFrame 是 RDD 的扩展,限于其分布式与弹性内存特性,我们没法直接进行类似 df.iloc(r, c) 的操作来取出其某一行。...1/3排序后select再collect collect 是将 DataFrame 转换为数组放到内存中来。但是 Spark 处理的数据一般都很大,直接转为数组,会爆内存。...2/3排序后加index然后用SQL查找 给 DataFrame 实例 .sort("列名") 后,用 SQL 语句查找: select 列名 from df_table where 索引列名 = i...给每一行加索引列,从0开始计数,然后把矩阵转置,新的列名就用索引列来做。 之后再取第 i 个数,就 df(i.toString) 就行。 这个方法似乎靠谱。

    4.1K30

    pandas | DataFrame中的排序与汇总方法

    今天我们来聊聊如何对一个DataFrame根据我们的需要进行排序以及一些汇总运算的使用方法。...Series当中的排序方法有两个,一个是sort_index,顾名思义根据Series中的索引对这些值进行排序。另一个是sort_values,根据Series中的值来排序。...但是由于DataFrame是一个二维的数据,所以在使用上会有些不同。...最简单的差别是在于Series只有一列,我们明确的知道排序的对象,但是DataFrame不是,它当中的索引就分为两种,分别是行索引以及列索引。...首先是sum,我们可以使用sum来对DataFrame进行求和,如果不传任何参数,默认是对每一行进行求和。 ? 除了sum之外,另一个常用的就是mean,可以针对一行或者是一列求平均。 ?

    4.7K50

    python下的Pandas中DataFrame基本操作(二),DataFrame、dict、array构造简析

    DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。...跟其他类似的数据结构相比(如R的data.frame),DataFrame中面向行和面向列的操作基本上是平衡的。...其实,DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。...: Shape of passed values is (3, 5), indices imply (3, 4) 2:传入一个由嵌套的字典;   它就会被解释为:外层字典的键作为列,内层键则作为行索引。...(np.array(s)) 0 1 0 1 2 1 3 4  当然了你也可以主动指定行和列索引(不赘述): >>> pd.DataFrame(np.array(s),index=['

    4.5K30

    pandas | DataFrame中的排序与汇总方法

    Series当中的排序方法有两个,一个是sort_index,顾名思义根据Series中的索引对这些值进行排序。另一个是sort_values,根据Series中的值来排序。...但是由于DataFrame是一个二维的数据,所以在使用上会有些不同。...最简单的差别是在于Series只有一列,我们明确的知道排序的对象,但是DataFrame不是,它当中的索引就分为两种,分别是行索引以及列索引。...DataFrame当中同样有类似的方法,我们一个一个来看。 首先是sum,我们可以使用sum来对DataFrame进行求和,如果不传任何参数,默认是对每一行进行求和。...除了sum之外,另一个常用的就是mean,可以针对一行或者是一列求平均。 由于DataFrame当中常常会有为NA的元素,所以我们可以通过skipna这个参数排除掉缺失值之后再计算平均值。

    3.9K20
    领券