首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DataFrame和Series使用

列表非常相似,但是它每个元素数据类型必须相同 创建 Series 最简单方法是传入一个Python列表 import pandas as pd s = pd.Series([ ' banana...columns属性,获取DataFrame列名 df.columns # 查看dfdtypes属性,获取每一列数据类型 df.dtypes df.info() Pandas与Python常用数据类型对照...加载筛选数据 df根据列名加载部分列数据:加载一列数据,通过df['列名']方式获取,加载多数据,通过df[['列名1','列名2',...]]。...df按行加载部分数据:先打印前5行数据 观察第一列 print(df.head()) 最左边一列是行号,也就是DataFrame行索引 Pandas默认使用行号作为行索引。...对象就是把continent取值相同数据放到一组 df.groupby(‘continent’)[字段] → seriesGroupby对象 分号组Dataframe数据筛序出一列 df.groupby

8810

Python分析成长之路9

1.pandas数据结构     在pandas,有两个常用数据结构:Series和Dataframe  为大多数应用提供了一个有效、易用基础。     ...中选择单列或序列 9 print(df2.loc["one"]) #DataFrame中选择单行或多行 10 print(df2.loc[:,"year"]) #DataFrame中选择单列...13 print(group.mean()) #返回每组均值 14 print(group.median()) #返回每组中位数 15 print(group.cumcount()) #对每个分组成员进行标记...分组 View Code 2.使用agg和aggregate方法聚合,能够将函数应用于每一列     DataFrame.agg(func,axis=0,*args,**kwargs)     ...(group.mean()) #返回每组均值 print(group.median()) #返回每组中位数 print(group.cumcount()) #对每个分组成员进行标记 print

2.1K11
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas_Study02

pandas 数据清洗 1. 去除 NaN 值 在Pandas各类数据Series和DataFrame里字段值为NaN为缺失数据,不代表0而是说没有赋值数据,类似于pythonNone值。...复杂 使用向前 或 向后 填充数据,依旧使用fillna 方法,所谓向前 是指 取出现NaN值一列或前一行数据来填充NaN值,向后同理 # 在df e 这一列上操作,默认下按行操作,向前填充数据...,会最近那个非NaN值开始将之后位置全部填充,填充数值为列上保留数据最大值最小值之间浮点数值。...删除重复数据 对于数据源重复数据,一般来讲没有什么意义,所以一般情况下都会进行删除操作。 duplicated() duplicated 方法可以返回重复数据分布情况,以布尔值显示。...inplace = True) 5. apply() 方法使用 replace、dropna、fillna函数要么针对NaN某行或某或某个,这些函数作用有限,本章介绍apply等函数可以针对整个

18610

pandas模块(很详细归类),pd.concat(后续补充)

df #对df取值 2.pd.DataFrame参数表 属性 详解 dtype 查看数据类型 index 查看行序列或者索引 columns 查看各标签 values 查看数据框内数据,也即不含表头索引数据...describe 查看数据每一列极值,均值,中位数,只可用于数值型数据 transpose 转置,也可用T来操作 sort_index 排序,可按行或index排序输出 sort_values 按数据值来排序...,最大值,最小值等等 5.df.T 横纵坐标进行对调 6.df.sort_index(axis=0) 根据axis=0或者1按照横坐标或者纵坐标进行排序 7.df.sort_values('按照对象名称...取多行:df.loc[起始横坐标:结束横坐标] 必须是横坐标,纵坐标的名称而不去索引,前后可以相同就取起始横坐标这一行 9.df里值按取取 取某一列,df[这对应横坐标] 取多,df[[...第一列对应横坐标,第二对应横坐标]]以此类推 10.df里面按行取值 按行取值df.iloc[2, 1] 第3行第二个 11.df取某个区域 df.iloc[1:4, 1:4] 横坐标是,第2

1.5K20

30 个小例子帮你快速掌握Pandas

读取数据集 本次演示使用Kaggle上提供客户流失数据集[1]。 让我们将csv文件读取到pandas DataFrame开始。...考虑DataFrame抽取样本情况。该示例将保留原始DataFrame索引,因此我们要重置它。...第一个参数是位置索引,第二个参数是名称,第三个参数是值。 19.where函数 它用于根据条件替换行或值。默认替换值是NaN,但我们也可以指定要替换值。...Geography内存消耗减少了近8倍。 24.替换值 替换函数可用于替换DataFrame值。 ? 第一个参数是要替换值,第二个参数是新值。 我们可以使用字典进行多次替换。 ?...在计算元素时间序列或顺序数组变化百分比时很有用。 ? 第一元素(4)到第二元素(5)变化为%25,因此第二个值为0.25。

10.7K10

数据分析篇(五)

DataFrame 二维数组 实例: # 导入模块 import pandas as pd import numpy as np # pandas创建一个二维数组 attr = pd.DataFrame...# 查看详细信息,行,,索引,类型,内存等 attr2.info() # 快速统计均值,标准差,最大值,最小值,四分位 attr2.describe() # 当然只会统计数字类型。...attr4.loc[:,['name','age']] # 通过索引来取值 attr4.iloc[1,:] # 取第二行 attr4.iloc[:,1] # 取第二 attr4.iloc[:,[0,2...]] # 取第一列和第三 attr4.iloc[[0,1],[0,2]] # 取第一行和第二一列和第三 # 布尔索引 # 取出年龄大于10 attr4[attr4['age']>10] #...取出年龄大于10,小于20 attr4[(10<attr4['age'])&(attr4['age']<20)] # &表示and |表示或 pandas字符串方法 # 这里只介绍常用几种 # 模糊查询名字含有三

75120

pandas数据处理利器-groupby

在数据分析,常常有这样场景,需要对不同类别的数据,分别进行处理,然后再将处理之后内容合并,作为结果输出。对于这样场景,就需要借助灵活groupby功能来处理。...groupby操作过程如下 split, 第一步,根据某一个或者多个变量组合,将输入数据分成多个group apply, 第二步, 对每个group对应数据进行处理 combine, 第三步...上述例子在python实现过程如下 >>> import numpy as np >>> import pandas as pd >>> df = pd.DataFrame({'x':['a','a...,通过groupby方法,首选根据x标签内容分为a,b,c3组,然后对每组求均值,最后将结果进行合并。...汇总数据 transform方法返回一个和输入原始数据相同尺寸数据框,常用于在原始数据框基础上增加新一列分组统计数据,用法如下 >>> df = pd.DataFrame({'x':['a','

3.6K10

pandas groupby 用法详解

具体来说,就是根据一个或者多个字段,将数据划分为不同组,然后进行进一步分析,比如求分组数量,分组内最大值最小值平均值等。在sql,就是大名鼎鼎groupby操作。...pandas,也有对应groupby操作,下面我们就来看看pandasgroupby怎么使用。...为了方便地观察数据,我们使用list方法转换一下,发现其是一个元组,元组第一个元素,是level值。元祖第二个元素,则是其组别下整个dataframe。...对dataframe按照level分组,然后对num求和,对score求平均值,可以得到result。 同时,我们还希望得到每个分组,num和在所有num和占比。...添加了一列

1.4K20

PySpark︱DataFrame操作指南:增删改查合并统计与数据处理

(参考:王强知乎回复) pythonlist不能直接添加到dataframe,需要先将list转为新dataframe,然后新dataframe和老dataframe进行join操作,...(均返回DataFrame类型): avg(*cols) —— 计算每组一列或多平均值 count() —— 计算每组中一共有多少行,返回DataFrame有2...,一列为分组组名,另一列为行总数 max(*cols) —— 计算每组一列或多最大值 mean(*cols) —— 计算每组一列或多平均值 min(*cols) ——...计算每组一列或多最小值 sum(*cols) —— 计算每组一列或多总和 — 4.3 apply 函数 — 将df一列应用函数f: df.foreach(f) 或者 df.rdd.foreach...; Pyspark DataFrame数据反映比较缓慢,没有Pandas那么及时反映; Pyspark DataFrame数据框是不可变,不能任意添加,只能通过合并进行; pandas比Pyspark

30.1K10

25个例子学会Pandas Groupby 操作(附代码)

它用于根据给定不同值对数据点(即行)进行分组,分组后数据可以计算生成组聚合值。 如果我们有一个包含汽车品牌和价格信息数据集,那么可以使用groupby功能来计算每个品牌平均价格。...DataFrame,可以使用as_index参数使它们成为DataFrame一列。...由于行是根据上个月销售值排序,所以我们将获得上个月销售额排名第五行。 13、第n个值,倒排序 也可以用负第n项。例如," nth(-2) "返回末尾开始第二行。...") ) 15、唯一值数量 还可以使用nunique函数找到每组唯一值数量。..."Daisy","PG1") ) daisy_pg1.head() 21、rank函数 rank函数用于根据给定值为行分配秩。

3K20

Python数据分析之pandas基本数据结构

如下所示,我们通过字典创建了一个Series数组,输出结果一列就是索引,第二就是数组具体值。...也可以在创建时手动指定索引: >>> a = pd.Series([102, 212, 332, 434], index=['第一列', '第二', '第三', '第四']) >>> a 第一列...102 第二 212 第三 332 第四 434 dtype: int64 利用索引,我们可以更加方便得在数组中进行取值: >>> a['第一列'] 102 >>> a[['第一列', '第二...']] 第一列 102 第二 212 dtype: int64 当然,你也可以使用以往数字下标数组取值: >>> a[0] 102 >>> a[[0,1]] 第一列 102 第二 212 dtype...此外DataFrame数组还有一个列名,索引和列名是数组挑选数据重要依据。

1.2K10

Pandas_Study01

pandas 入门概念 series 和 dataframe 这是pandas 中最为基本两个概念,series 类似于一维数组,可以近似当成普通数组进行操作,对于series 默认会有行索引为它索引...取值根据需要 money_series.iloc[[3, 0]] # 取第四个值和第一个值 """ d 5 a 200 Name: money, dtype: int64 """ 上面是根据序号进行取值...访问dataframe 元素方式 # 获取dataframe 一列数据 df['日期'] # 获取dataframe 几列数据 df[['x', 'y']] # 同样也可以使用loc 按标签取...,否则按连接 # 删除一列,在原有的dataframe上进行操作 del df['日期'] 或是使用 pop 方法,返回被删除数据(只能是某一列) df.pop('cx') # 通过 drop...pandas 常用函数 pandas函数 一般会有两种结果,一是copy,即返回一个修改后副本,原有的不变,二是inplace,即在原有基础上直接进行修改。

17510

数据科学家私藏pandas高阶用法大全 ⛵

一列计数统计,可以使用groupby和count组合,如果要获取2或更多组成分组计数,可以使用groupby和size组合。...如下例,我们可以使用pandas.melt()将多(“Aldi”、“Walmart”、“Costco”)转换为一列(“store”)值。...combine_first()方法根据 DataFrame 行索引和索引,对比两个 DataFrame 相同位置数据,优先取非空数据进行合并。... 我们可以根据名称子字符串过滤 pandas DataFrame ,具体是使用 pandas DataFrame.filter功能。...DataFrame 在我们处理数据时候,有时需要根据某个进行计算得到一个新,以便后续使用,相当于是根据已知得到新,这个时候assign函数非常方便。

6.1K30

pandas | DataFrame排序与汇总方法

大家好,我是架构君,一个会写代码吟诗架构师。今天说一说pandas | DataFrame排序与汇总方法,希望能够帮助大家进步!!!...这两个方法都会返回一个新Series: 索引排序 对于DataFrame来说也是一样,同样有根据值排序以及根据索引排序这两个功能。...最简单差别是在于Series只有一列,我们明确知道排序对象,但是DataFrame不是,它当中索引就分为两种,分别是行索引以及索引。...除了sum之外,另一个常用就是mean,可以针对一行或者是一列求平均。 由于DataFrame当中常常会有为NA元素,所以我们可以通过skipna这个参数排除掉缺失值之后再计算平均值。...另一个我个人觉得很好用方法是descirbe,可以返回DataFrame当中整体信息。比如每一列均值、样本数量、标准差、最小值、最大值等等。

3.8K20

pandas | DataFrame排序与汇总方法

Series当中排序方法有两个,一个是sort_index,顾名思义根据Series索引对这些值进行排序。另一个是sort_values,根据Series值来排序。...这两个方法都会返回一个新Series: ? 索引排序 对于DataFrame来说也是一样,同样有根据值排序以及根据索引排序这两个功能。...最简单差别是在于Series只有一列,我们明确知道排序对象,但是DataFrame不是,它当中索引就分为两种,分别是行索引以及索引。...首先是sum,我们可以使用sum来对DataFrame进行求和,如果不传任何参数,默认是对每一行进行求和。 ? 除了sum之外,另一个常用就是mean,可以针对一行或者是一列求平均。 ?...另一个我个人觉得很好用方法是descirbe,可以返回DataFrame当中整体信息。比如每一列均值、样本数量、标准差、最小值、最大值等等。

4.5K50
领券