首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用过Excel,就会获取pandas数据框架

在Excel,我们可以看到和单元格,可以使用“=”号或在公式引用这些。...在Python,数据存储在计算机内存(即,用户不能直接看到),幸运pandas库提供了获取值、简单方法。 先准备一个数据框架,这样我们就有一些要处理东西了。...df.columns 提供(标题)名称列表。 df.shape 显示数据框架维度,在本例为45。 图3 使用pandas获取 有几种方法可以在pandas获取。...要获取前三,可以执行以下操作: 图8 使用pandas获取单元格 要获取单个单元格,我们需要使用交集。...接着,.loc[[1,3]]返回该数据框架第1和第4。 .loc[]方法 正如前面所述,.loc语法是df.loc[],需要提醒(索引)和可能是什么?

19K60

Pandas速查卡-Python数据科学

) 将col1按升序排序,然后按降序排序col2 df.groupby(col) 从一返回一组对象 df.groupby([col1,col2]) 从多返回一组对象 df.groupby(col1...)[col2] 返回col2平均值,按col1分组(平均值可以用统计部分几乎任何函数替换) df.pivot_table(index=col1,values=[col2,col3],aggfunc...=max) 创建一个数据透视表,按col1分组并计算col2和col3平均值 df.groupby(col1).agg(np.mean) 查找每个唯一col1组所有平均值 data.apply(...np.mean) 在每个列上应用函数 data.apply(np.max,axis=1) 在每行上应用一个函数 加入/合并 df1.append(df2) 将df1添加到df2末尾(数应该相同...df2上连接,其中col具有相同

9.2K80
您找到你想要的搜索结果了吗?
是的
没有找到

数据导入与预处理-第6章-02数据变换

等宽法 等宽法将属性值域从最小到最大划分成具有相同宽度区间,具体划分多少个区间由数据本身特点决定,或者由具有业务经验用户指定 等频法 等频法将相同数量划分到每个区间,保证每个区间数量基本一致...基于重塑数据(生成一个“透视”表)。使用来自指定索引/唯一来形成结果DataFrame轴。此函数不支持数据聚合,多个将导致MultiIndex。...pivot_table透视过程如下图: 假设某商店记录了5月和6月活动期间不同品牌手机促销价格,保存到以日期、商品名称、价格为标题表格,若对该表格商品名称进行轴向旋转操作,即将商品名称一唯一变换成索引...,将出售日期一唯一变换成行索引。...,商品一唯一数据变换为索引: # 将出售日期一唯一数据变换为索引,商品一唯一数据变换为索引 new_df = df_obj.pivot(index='出售日期', columns='商品名称

19.2K20

Pandas 秘籍:6~11

为此,我们从max_cols序列收集所有唯一学校名称。 最后,在步骤 8 ,我们使用.loc索引器根据索引标签选择,在第一步中将其作为学校名称。 此过滤器仅适用于具有最大学校。...在对 Pandas 进行分组时,通常使用具有离散重复。...如果没有重复,则分组将毫无意义,因为每个组只有一。 连续数字通常具有很少重复,并且通常不用于形成组。...一种技巧是使用pd.Categorical从每个演员/导演姓名创建一个分类数据类型。 分类数据类型具有从每个到整数内部映射。 在codes属性可以找到该整数,该属性用作唯一 ID。...默认情况下,concat函数使用外连接,将列表每个数据帧所有保留在列表。 但是,它为我们提供了仅在两个数据帧中保留具有相同索引选项。 这称为内连接。

33.9K10

数据专家最常使用 10 大类 Pandas 函数 ⛵

『长』格式,在这种格式,一个主题有多行,每一可以代表某个时间点度量。我们会在这两种格式之间转换。melt:将宽表转换为长表。...注意:重要参数id_vars(对于标识符)和 value_vars(其列有贡献列表)。pivot:将长表转换为宽表。...注意:重要参数index(唯一标识符), columns(列成为),和 values(具有)。...当我们有多个相同形状/存储相同信息 DataFrame 对象时,它很有用。...图片 10.分组统计我们经常会需要对数据集进行分组统计操作,常用函数包括:groupby:创建一个 GroupBy 分组对象,可以基于一或多进行分组

3.5K21

pandas类SQL操作

这篇文章我们先来了解一下pandas类SQL操作,pandas基本涵盖了SQL和EXCEL数据处理功能,灵活应用的话会非常高效。...: 其一:第三代码返回是第0数据,即0:1等价于[0, 1),而第四代码返回是第0,1代码,即0:1等价于[0,1]结构。...多DataFrame查询主要是解决SQLjoin和concat问题,python主要使用merge和concat来实现对应功能具体写法如下: Merge用法:merge主要是用作按拼接,类似于...几种常用用法有: 单列分组然后按照另一数据计算相应: print(data1.groupby('a')['b'].mean()) 多分组然后按照另一数据计算相应: Agg作用即为封装对应函数...print(data1.groupby(['a','b']).agg('mean')) 多分组然后按照多分别计算相应: data1 = pd.DataFrame([['1','23',3, 5

1.8K21

数据分析之Pandas变形操作总结

Pandas做分析数据,可以分为索引、分组、变形及合并四种操作。前边已经介绍过索引操作、分组操作,现在接着对Pandas变形操作进行介绍,涉及知识点提纲如下图: ? 本文目录 1....melt函数id_vars表示需要保留,value_vars表示需要stack一组,value_name是value_vars对应列名。...这个参数是用来删除缺失,这个例子不是很好,展示不出删除缺失,但是可以看下面分享链接,有一个例子比较明显展示了dropna是怎么删除缺失。...这些函数主要就是用来变换行列索引,功能比较局限,其中stack功能就是将索引变成索引,然后melt和unstack功能类似,和stack功能恰恰相反。...问题5:透视表涉及了三个函数,请分别使用它们完成相同目标(任务自定)并比较哪个速度最快。

4K21

Pandas tricks 之 transform用法

思路一: 常规解法是,先用对订单id分组,求出每笔订单总金额,再将源数据和得到总金额进行“关联”。最后把相应相除即可。相应代码如下: 1.对订单id分组,求每笔订单总额。...思路二: 对于上面的过程,pandastransform函数提供了更简洁实现方式,如下所示: ? 可以看到,这种方法把前面的第一步和第二步合成了一步,直接得到了sum_price。...多分组使用transform 为演示效果,我们虚构了如下数据,id,name,cls为维度。 ? 我们想求:以(id,name,cls)为分组,每组stu数量占各组总stu比例。...,且返回与原来数据在相同轴上具有相同长度。...以上三种调用apply方式处理两差,换成transform都会报错。 利用transform填充缺失 transform另一个比较突出作用是用于填充缺失。举例如下: ?

2K30

MySQL(五)汇总和分组数据

①使用count(*)对表中行数目进行计数,不管表列包含是空(null)还是非空; ②使用count(column)对特定具有行进行计数,忽略null; select count(...= 1003; 这条SQL语句中,使用avg()函数返回vendvend_id=1003对应price平均价格,因为使用了distinct参数,因此平均值只考虑不同唯一) 7、组合聚集函数...如果分组具有null,则null将作为一个分组返回(如果中有多行null,他们将分为一组); ⑥group by子句必须出现在where子句之后,order by子句之前; PS:使用with...)那些分组; having和where区别: where在数据分组前进行过滤,having在数据分组后进行过滤;where排除不包括在分组(这可能会改变计算,从而影响having子句中基于这些过滤掉分组...by vend_id having count(*)>= 2; 这条SQL语句中,where子句过滤掉所有prod_price至少为10然后按照vend_id分组数据;having子句过滤技术为

4.7K20

Pandas Merge函数详解

和索引合并 在上面合并数据集中,merge函数在cust_id列上连接两个数据集,因为它是唯一公共。我们也可以指定要在两个数据集上连接列名。...pd.merge(customer, order, on = 'cust_id') 结果与前面的示例类似,因为cust_id唯一公共。...但是如果两个DataFrame都包含两个或多个具有相同名称,则这个参数就很重要。 我们来创建一个包含两个相似数据。...所以现在是通过cust_id和country中找到相同来实现合并。 还有一个问题,我们指定一个后,其他重复列(这里是country),现在存在country_x和country_y。...在Inner Join,根据键之间交集选择。匹配在两个键或索引中找到相同

24630

《Python for Excel》读书笔记连载12:使用pandas进行数据分析之理解数据

处理空单元格方式一致,因此在包含空单元格区域内使用ExcelAVERAGE公式将获得与应用于具有相同数字和NaN(而不是空单元格)系列mean方法相同结果。...在数据框架所有获取统计信息有时不够好,你需要更细粒度信息,例如,每个类别的均值,这是下面的内容。 分组 再次使用我们示例数据框架df,让我们找出每个大陆平均分数。...为此,首先按洲对行进行分组,然后应用mean方法,该方法将计算每组均值,自动排除所有非数字: 如果包含多个,则生成数据框架将具有层次索引,即我们前面遇到多重索引: 可以使用pandas提供大多数描述性统计信息...index和columns分别定义数据框架哪一将成为透视表标签。...Region)唯一,并将其转换为透视表标题,从而聚合来自另一

4.2K30

DataFrame和Series使用

列表非常相似,但是它每个元素数据类型必须相同 创建 Series 最简单方法是传入一个Python列表 import pandas as pd s = pd.Series([ ' banana...df按加载部分数据:先打印前5数据 观察第一 print(df.head()) 最左边一是行号,也就是DataFrame索引 Pandas默认使用行号作为索引。...[:,[0,2,4,-1]] df.iloc[:,0:6:2] # 所有, 第0 , 第2 第4 可以通过获取某几个格元素 分组和聚合运算 先将数据分组 对每组数据再去进行统计计算如...Series唯一计数 # 可以使用 value_counts 方法来获取Pandas Series 频数统计 df.groupby(‘continent’) → dataframeGroupby...对象就是把continent取值相同数据放到一组 df.groupby(‘continent’)[字段] → seriesGroupby对象 从分号组Dataframe数据筛序出一 df.groupby

8810

Pandas库常用方法、函数集合

Series unstack: 将层次化Series转换回数据框形式 append: 将一或多行数据追加到数据框末尾 分组 聚合 转换 过滤 groupby:按照指定或多个对数据进行分组 agg...:对每个分组应用自定义聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同结果 rank:计算元素在每个分组排名 filter:根据分组某些属性筛选数据 sum:计算分组总和...describe:生成分组描述性统计摘要 first和 last:获取分组第一个和最后一个元素 nunique:计算分组唯一数量 cumsum、cummin、cummax、cumprod:...计算分组累积和、最小、最大、累积乘积 数据清洗 dropna: 丢弃包含缺失 fillna: 填充或替换缺失 interpolate: 对缺失进行插 duplicated: 标记重复...astype: 将一数据类型转换为指定类型 sort_values: 对数据框按照指定进行排序 rename: 对或行进行重命名 drop: 删除指定 数据可视化 pandas.DataFrame.plot.area

25610

python数据科学系列:pandas入门详细教程

还是dataframe,均支持面向对象绘图接口 正是由于具有这些强大数据分析与处理能力,pandas还有数据处理"瑞士军刀"美名。...对象,功能与python普通map函数类似,即对给定序列每个执行相同映射操作,不同是seriesmap接口映射方式既可以是一个函数,也可以是一个字典 ?...,要求每个df内部列名是唯一,但两个df间可以重复,毕竟有相同才有拼接实际意义) merge,完全类似于SQLjoin语法,仅支持横向拼接,通过设置连接字段,实现对同一记录不同信息连接,支持...2 分组聚合 pandas另一个强大数据分析功能是分组聚合以及数据透视表,前者堪比SQLgroupby,后者媲美Excel数据透视表。...groupby,类比SQLgroup by功能,即按某一或多执行分组

13.8K20

【精心解读】用pandas处理大数据——节省90%内存消耗小贴士

Dataframe对象内部表示 在底层,pandas会按照数据类型将分组形成数据块(blocks)。...由于pandas使用相同数量字节来表示同一类型每一个,并且numpy数组存储了这些数量,所以pandas能够快速准确地返回数值型所消耗字节量。...当我们把一转换成category类型时,pandas会用一种最省空间int子类型去表示这一中所有的唯一。...为了介绍我们何处会用到这种类型去减少内存消耗,让我们来看看我们数据每一个object类型唯一个数。 可以看到在我们包含了近172000场比赛数据集中,很多只包含了少数几个唯一。...对于唯一数量少于50%object,我们应该坚持首先使用category类型。如果某一全都是唯一,category类型将会占用更多内存。

8.6K50

盘点66个Pandas函数,轻松搞定“数据清洗”!

今天我们重新盘点66个Pandas函数合集,包括数据预览、数值数据操作、文本数据操作、/操作等等,涉及“数据清洗”方方面面。...此外,isnull().any()会判断哪些””存在缺失,isnull().sum()用于将为空个数统计出来。...df["迟到天数"] = df["迟到天数"].clip(0,31) 唯一,unique()是以数组形式返回所有唯一,而nunique()返回唯一个数。...如果想直接筛选包含特定字符字符串,可以使用contains()这个方法。 例如,筛选户籍地址包含“黑龙江”这个字符所有。...df.query("语文 > 英语") 输出: select_dtypes()方法可用于筛选某些数据类型变量或。举例,我们仅选择具有数据类型'int64'

3.7K11

快速介绍Python数据分析库pandas基础知识和代码示例

选择 在训练机器学习模型时,我们需要将放入X和y变量。...通常回根据一个或多个对panda DataFrame进行排序,或者根据panda DataFrame索引名称进行排序。 例如,我们希望按学生名字按升序排序。...计算性别分组所有平均值 average = df.groupby(‘Sex’).agg(np.mean) ? 统计数据 我们可能熟悉Excel数据透视表,可以轻松地洞察数据。...假设我们想按性别将分组,并计算物理和化学平均值和标准差。...我们将调用pivot_table()函数并设置以下参数: index设置为 'Sex',因为这是来自df,我们希望在每一中出现一个唯一 values为'Physics','Chemistry

8.1K20
领券