一、前言 前几天在Python白银交流群【星辰】问了一个pandas处理Excel数据的问题,提问截图如下: 下图是他的原始代码截图: 二、实现过程 其实他这个代码,已经算实现了,如果分别进行定义的话...,每一列做一个变量接收,也是可以实现效果的,速度上虽然慢一些,但是确实可行。...for i in range(1, 4): df[f'min{i}'] = df[['标准数据', f'测试{i}']].min(axis=1) print(df) 看上去确实是实现了多列比较的效果...这篇文章主要盘点了一个Pandas处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。...最后感谢粉丝【星辰】提问,感谢【dcpeng】给出的思路和代码解析,感谢【Jun】、【瑜亮老师】等人参与学习交流。
答案: df = pd.DataFrame(data) 本期所有题目均基于该数据框给出 2 数据提取 题目:提取含有字符串"Python"的行 难度:⭐⭐ 期望结果 grammer score...False) 30 数据提取 题目:取出第33行数据 难度:⭐⭐ 答案 df.loc[32] 31 数据计算 题目:计算salary列的中位数 难度:⭐⭐ 答案 np.median(df['salary...列共有几种学历 难度:⭐⭐ 答案 df['education'].nunique() 50 数据提取 题目:提取salary与new列的和大于60000的最后3行 难度:⭐⭐⭐⭐ 期望输出 ?...(df['col2'])] 90 数据提取 题目:提取第一列和第二列出现频率最高的三个数字 难度:⭐⭐⭐ 答案 temp = df['col1'].append(df['col2']) temp.value_counts...np.convolve(df['col2'], np.ones(3)/3, mode='valid') 98 数据修改 题目:将数据按照第三列值的大小升序排列 难度:⭐⭐ 答案 df.sort_values
本文为Pandas进阶修炼120题系列第三期,前两期戳第一期、第二期。今天的内容主要为Pandas处理金融(股票)数据相关操作,包含异常值处理、数据可视化、指标计算等,我们开始吧!...答案 data.head(3) 53 缺失值处理 题目:查看每列数据缺失值情况 难度:⭐⭐ 期望结果 代码 1 简称 2 日期 2 前收盘价(元) 2 开盘价(元) 2 最高价(元) 2 最低价(元)...答案 data.isnull().sum() 54 缺失值处理 题目:提取日期列含有空值的行 难度:⭐⭐ 期望结果 ?...答案 data[data['日期'].isnull()] 55 缺失值处理 题目:输出每列缺失值具体行数 难度:⭐⭐⭐ 期望结果 列名:"代码", 第[327]行位置有缺失值 列名:"简称", 第[327...以上就是Pandas进阶修炼120题第三期的全部内容,可以看到pandas处理金融数据非常方便,尤其在量化交易相关,比如计算完相关指标之后可以做一个简单的策略,感兴趣的读者可以深入研究。
下面是5道题目作者的答案和解析。 1.第一大题 1.1 第一步:导入相应的模块 最后2行代码可以使作图时不出现编码错误,分别用来正常显示中文标签和正常显示负号。...chipo = pd.read_csv('datasets/chipo.csv') chipo.head(10) 1.3 第三步:根据列名为item_name中每种商品出现的频率,绘制出柱状图 给出的答案示例是购买次数排名第...image.png 3.第三大题 3.1 第一步:导入相关模块 最后2行代码可以使作图时不出现编码错误,分别用来正常显示中文标签和正常显示负号。...第4题最终结果.png 5.第五大题 5.1 第一步:导入相关模块 最后2行代码可以使作图时不出现编码错误,分别用来正常显示中文标签和正常显示负号。...:写出删除 Unname:0和Id列数据的两种方法,第二种注释即可 new_df = baby_df.drop(['Unnamed: 0', 'Id'], axis=1) # del baby_df['
usecols可以是整数、字符串或列表,用于指示pandas仅从Excel文件中提取某些列。...pf.read_excel('D:\用户.xlsx',sheet_name=[0,2])将返回excel文件的第一个和第三个工作表。返回的值是数据框架的字典。...在没有特别指示的情况下阅读该表,pandas会认为我们的数据没有列名。 图2:非标准列标题,数据不是从第1行开始 这并不好,数据框架需要一些清理。...记住,Python使用基于0的索引,因此第4行的索引为3。 图3:指定列标题所在行 names 如果不喜欢源Excel文件中的标题名,可以使用names参数创建自己的标题名。...下面的示例将只读取顾客姓名和购物名列到Python。 图5:指定我们想要的列 pd.read_csv()方法及参数 顾名思义,此方法读取csv文件。
首先是顶流Python高举卷王之王的大旗向传统王者VBA抢班夺权,pandas, xlwings、OpenPyXL和Matplotlib等第三方包已经具备VBA和Power Query的几乎所有功能。...用pandas导入Excel文件的数据,第1行为索引行,引擎为"openpyxl",请根据短跑成绩进行排名,用时越少排名越靠前。排名为整数,采用中国式排名,名次相同时取最小名次,数据添加在最后一列。...生成VBA代码的提示词为: 你是Excel VBA专家,第一个工作表中A1:B8为给定数据,A-B列分别为“姓名”和“短跑成绩(秒)”数据,第1行为变量名称。...遍历第2行到末行,首先按照短跑成绩对各行数据进行升序排列,得到各行对应的序号。排序后的姓名和短跑成绩数据放在第E列和第F列,变量名为“姓名”和“短跑成绩(秒)”,数据从第2行开始往下放。...处理完后,最终序号添加在第G列,变量名为“排名”。给代码添加注释。 为什么会有这么明显的差异呢? 笔者考虑主要有两点原因。
Pandas和NumPy获取数据,为后续数据分析、机器学习做数据准备。...pandas pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。...当ignore_na=False(默认)时,权重基于绝对位置。例如,权重 和 用于计算 ,, 的最终加权平均数,如果adjust=True,则权重分别是 和 1。...如果adjust=False,权重分别是 和 当ignore_na=True时,权重基于相对位置。...到5列 >>> print(A[:, 2:5]) # 共4列,只能取到第3和第4列 [[82.63999939 82.63999939] [82.84999847 82.76999664] [81.94000244
3m_avg_times 近3个月取款平均值 last_3m_avg_times 近6个月取款平均值 last_3m_avg_times 近12个月取款平均值 这些原始的特征在建模中有着自己的“贡献力”,很显然基于这些字段我们可以生成很多的特征...这是关于列递增的方式,使用Pandas自带的方法就可以完成。 行递增 上述方式判断是列递增,那么怎么实现行数据的递增判断呢?...接下来我们提供几种思路和方法供大家考虑,也欢迎小伙伴提出新的方法: (1)第1种方法就是简单的使用for循环取数进行判断,由于过于简单就不在演示。...(2)第2种方法是对目标dataframe进行转置,再使用自带的方法进行判断,接下来我将写一个函数,用来判断每一行数据是否都是递增的,并新增一列来存储判断的结果: import gc import pandas...大家自己找答案。 找答案的时候我们会发现一个新的问题:大矩阵/大稀疏矩阵的转置问题。 感觉又有话题讨论了,不过这次我们不讨论。
取出所有非整数类型 让我们从第 4 题开始,取出 D 列全部非整数行,其实在 pandas 中可以使用.is_integer() 判断一个元素是否为整数。...这样我们就能结合 apply 函数找到全部整数行 再使用 ~ 取其补集即可得到答案 df[~df[['D']].apply(lambda x: x[0].is_integer(), axis=1)]...取出所有数值类型 第 3 题要求取出 C 列所有数值形式的行。...直接计算该列的指定范围,并多条件筛选即可。 至此我们就成功利用 pandas 根据 数据类型 进行筛选值。其实这些题都在「pandas进阶修炼300题」中有类似的存在。...当然本文的内容也将再次整理后添加至第 9 章「其他未提及操作中」,点击下方图片即可了解习题详情~ 点击下载「pandas进阶修炼300题」
本文回顾数据分析常用模块Pandas和NumPy,回顾DataFrame、array、matrix 基本操作。...Pandas和NumPy获取数据,为后续数据分析、机器学习做数据准备。...pandas pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。...如果adjust=False,权重分别是 (1−\alpha)^2 和 \alpha 当ignore_na=True时,权重基于相对位置。...到5列 >>> print(A[:, 2:5]) # 共4列,只能取到第3和第4列 [[82.63999939 82.63999939] [82.84999847 82.76999664] [81.94000244
大家好,Pandas进阶修炼120题系列旨在用刷题的方式彻底玩转pandas中各种操作,本期为第二期,我们开始吧~ 21 数据读取 题目:读取本地EXCEL数据 难度:⭐ 答案 df = pd.read_excel...:查看索引、数据类型和内存信息 难度:⭐ 期望输出 RangeIndex: 135 entries, 0 to 134 Data...False) 30 数据提取 题目:取出第33行数据 难度:⭐⭐ 答案 df.loc[33] 31 数据计算 题目:计算salary列的中位数 难度:⭐⭐ 答案 np.median(df['salary...()) 38 数据处理 题目:将第一行与最后一行拼接 难度:⭐⭐ 答案 pd.concat([df[:1], df[-2:-1]]) 39 数据处理 题目:将第8行数据添加至末尾 难度:⭐⭐ 答案...列共有几种学历 难度:⭐⭐ 答案 df['education'].nunique() 50 数据提取 题目:提取salary与new列的和大于60000的最后3行 难度:⭐⭐⭐⭐ 期望输出 ?
前面我们介绍了xlrd、xlwt与openpyxl等第三方库操作Excel文件,但是这些第三方库依旧不够高效,无法替代Excel在数据处理方面的诸多功能,而Pandas这个第三方库可以完美解决上面提到的所有问题...Pandas是Python中分析结构化数据的工具集,它基于NumPy(提供高性能矩阵运算的第三方库),拥有数据挖掘、数据分析和数据清洗等功能,广泛应用于金融、经济、统计等不同领域。...Pandas的两个重要概念 要理解Pandas,就必须先理解Series和DataFrame Series是一种类似于一维数组的对象,它由一组数据,以及一组与之相关的数据标签(索引)组成,表格中的中每一列...DataFrame是Pandas中的一个表格型的数据结构,由一组有序的列构成,其中每一列都可以是不同的值类型。DataFrame既有行索引也有列索引,可以看作是由Series组成的字典。...DataFrame本身就是一种二维数据结构,其行与列都是Series,多个Series可以组成一个DataFrame。下图就是Series和DataFrame的关系。
执行单变量分析有各种方法,在本文中,我们将介绍其中一些最常见的方法,包括频率分析、数值和视觉总结(例如直方图和箱线图)以及数据透视表。 与我的其他文章类似,学习将通过练习题和答案来实现。...数据集 为了练习单变量分析,我们将使用UCI机器学习仓库中关于各种葡萄酒的化学分析的数据集,该数据集基于“数据探索、分类和相关性的可扩展包”(Forina, M. et al, 1998),可以从此链接...问题5: 返回数据集的“alcohol”列的以下值:均值、标准差、最小值、第25、50和75百分位数以及最大值。 答案: 这些值可以使用Pandas和/或NumPy(等等)来计算。...箱子显示了数据的四分位数(即第25百分位数或Q1、第50百分位数或中位数和第75百分位数或Q3),而须(whiskers)显示了分布的其余部分,除了被确定为离群值的部分,离群值被定义为超出Q1或Q3以下...问题9: 创建一个名为“malic_acid_level”的新列,将“malic_acid”列的值分解为以下三个段落: 从最小值到第33百分位数 从第33百分位数到第66百分位数 从第66百分位数到最大值
背景 Pandas的DataFrame 已经算作机器学习中处理数据的标配了 ,那么稀疏矩阵的真正需求是什么?答案是空间复杂度和时间复杂度。...当涉及数百万行和/或数百列时,pandas DataFrames 变得最糟糕,这时因为 pandas DataFrams 存储数据的方式。例如下面的图,这是 CSV 文件的磁盘和内存大小比较。...有两种常见的矩阵类型,密集和稀疏。主要区别在于稀疏指标有很多零值。密集的指标没有。这是一个具有 4 列和 4 行的稀疏矩阵的示例。 在上面的矩阵中,16 个中有 12 个是零。...列索引数组 Column index array:此数组存储值数组中元素的列索引。...第三个值3:表示第3行起始,前二行的非0值为3(1,1,2),所以前面的values总数是3,也就是values的index起始是3。
21 数据读取 题目:读取本地EXCEL数据 难度:⭐ 答案 df = pd.read_excel('pandas120.xlsx') 本期部分习题与该数据相关 22 数据查看 题目:查看df数据前...:查看索引、数据类型和内存信息 难度:⭐ 期望输出 RangeIndex: 135 entries, 0 to 134 Data...False) 30 数据提取 题目:取出第33行数据 难度:⭐⭐ 答案 df.loc[33] 31 数据计算 题目:计算salary列的中位数 难度:⭐⭐ 答案 np.median(df['salary...()) 38 数据处理 题目:将第一行与最后一行拼接 难度:⭐⭐ 答案 pd.concat([df[:1], df[-2:-1]]) 39 数据处理 题目:将第8行数据添加至末尾 难度:⭐⭐ 答案...列共有几种学历 难度:⭐⭐ 答案 df['education'].nunique() 50 数据提取 题目:提取salary与new列的和大于60000的最后3行 难度:⭐⭐⭐⭐ 期望输出 ?
大家好,本文为Pandas进阶修炼120题最后一期,在本期我整理了一些在Pandas中比较重要但是前几期没有体现的函数与操作供各位读者练习,如果感兴趣,请一定要敲一遍代码。...答案 df.style.format({'data': '{0:.2%}'.format}) 106 数据查找 题目:查找上一题数据中第3大值的行号 难度:⭐⭐⭐ 答案 df['data'].argsort...df2, how='left', on=['key1', 'key2']) 110 数据处理 题目:再次读取数据1并显示所有的列 难度:⭐⭐ 备注 数据中由于列数较多中间列不显示 答案 df = pd.read_csv...np.where(df.secondType == df.thirdType) 112 数据查找 题目:查找薪资大于平均薪资的第三个数据 难度:⭐⭐⭐ 答案 np.argwhere(df['salary...数据计算 题目:对不同列执行不同的计算 难度:⭐⭐⭐ 备注 对salary求平均,对score列求和 答案 df.agg({"salary":np.sum,"score":np.mean}) 120
我们单独用一篇来为apply树碑立传,原因有二,一是因为apply函数极其灵活高效,甚至是重新定义了pandas的灵活,一旦熟练运用,在数据清洗和分析界可谓是“屠龙在手,天下我有”;二是apply概念相对晦涩...结合我们的目标,揉面是按省份进行分组,得到每个省各个城市和对应销售额的面团;DIY包子是在每个面团中取其第三名的城市和销售额字段。 第一步分组非常简单,按省份分组即可。...而取第3名的城市和销售,表明我们需要城市和销售两个字段,所以在分组后指明这两列: ?...拿x2来举例,要找到这个面团中排名第三的城市和销售额,应该怎么做呢?...答案是直接索引,把他看作是一个DataFrame格式的表,要选取第3行的所有值,包括城市和销售额,这里用iloc索引,很简单的一行代码: ?
标签:Python与Excel,pandas 对于Excel来说,删除行是一项常见任务。本文将学习一些从数据框架中删除行的技术。...如果我们将该参数留空,则索引将是基于0的索引。通过指定index_col=0,我们要求pandas使用第一列(用户姓名)作为索引。...使用.drop()方法删除行 如果要从数据框架中删除第三行(Harry Porter),pandas提供了一个方便的方法.drop()来删除行。...如果设置为1,则表示列。 inplace:告诉pandas是否应该覆盖原始数据框架。 按名称删除行 图2 我们跳过了参数axis,这意味着将其保留为默认值0或行。...如果要删除第1行和第3行,它们是“Forrest Gump”和”Harry Porter”。在结果数据框架中,我们应该只看到Mary Jane和Jean Grey。
第7章 Pandas数据分析:Pandas是数据分析的利器,本章将主要介绍Pandas的两种常用数据处理结构:Series和DataFrame。...同时介绍基于Pandas的文件读取与分析,涉及数据的清洗、条件过滤、聚合与分组等。...第8章 Matplotlib与Seaborn可视化分析:Matplotlib和Seaborn是非常好用的数据可视化包,本章将主要介绍Matplotlib和Seaborn的基本用法,并基于此绘制可视化图形...第1章至第5章以极简方式讲解了Python的常用语法和使用技巧,包括数据类型与程序控制结构、自建Python模块与第三方模块、Python函数和面向对象程序设计等。...第6章至第8章介绍了数据分析必备技能,如NumPy、Pandas和Matplotlib。第9章和第10章主要介绍了机器学习的基本概念和机器学习框架sklearn的基本用法。
领取专属 10元无门槛券
手把手带您无忧上云