首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

numpy和pandas库实战——批量得到文件夹下多个CSV文件一列数据并求其最值

/前言/ 前几天群里有个小伙伴问了一个问题,关于Python读取文件夹下多个CSV文件一列数据并求其最大值和最小值,大家讨论甚为激烈,在此总结了两个方法,希望后面有遇到该问题小伙伴可以少走弯路...通常我们通过Python来处理数据,用比较多两个库就是numpy和pandas,在本篇文章,将分别利用两个库来进行操作。...3、其中使用pandas库来实现读取文件夹下多个CSV文件一列数据并求其最大值和最小值代码如下图所示。 ? 4、通过pandas库求取结果如下图所示。 ?...通过该方法,便可以快速取到文件夹下所有文件一列最大值和最小值。 5、下面使用numpy库来实现读取文件夹下多个CSV文件一列数据并求其最大值和最小值代码如下图所示。 ?.../小结/ 本文基于Python,使用numpy库和pandas库实现了读取文件夹下多个CSV文件,并求取文件一列数据最大值和最小值,当然除了这两种方法之外,肯定还有其他方法也可以做得到,欢迎大家积极探讨

9.3K20

Pandas速查卡-Python数据科学

关键词和导入 在这个速查卡,我们会用到一下缩写: df 二维表格型数据结构DataFrame s 一维数组Series 您还需要执行以下导入才能开始: import pandas as pd import...('1900/1/30', periods=df.shape[0]) 添加日期索引 查看/检查数据 df.head(n) 数据前n行 df.tail(n) 数据后n行 df.shape() 行数和列数...df.iloc[0,:] 第一行 df.iloc[0,0] 第一列第一个元素 数据清洗 df.columns = ['a','b','c'] 重命名列 pd.isnull() 检查空值,返回逻辑数组...可以是“左”,“右”,“”,“内”连接 统计 以下这些都可以应用于一个数组。...df.describe() 数值列汇总统计信息 df.mean() 返回所有列平均值 df.corr() 查找数据列之间相关性 df.count() 计算每个数据非空值数量 df.max

9.2K80

从小白到大师,这里有一份Pandas入门指南

内存优化 在处理数据之前,了解数据并为数据一列选择合适类型是很重要一步。...它可以通过两种简单方法节省高达 90% 内存使用: 了解数据使用类型; 了解数据可以使用哪种类型来减少内存使用(例如,price 这一列值在 0 到 59 之间,只带有一位小数,使用 float64...这个数是任意,但是因为数据类型转换意味着在 numpy 数组间移动数据,因此我们得到必须比失去多。 接下来看看数据中会发生什么。...在得到数据,「年龄」列是索引。 除了了解到「X 代」覆盖了三个年龄组,分解这条链。第一步是对年龄组分组。...source=post_page--------------------------- 除了文中所有代码,还包括简单数据索引数据(df)和多索引数据(mi_df)性能定时指标。 ?

1.8K11

从小白到大师,这里有一份Pandas入门指南

内存优化 在处理数据之前,了解数据并为数据一列选择合适类型是很重要一步。...它可以通过两种简单方法节省高达 90% 内存使用: 了解数据使用类型; 了解数据可以使用哪种类型来减少内存使用(例如,price 这一列值在 0 到 59 之间,只带有一位小数,使用 float64...这个数是任意,但是因为数据类型转换意味着在 numpy 数组间移动数据,因此我们得到必须比失去多。 接下来看看数据中会发生什么。...在得到数据,「年龄」列是索引。 除了了解到「X 代」覆盖了三个年龄组,分解这条链。第一步是对年龄组分组。...source=post_page--------------------------- 除了文中所有代码,还包括简单数据索引数据(df)和多索引数据(mi_df)性能定时指标。 ?

1.7K30

从小白到大师,这里有一份Pandas入门指南

内存优化 在处理数据之前,了解数据并为数据一列选择合适类型是很重要一步。...它可以通过两种简单方法节省高达 90% 内存使用: 了解数据使用类型; 了解数据可以使用哪种类型来减少内存使用(例如,price 这一列值在 0 到 59 之间,只带有一位小数,使用 float64...这个数是任意,但是因为数据类型转换意味着在 numpy 数组间移动数据,因此我们得到必须比失去多。 接下来看看数据中会发生什么。...在得到数据,「年龄」列是索引。 除了了解到「X 代」覆盖了三个年龄组,分解这条链。第一步是对年龄组分组。...source=post_page--------------------------- 除了文中所有代码,还包括简单数据索引数据(df)和多索引数据(mi_df)性能定时指标。 ?

1.7K30

Excel去除空行各种方法_批量删除所有空行

id=1590204478648348952&wfr=spider&for=pc,需要详细信息可链接查看 方法一:定位批量删除法 此法适用于:数据区域中至少有一列空行没有其他空单元格情形。...1、选中数据区域中空行没有其他空单元格一列数据区域——“开始”工具栏之“查找和选择”按钮,选择“定位条件”,打开定位条件对话——选择“空值”,并“确定”,则定位选中该列空单元格; 2、在定位选中任意单元格点击鼠标右键...小技巧:按“F5”或“Crel+G”快捷键可打开“定位”对话,点击“定位条件…”按钮,打开定位条件对话。 方法二:自动筛选法 此法适用于:数据区域中至少有一列空行没有其他空单元格情形。...1、选中数据区域中空行没有其他空单元格一列数据区域(若首列符合可选中所有数据区域)——“数据”工具栏之“筛选”按钮,则在第一个单元格右下角出现筛选三角按钮。...应用方法三时,不改变数据排列顺序时:辅助列+排序删除法 1、在表格插入任一列,用从上到下填充序列,如1-N。 2、选中包括辅助列所有区域中数据单元格,用“排序删除法”删除空行。

5.4K30

用Python玩转Excel | 更快更高效处理Excel

Pandas是Python中分析结构化数据工具集,它基于NumPy(提供高性能矩阵运算第三方库),拥有数据挖掘、数据分析和数据清洗等功能,广泛应用于金融、经济、统计等不同领域。...Pandas在操作Excel时,依赖于xlrd与xlwt,所以想要使用Pandas操作Excel,安装Pandas,还需要安装xlrd与xlwt。...Pandas两个重要概念 要理解Pandas,就必须先理解Series和DataFrame Series是一种类似于一维数组对象,它由一组数据,以及一组与之相关数据标签(索引)组成,表格一列...DataFrame是Pandas一个表格型数据结构,由一组有序列构成,其中每一列都可以是不同值类型。DataFrame既有行索引也有列索引,可以看作是由Series组成字典。...':str}) 这样就可以把sheet1表格数据全部读取出来了,而且效率很高。

1.2K20

没错,这篇文章教你妙用Pandas轻松处理大规模数据

在这篇文章,我们将介绍 Pandas 内存使用情况,以及如何通过为数据(dataframe)列(column)选择适当数据类型,将数据内存占用量减少近 90%。...最原始数据是 127 个独立 CSV 文件,不过我们已经使用 csvkit 合并了这些文件,并且在第一行为每一列添加了名字。...数据内部表示 在底层,Pandas 按照数据类型将列分成不同块(blocks)。这是 Pandas 如何存储数据前十二列预览。 你会注意到这些数据块不会保留对列名引用。...这是因为数据块对存储数据实际值进行了优化,BlockManager class 负责维护行、列索引与实际数据块之间映射。它像一个 API 来提供访问底层数据接口。...我们将编写一个循环程序,遍历每个对象列,检查其唯一值数量是否小于 50%。如果是,那么我们就将这一列转换为 category 类型。

3.6K40

2020年入门数据分析选择Python还是SQL?七个常用操作对比!

本文将分别用MySQL和pandas来展示七个在数据分析中常用操作,希望可以帮助掌握其中一种语言读者快速了解另一种方法!...在阅读本文前,你可以访问下方网站下载本文使用示例数据,并导入MySQL与pandas,一边敲代码一边阅读!...在pandas也有类似的操作 ? 查找空值 在pandas检查空值是使用notna()和isna()方法完成。...groupby()通常是指一个过程,在该过程,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。 常见SQL操作是获取整个数据集中每个组记录数。...在pandas等价操作为 ? 注意,在上面代码,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录数量!

3.5K31

Pandas常用命令汇总,建议收藏!

这种集成促进了数据操作、分析和可视化工作流程。 由于其直观语法和广泛功能,Pandas已成为数据科学家、分析师和研究人员在 Python处理表格或结构化数据首选工具。...在Pandas处理数据时,我们可以使用多种方法来查看和检查对象,例如 DataFrame和Series。...df.loc[row_labels, column_labels] # 通过整数索引选择特定行和列 df.iloc[row_indices, column_indices] # 根据条件选择数据行和列...# 将df行添加到df2末尾 df.append(df2) # 将df列添加到df2末尾 pd.concat([df, df2]) # 对列A执行连接 outer_join = pd.merge...统计 Pandas提供了广泛统计函数和方法来分析DataFrame或Series数据

36210

Python代码实操:详解数据清洗

除了示例中直接通过pd.DataFrame来直接创建数据,还可以使用数据对象 df.from_records、df.from_dict、df.from_items 来从元组记录、字典和键值对对象创建数据...# 打印输出 print(nan_col2) # 打印输出 通过 df.null() 方法找到所有数据缺失值(默认缺失值是 NaN 格式),然后使用 any() 或 all...先通过 df.copy() 复制一个原始数据副本,用来存储Z-Score标准化后得分,再通过 df.columns 获得原始数据列名,接着通过循环判断每一列异常值。...在判断逻辑,对每一列数据进行使用自定义方法做Z-Score值标准化得分计算,然后与阈值2.2做比较,如果大于阈值则为异常。...除了可以使用Pandas来做重复值判断和处理,也可以使用Numpy unique() 方法,该方法返回其参数数组中所有不同值,并且按照从小到大顺序排列。

4.8K20

MySQL 约束和索引专题

如果从表删除某一行,其主键值不分配给新行。 键约束 键是表一列,其值必须列在另一表主键键是保证引用完整性极其重要部分。...提示:键有助防止意外删除,帮助保证引用完整性键还有另一个重要作用。在定义键后,DBMS 不允许删除在另一个表具有关联行行。例如,不能删除关联订单顾客。...例如,举例如果启用级联删除并且从客户表删除某个顾客,则任何关联订单行也会被自动删除。 唯一约束 唯一约束用来保证一列(或一组列)数据是唯一。它们类似于主键,但存在以下重要区别。...唯一约束既可以用 UNIQUE 关键字在表定义定义,也可以用单独 CONSTRAINT 定义。 检查约束 检查约束用来保证一列(或一组列)数据满足一组指定条件。...❑ 只允许特定值。例如,在性别字段只允许 M 或 F。检查约束可以在数据类型内又做了进一步限制,这些限制极其重要,可以确保插入数据数据正是你想要数据

1.5K30

pandas参数设置小技巧

Python大数据分析 在日常使用pandas过程,由于我们所分析数据表规模、格式上差异,使得同样函数或方法作用在不同数据效果存在差异。...图1 1 设置DataFrame最大显示行数 pandas设置参数display.max_rows用于控制打印出数据最大显示行数,我们使用pd.set_option()来有针对设置参数,如下面的例子...参数我们可以设置浮点数显示格式,譬如这里我们给浮点数加上¥前缀并设定保留两位小数: 图6 6 设置info()方法中非缺失值检查行数上限 针对数据info()方法可以帮助我们查看数据一些概览信息...,譬如每一列对应非缺失值个数。...但默认情况下当数据行数大于1690784行时,再查看info()信息,会处于计算效率考虑略去缺失值检查信息。

1K10

pandas参数设置小技巧

在日常使用pandas过程,由于我们所分析数据表规模、格式上差异,使得同样函数或方法作用在不同数据效果存在差异。   ...图1 1 设置DataFrame最大显示行数 pandas设置参数display.max_rows用于控制打印出数据最大显示行数,我们使用pd.set_option()来有针对设置参数,如下面的例子...图4 4 指定小于某个数元素显示为0   通过display.chop_threshold参数我们在不修改原始数据情况下,指定数据绝对值小于阈值数显示为0: ?...图6 6 设置info()方法中非缺失值检查行数上限   针对数据info()方法可以帮助我们查看数据一些概览信息,譬如每一列对应非缺失值个数。   ...但默认情况下当数据行数大于1690784行时,再查看info()信息,会处于计算效率考虑略去缺失值检查信息。

1.2K20

Power Query 系列 (07) - 添加列

前面几篇博客介绍了 Power Query (简称 PQ) 数据源和 M 语言基础知识,现在开始进入数据处理部分。本篇接着介绍 如何在 PQ 添加列。...本示例基于一个考试分数清单,做两个方面的统计:1)按单科分数计算级别( A/B/C/D); 2) 将语数成绩分别作为一列,并计算总分 [watermark,type_ZmFuZ3poZW5naGVpdGk...因为是引用,所以当 scoresOriginal 数据变化时, scoresLevel 数据也跟着变化。...如何实现行转列方法,大家可以参考: pandas 行转列一种典型输出报表解决方法 在 PQ 实现行转列思路类似,操作也比较简单。...切换到【添加列】功能区,点击【条件列】,先增加一列,列名为 "Chinese",这一列存储学生语文成绩。注意下面界面,输出地方要选择 Score 这一列,而不是输入一个值。

2.4K50
领券