首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

盘一盘 Python 系列 4 - Pandas (上)

上节都是手敲一些数据来创建「多维数据表」,现实做量化分析时,数据量都会很大,一般都是量化平台中或者下载好 csv 中直接读取。本节介绍如何量化平台「万矿」读取数据来创建「多维数据表」。...Excel 格式 用 pd.to_excel 函数将 DataFrame 保存为 .xlsx 格式,存到 ‘Sheet1’ ,具体写法如下: pd.to_excel( '文件名','表名' )...='Sheet1') df1 csv 格式 用 pd.to_csv 函数将 DataFrame 保存为 .csv 格式,注意如果 index 没有特意设定,最后不要把 index 值存到 csv 文件...sub-DataFrame 情况 3 用 i:j 来获取 i+1 到 j sub-DataFrame 个人建议,如果追求简洁和方便,用 [];如果追求一致和清晰,用 loc 和 iloc。...情况 1 df.loc[ 'GS':'WMT', '价格': ] 用 loc 获取行标签 ‘GS‘ 到 'WMT',标签'价格'到最后 sub-DataFrame

6.1K52
您找到你想要的搜索结果了吗?
是的
没有找到

数据科学原理与技巧 三、处理表格数据

然而,Data8 引入表格仅包含标签。 DataFrame标签称为DataFrame索引,使许多数据操作更容易。...Count Year 1880 1881 1882 … 2014 2015 2016 137 行 × 1 请注意,生成DataFrame索引现在包含特定年份,因此我们可以像以前一,使用.loc...现在让我们使用多分组,来计算每年和每个别的最流行名称。 由于数据已按照年和性别的递减顺序排序,因此我们可以定义一个聚合函数,该函数返回每个序列第一个值。...总结 我们现在有了数据集中每个性别和年份最受欢迎婴儿名称,学会了在pandas中表达以下操作: 操作 pandas 分组 df.groupby(label) 多分组 df.groupby([label1...通过在pandas文档查看绘图,我们了解到pandasDataFrame一行绘制为一组条形,并将每显示为不同颜色条形。 这意味着letter_dist表透视版本将具有正确格式。

4.6K10

最全面的Pandas教程!没有之一!

和 NumPy 数组不同,Pandas Series 能存放各种不同类型对象。 Series 里获取数据 访问 Series 里数据方式,和 Python 字典基本一: ?...同时你可以用 .loc[] 来指定具体行列范围,生成一个子数据表,就像在 NumPy里做。比如,提取 'c' 行 'Name’ 内容,可以如下操作: ?...交叉选择行和数据 我们可以用 .xs() 方法轻松获取到多级索引某些特定别的数据。比如,我们需要找到所有 Levels ,Num = 22 行: ?...然后,调用 .groupby() 方法,继续用 .mean() 求平均值: ? 上面的结果,Sales 就变成每个公司分组平均数了。...image 这里传入 index=False 参数是因为不希望 Pandas 把索引 0~5 也存到文件

25.8K64

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

读取外部数据 Excel 和 pandas 都可以各种来源以各种格式导入数据。 CSV 让我们 Pandas 测试中加载显示提示数据集,这是一个 CSV 文件。...在 Excel ,您将下载打开 CSV。在 pandas ,您将 CSV 文件 URL 或本地路径传递给 read_csv()。...(url) tips 结果如下: 与 Excel 文本导入向导一,read_csv 可以采用多个参数来指定应如何解析数据。...pandas 通过在 DataFrame 中指定单个系列来提供矢量化操作。可以以相同方式分配新DataFrame.drop() 方法 DataFrame 删除一。...; 如果匹配多行,则每个匹配都会有一行,而不仅仅是第一行; 它将包括查找表所有,而不仅仅是单个指定; 它支持更复杂连接操作; 其他注意事项 1.

19.5K20

使用SQLAlchemy将Pandas DataFrames导出到SQLite

然后,您可能需要对DataFrame数据进行一些处理,希望将其存储在关系数据库等更持久位置。...本教程介绍了如何CSV文件加载pandas DataFrame如何完整数据集中提取一些数据,然后使用SQLAlchemy将数据子集保存到SQLite数据库 。...原始数据帧创建新数据帧 我们可以使用pandas函数将单个国家/地区所有数据行匹配countriesAndTerritories到与所选国家/地区匹配。...我们只是将数据CSV导入到pandas DataFrame,选择了该数据一个子集,然后将其保存到关系数据库。...您应该看一下“ 通过研究COVID-19数据学习熊猫” 教程,以了解有关如何较大DataFrame中选择数据子集更多信息,或者访问pandas页面,以获取Python社区其他成员提供更多教程。

4.7K40

Pandas 学习手册中文第二版:6~10

我们首先回顾了创建类别的方法,查看了几个如何使用基础整数代码对每个类别进行类别的示例。 然后,我们研究了创建类别后修改类别的几种方法。 本章以使用类别将数据分解为一组命名容器示例作为结尾。...具体而言,在本章,我们将介绍: 将 CSV 文件读入数据帧 读取 CSV 文件时指定索引 数据类型推断和规范 指定列名 指定要加载特定 将数据保存到 CSV 文件 使用一般字段分隔数据 处理字段分隔数据中格式变体...Pandas 已经意识到,文件第一行包含列名和数据批量读取到数据帧名称。 读取 CSV 文件时指定索引 在前面的示例,索引是数字0开始,而不是按日期。...为了演示如何将数据保存到 CSV 文件,我们将带有修改后列名df2对象保存到名为data/msft_modified.csv新文件: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传...可以通过使用FredReader通过将特定序列标签作为name参数来指定 FRED 数据。

2.2K20

独家 | 是时候和pd.read_csv(), pd.to_csv()说再见了

因此,在这篇文章,我们将探索Dask和DataTable,这两个最受数据科学家欢迎 Pandas 库。...读取 CSV 获取 PANDAS DATAFRAME 所需时间 如果我们通过 Dask 和 DataTable 读取 CSV,它们将分别生成 Dask DataFrame 和 DataTable DataFrame...我将下面描述每个实验重复了五次,以减少随机性并从观察到结果得出较公平结论。我在下一节中报告数据是五个实验平均值。 3....Dask 和 DataTable 读取 CSV 文件生成 Pandas DataFrame 所花费时间(以秒为单位)。...实验 2:保存到 CSV 所需时间 下图描述了 Pandas、Dask 和 DataTable 给定 Pandas DataFrame 生成 CSV 文件所花费时间(以秒为单位)。

1.4K30

是时候和pd.read_csv(), pd.to_csv()说再见了

因此,在这篇文章,我们将探索Dask和DataTable,这两个最受数据科学家欢迎 Pandas 库。...读取 CSV 获取 PANDAS DATAFRAME 所需时间 如果我们通过 Dask 和 DataTable 读取 CSV,它们将分别生成 Dask DataFrame 和 DataTable DataFrame...我将下面描述每个实验重复了五次,以减少随机性并从观察到结果得出较公平结论。我在下一节中报告数据是五个实验平均值。 3....Dask 和 DataTable 读取 CSV 文件生成 Pandas DataFrame 所花费时间(以秒为单位)。...实验 2:保存到 CSV 所需时间 下图描述了 Pandas、Dask 和 DataTable 给定 Pandas DataFrame 生成 CSV 文件所花费时间(以秒为单位)。

1.1K20

仅需添加一行代码,即可让Pandas加速四倍 | Pandas on Ray

虽然Pandas是Python处理数据库,但其速度优势并不明显。 如何Pandas更快更省心呢?...如何使用Modin和Pandas实现平行数据处理 在Pandas,给定DataFrame,目标是尽可能以最快速度来进行数据处理。...如何提高多核系统数据处理速度。在单核系统处理过程(左),所有10个任务都用一个CPU处理。而在双核系统(右),每个节点处理5个任务,处理速度提高一倍。...一些只能对进行切割库,在这个例子很难发挥效用,因为比行多。但是由于Modin两个维度同时切割,对任何形状DataFrames来说,这个平行结构效率都非常高。...Pandas DataFrame(左)作为整体储存,只交给一个CPU处理。ModinDataFrame(右)行和都被切割,每个部分交给不同CPU处理,有多少CPU就能处理多少个任务。

5K30

数据采集:亚马逊畅销书数据可视化图表

概述本文目标是编写一个爬虫程序,亚马逊网站上获取畅销书数据,绘制数据可视化图表。具体步骤如下:创建一个Scrapy项目,定义一个Spider,设置起始URL和解析规则。...使用ScrapyItem,定义需要获取数据字段,如书名、作者、价格、评分等。使用ScrapyPipeline,将获取数据保存到CSV文件。...BookItem对象时,我们需要将其保存到CSV文件,以便于后续数据分析和可视化。...as pd# 导入numpy模块,简写为npimport numpy as np接下来,我们可以使用pandas模块read_csv函数,读取books.csv文件数据,并将其转换为一个DataFrame...# 使用df['rating']值按照评分区间分组,获取每组第一个值作为饼图标签# 设置饼图颜色列表为红、橙、黄、绿、青、蓝、紫# 设置饼图中每个部分与中心距离列表为0.1、0.1、0.1

20320

多表格文件单元格平均值计算实例解析

每个文件数据结构如下:任务目标我们目标是计算所有文件特定单元格数据平均值。具体而言,我们将关注Category_A数据,计算每个Category_A下所有文件相同单元格平均值。...总体来说,这段代码目的是指定文件夹读取符合特定模式CSV文件,过滤掉值为0行,计算每天平均值,并将结果保存为一个新CSV文件。...总结这篇文章介绍了如何使用Python处理包含多个表格文件任务,计算特定单元格数据平均值。...具体而言,以CSV文件为例,关注每个文件Category_A计算每个类别下相同单元格平均值。Python代码实现: 提供了一个简单Python脚本作为解决方案。...脚本使用了os、pandas和glob等库,通过循环处理每个文件,提取关键数据,最终计算打印出特定单元格数据平均值。

15600

python数据科学系列:pandas入门详细教程

二者之间主要区别是: 数据结构上看: numpy核心数据结构是ndarray,支持任意维数数组,但要求单个数组内所有数据是同质,即类型必须相同;而pandas核心数据结构是series和dataframe...与此同时,series因为只有一,所以数据类型自然也就只有一种,pandas为了兼容二者,series数据类型属性既可以用dtype也可以用dtypes获取;而dataframe则只能用dtypes...,可通过axis参数设置是按行删除还是按删除 替换,replace,非常强大功能,对series或dataframe每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas...3 数据转换 前文提到,在处理特定值时可用replace对每个元素执行相同操作,然而replace一般仅能用于简单替换操作,所以pandas还提供了更为强大数据转换方法 map,适用于series...pandas另一大功能是数据分析,通过丰富接口,可实现大量统计需求,包括Excel和SQL大部分分析过程,在pandas均可以实现。

13.8K20

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

优化 DataFrame 对内存占用 pandas DataFrame 设计目标是把数据存到内存里,有时要缩减 DataFrame 大小,减少对内存占用。...剪贴板创建 DataFrame 想快速把 Excel 或别的表格软件里存储数据读取为 DataFrame,用 read_clipboard()函数。 ?...根据最大类别筛选 DataFrame 筛选电影类别里(genre)数量最多电影。...要解决这个问题得用 transform() 方法,这个方法执行同样计算,但返回与原始数据行数一输出结果,本例为 4622 行。 ?...这里显示了每个别的记录数。 23. 把连续型数据转换为类型数据 下面看一下泰坦尼克数据集年龄(Age)。 ? 这一是连续型数据,如果想把它转换为类别型数据怎么办?

7.1K20

Python与Excel协同应用初学者指南

如何将数据框架写入Excel文件 由于使用.csv或.xlsx文件格式在Pandas中装载和读取文件,类似地,可以将Pandas数据框架保存为使用.xlsxExcel文件,或保存为.csv文件。...就像可以使用方括号[]工作簿工作表特定单元格检索值一,在这些方括号,可以传递想要从中检索值的确切单元格。...这将在提取单元格值方面提供很大灵活性,而无需太多硬编码。让我们打印出第2包含值值。如果那些特定单元格是空,那么只是获取None。...可以在下面看到它工作原理: 图15 已经为在特定具有值行检索了值,但是如果要打印文件行而不只是关注一,需要做什么? 当然,可以使用另一个for循环。...可以使用PandasDataFrame()函数将工作表值放入数据框架(DataFrame),然后使用所有数据框架函数分析和处理数据: 图18 如果要指定标题和索引,可以传递带有标题和索引列表为

17.3K20

一行代码将Pandas加速4倍

Modin 如何Pandas 并行计算 给定 pandas DataFrame ,我们目标是以尽可能快方式对其执行某种计算或处理。...理论上,并行计算就像在每个可用 CPU 核上不同数据点上应用计算一简单。...对于一个 pandas DataFrame,一个基本想法是将 DataFrame 分成几个部分,每个部分数量与你拥有的 CPU 内核数量一多,每个 CPU 核在一部分上运行计算。...pandaDataFrame(左)存储为一个块,只发送到一个CPU核。ModinDataFrame(右)跨行和进行分区,每个分区可以发送到不同CPU核上,直到用光系统所有CPU核。...此函数查找 DataFrame 所有 NaN 值,并将它们替换为你选择值。panda 必须遍历每一行和每一来查找 NaN 值替换它们。

2.9K10

一行代码将Pandas加速4倍

Modin 如何Pandas 并行计算 给定 pandas DataFrame ,我们目标是以尽可能快方式对其执行某种计算或处理。...理论上,并行计算就像在每个可用 CPU 核上不同数据点上应用计算一简单。...对于一个 pandas DataFrame,一个基本想法是将 DataFrame 分成几个部分,每个部分数量与你拥有的 CPU 内核数量一多,每个 CPU 核在一部分上运行计算。...pandaDataFrame(左)存储为一个块,只发送到一个CPU核。ModinDataFrame(右)跨行和进行分区,每个分区可以发送到不同CPU核上,直到用光系统所有CPU核。...此函数查找 DataFrame 所有 NaN 值,并将它们替换为你选择值。panda 必须遍历每一行和每一来查找 NaN 值替换它们。

2.6K10

Pandas 2.2 中文官方教程和指南(四)

例如,假设我们想看到小费金额如何随一周日期而异 - DataFrameGroupBy.agg() 允许您将字典传递给您分组 DataFrame,指示要应用于特定函数。...pandas 通过在DataFrame中指定单独Series提供矢量化操作。新可以以相同方式分配。DataFrame.drop()方法DataFrame删除。...如果匹配了多行,则每个匹配都会有一行,而不仅仅是第一个 它将包括查找表所有,而不仅仅是单个指定 它支持更复杂连接操作 其他考虑事项 填充手柄 在一定一系列单元格创建一个遵循特定模式数字序列...索引值也是持久,因此如果重新排序DataFrame行,则特定标签不会更改。 查看 索引文档以获取更多关于如何有效使用Index信息。 副本 vs....如果匹配多行,则每个匹配将有一行,而不仅仅是第一个匹配 它将包括查找表所有,而不仅仅是单个指定 它支持更复杂连接操作 其他考虑事项 填充手柄 在一组特定单元格按照一定模式创建一系列数字

18910
领券