开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

数据分析 ⛵ 面试宝典&实战项目

共 36 篇文章

1

数据分析大作战，SQL V.S. Python，来看看这些考题你都会吗 ⛵

2

数据科学手把手：碳中和下的二氧化碳排放分析 ⛵

3

面试现场！月薪3w+的这些数据挖掘SQL面试题你都掌握了吗？ ⛵

4

员工离职困扰？来看AI如何解决，基于人力资源分析的 ML 模型构建全方案 ⛵

5

AI 音辨世界：艺术小白的我，靠这个AI模型，速识音乐流派选择音乐 ⛵

6

数据专家最常使用的 10 大类 Pandas 函数 ⛵

7

钻石价格预测的ML全流程！从模型构建调优道部署应用！⛵

8

掌握这9个单行代码技巧！你也能写出『高端』Python代码 ⛵

9

刘畊宏男孩女孩看过来！运动数据分析挖掘！⛵

10

二手车价格预测 | 构建AI模型并部署Web应用 ⛵

11

看看你离世界一流大厂有多远？3道Google最新SQL面试题 ⛵

12

客户流失？来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵

13

再见 Excel，你好 Python Spreadsheets！ ⛵

14

羡慕 Excel 的高级选择与文本框颜色呈现？Pandas 也可以拥有！！ ⛵

15

2022了你还不会『低代码』？数据科学也能玩转Low-Code啦！ ⛵

16

Pandas数据显示不全？快来了解这些设置技巧！ ⛵

17

一键自动化数据分析！快来看看 2022 年最受欢迎的 Python 宝藏工具库！ ⛵

18

羡慕实时数据看板？来看看Python的交互数据分析可视化工具！

19

自动化运维？看看Python怎样完成自动任务调度⛵

20

森林野火故事2.0：一眼看穿！使用 Panel 和 hvPlot 可视化 ⛵

21

异常值检测！最佳统计方法实践（代码实现）！⛵

22

大数据开发！Pandas转spark无痛指南！⛵

23

还在用饼状图？来瞧瞧这些炫酷的百分比可视化新图形（附代码实现）⛵

24

业务数据分析最佳案例！旅游业数据分析！⛵

25

Pandas中你一定要掌握的时间序列相关高级功能 ⛵

26

求职指南！给数据开发的SQL面试准备路径！⛵

27

Python中内置数据库！SQLite使用指南！ ⛵

28

私藏！资深数据专家SQL效率优化技巧 ⛵

29

Pandas太慢？快使用Vaex DataFrame，每秒数亿数据算起来 ⛵

30

高手系列！数据科学家私藏pandas高阶用法大全 ⛵

32

数据科学家赚多少？基于pandasql和plotly的薪资分析与可视化 ⛵

33

深度解析数据清理和特征工程！5本面向数据科学家的顶级书籍推荐 ⛵

34

就离谱！使用机器学习预测2022世界杯：小组赛挺准，但冠亚季军都错了 ⛵

35

百倍加速IO读写！快使用Parquet和Feather格式！⛵

36

交互式仪表板！Python轻松完成！⛵

清单首页数据分析 ⛵ 面试宝典&实战项目文章详情

清单「数据分析 ⛵ 面试宝典&实战项目」 35/36

百倍加速IO读写！快使用Parquet和Feather格式！⛵

本文介绍了 Parquet 和 Feather 两种文件类型，可以提高本地存储数据时的读写速度，并压缩存储在磁盘上的数据大小。大型 CSV 文件的克星！用起来~

💡 作者：韩信子@ShowMeAI 📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40 📘 本文地址：https://www.showmeai.tech/article-detail/409 📢 声明：版权所有，转载请联系平台与作者并注明出处 📢 收藏ShowMeAI查看更多精彩内容

💡 引言

我们在处理本地存储的数据时遇到了一些问题。在相对较小的数据集上，读取-处理-写入操作可能很舒服，但对于大型 .csv 文件来说，这些操作非常麻烦，可能会消耗大量时间和资源。

为了解决这个问题，我将介绍两种文件类型，它们可以提高您的数据读写速度，并压缩存储在磁盘上的数据大小：

这两种文件类型都具有以下特点：

默认情况下可以使用 Python-Pandas 访问。不过，您可能需要额外安装 pyarrow 和它的一些扩展，具体取决于您的数据类型。
支持基于列的 I/O 管理。这样，您可以防止在读取所有数据时临时使用额外的 RAM，然后删除不需要的列。
以二进制格式以自己的类型而不是原始格式存储数据，您最多可以节省 50% 的存储空间，并且可以在读写操作中获得高达 x100 的加速。

这两种文件类型都非常易于使用。更改您当前使用的代码行即可。让我们来看看它们！

💦 Parquet格式

import pandas as pd

df = pd.read_csv("some_data.csv")

# Saving Parquet files
df.to_parquet("df.parquet")

# Reading Parquet files
df_parq = pd.read_parquet("df.parquet")

💦 Feather格式

import pandas as pd

df = pd.read_csv("some_data.csv")

# Saving Feather files
df.to_feather("df.feather")

# Reading Feather files
df_feat = pd.read_feather("df.feather")

💡 总结

在本篇内容中，ShowMeAI给大家介绍了提高读写速度的数据格式，如果您不想使用 Excel 原始格式存储数据，那么建议您使用并行读取和写入数据的方法，这样可以提高数据处理的速度和效率。

参考资料

推荐阅读

举报