首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

让pandas处理大数据速度变快的三个技巧

作者 | 大邓

来源 | 大邓和他的Python

上一篇文章 写的是处理GB级数据时datatable比pandas会更高效,但是datatable使用起来毕竟不如pandas来的顺手。所以今天准备介绍pandas的三个使用技巧来让我们的运行效率提高,以便处理较大体量的数据。

一、将数据分批次读取

csv格式是常见的数据存储方式,对于我们普通人而言易于读写。此外,在pandas中有pd.read_csv()函数可以将csv形式的数据进行读取。但当csv文件非常大的时候,直接读取会很吃内存,甚至会出现内存不够用的情况。

这时候我们可以分批次(分块)读取,而不是一次性读取这么大体量的数据。操作步骤:

分批次读取

处理每一批次

保存每一批次的结果

对所有的数据重复步骤1-3

将所有的批次结果都结合起来

中的chunksize指的的是每一批次的行数

二、剔除Na数据

有时候我们使用的数据中含有是Na,这时候剔除含有Na的数据会减少很多数据量。这里用到

how: "all"或者"any"。all当记录中的所有特征均为na,才剔除该条记录;any当记录中只要有na,该条记录就剔除

thresh: 整数型,每条记录中允许拥有的最大na数,当记录中na数超过thresh数后,剔除该条记录

subset:列名列表,选取某些特征进行na检测和处理

三、设置特征的数据类型

对于大多数数据科学家而言,并不需要设置特征的数据类型,但是当处理的数据极其庞大的时候,我们就不得不考虑设置特征的数据类型以降低内存开销。

例如在csv的特征列中,某一列特征是32bit浮点数类型,但32bit浮点太精确了,实际上我们仅仅使用16bit就够用了。pd.read_csv(dtype)可以设置列的数据类型

End

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190620A0M9GQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券