当处理的数据量级无需使用spark等工具,使用pandas同样能解决时,该如何提高效率呢?
下面展示如何有效降低 pandas 的内存使用率,甚至降低90%的内存使用。...pandas 自动获取数据类型:77个浮点数,6个整数,78个对象。内存使用量为 861.8 MB。
因此我们能更好的理解减少内存的使用,下面看看pandas 是如何在内存中存储数据的。...DataFrame的内部呈现
在内部机制中,pandas 会将相同类型的数据分为一组。下面是pandas 如何存储DataFrame中的前12个变量:
?...cat.categories = [1,2,3,4,5]
In [244]: cat
Out[244]:
[5, 5, 3, 5]
Categories (5, int64): [1, 2, 3, 4, 5]
可以通过迭代检查的方式查看唯一值数量是否少于...如果不能一次读入 DataFrame,那么该如何节省内存呢?
幸运的是,在读入数据集时,我们可以指定最优化数据类型。