问为什么在相同数据的情况下，系列的内存使用量大约是DataFrame的1.5倍？
EN

Stack Overflow用户

提问于 2017-07-06 17:12:11

回答 1查看 177关注 0票数 1

代码如下：

In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: from itertools import product
In [4]: index = list(map(''.join, product(*['ABCDEFGH']*4)))
In [5]: columns = list(map(''.join, product(*['xyzuvw']*3)))

In [6]: df = pd.DataFrame(np.random.randn(len(index), len(columns)), index=index, columns=columns)
In [7]: ser = df.stack()
In [8]: df.memory_usage().sum()
Out[8]: 7274496

In [10]: ser.memory_usage()
Out[10]: 10651360

In [11]: ser.memory_usage() / df.memory_usage().sum()
Out[11]: 1.4642059051238738

In [12]: df.to_hdf('f:/f1.h5', 'df')
In [13]: ser.to_hdf('f:/f2.h5', 'ser')
In [14]: import os

In [15]: os.stat('f:/f2.h5').st_size / os.stat('f:/f1.h5').st_size
Out[15]: 1.498167701758398

和pandas的版本信息：

pd.show_versions()

INSTALLED VERSIONS
------------------
commit: None
python: 3.6.1.final.0
python-bits: 64
OS: Windows
OS-release: 7
machine: AMD64
processor: Intel64 Family 6 Model 58 Stepping 9, GenuineIntel
byteorder: little
LC_ALL: None
LANG: None
LOCALE: None.None

pandas: 0.20.1
pytest: 3.0.7
pip: 9.0.1
setuptools: 27.2.0
Cython: 0.25.2
numpy: 1.12.1

pandas

dataframe

hdf

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-06 17:56:15

您的系列是由MultiIndex索引的，这会占用大量空间。ser.reset_index(drop = True).memory_usage(deep = True)返回7077968。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44944567

复制

相似问题

问为什么在相同数据的情况下，系列的内存使用量大约是DataFrame的1.5倍？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么在相同数据的情况下，系列的内存使用量大约是DataFrame的1.5倍？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么在相同数据的情况下，系列的内存使用量大约是DataFrame的1.5倍？
EN