首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >为什么在相同数据的情况下,系列的内存使用量大约是DataFrame的1.5倍?

为什么在相同数据的情况下,系列的内存使用量大约是DataFrame的1.5倍?
EN

Stack Overflow用户
提问于 2017-07-06 17:12:11
回答 1查看 177关注 0票数 1

代码如下:

代码语言:javascript
运行
复制
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: from itertools import product
In [4]: index = list(map(''.join, product(*['ABCDEFGH']*4)))
In [5]: columns = list(map(''.join, product(*['xyzuvw']*3)))

In [6]: df = pd.DataFrame(np.random.randn(len(index), len(columns)), index=index, columns=columns)
In [7]: ser = df.stack()
In [8]: df.memory_usage().sum()
Out[8]: 7274496

In [10]: ser.memory_usage()
Out[10]: 10651360

In [11]: ser.memory_usage() / df.memory_usage().sum()
Out[11]: 1.4642059051238738

In [12]: df.to_hdf('f:/f1.h5', 'df')
In [13]: ser.to_hdf('f:/f2.h5', 'ser')
In [14]: import os

In [15]: os.stat('f:/f2.h5').st_size / os.stat('f:/f1.h5').st_size
Out[15]: 1.498167701758398

和pandas的版本信息:

代码语言:javascript
运行
复制
pd.show_versions()

INSTALLED VERSIONS
------------------
commit: None
python: 3.6.1.final.0
python-bits: 64
OS: Windows
OS-release: 7
machine: AMD64
processor: Intel64 Family 6 Model 58 Stepping 9, GenuineIntel
byteorder: little
LC_ALL: None
LANG: None
LOCALE: None.None

pandas: 0.20.1
pytest: 3.0.7
pip: 9.0.1
setuptools: 27.2.0
Cython: 0.25.2
numpy: 1.12.1
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-06 17:56:15

您的系列是由MultiIndex索引的,这会占用大量空间。ser.reset_index(drop = True).memory_usage(deep = True)返回7077968

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44944567

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档