我已经有了一个python列表类型变量,它包含6000000个条目,其中条目数据类型是python字典。
a = [{'a': .... }, {'a': ...} , ...]因为它占用了太多的内存,所以我想把它转换成生成器之类的。
问题是list变量是多进程Pool的返回值,所以我不能在早期生成生成器。
有什么建议吗?
发布于 2020-03-23 20:47:58
如果你已经把它存在内存中,那么把它转换成generator并不能解决问题。您将需要创建一个generator,它将动态地从磁盘加载条目,从而不会同时将所有条目加载到内存中。Here是一篇关于在Python中使用generators来处理内存限制的好文章。
发布于 2020-03-23 20:52:35
您可以使用Pool.imap来懒惰地计算结果。这将阻止生成一个大的列表,但是您可以通过提供chunksize参数来迭代块中的结果:
results_generator = pool.imap(func, input_data, 64) # chunks of 64https://stackoverflow.com/questions/60813809
复制相似问题