当我尝试通过读取pickle文件来创建dask数据帧时,我得到了一个错误
import dask.dataframe as dd
ds_df = dd.read_pickle("D:\test.pickle")
AttributeError: 'module' object has no attribute 'read_pickle'
but it works fine with read_csv
在大熊猫身上,它一如既往地成功了。
所以,如果我在这里或者在dask中做错了什么,请纠正我,我们根本不能通过读取一个pickle文件来创建数据帧
我正在使用dask ( s3查询的替代品)从SQL读取一些gzipped数据。但是,它看起来像是在系统内存中的某个位置缓存了数据文件或解压缩后的文件。注意这应该是可运行的,这里的测试数据来自公共s3存储桶中的pandas测试套件。
import dask.dataframe as dd
import pandas as pd
import psutil as ps
import os
#for easier vis
mb = 1048576
def mytestfunc(file):
process = ps.Process(os.getpid())
print('