有很多关于存储pandas数据帧的最有效方法的文档(例如How to store a dataframe using Pandas),但大多数资源都集中在i/o时间效率上。我希望将大熊猫数据帧保存为更轻量级的格式,而不会丢失任何信息。大熊猫数据帧通常使用csv格式的几Gb磁盘存储。 LightGBM Dataset看起来很有希望,但是我没有设法正确地重新加载我的数据。
当我尝试通过读取pickle文件来创建dask数据帧时,我得到了一个错误ds_df = dd.read_pickle("D:\test.pickleAttributeError: 'module' object has no attribute 'read_pickle'
在大熊猫身上所以,如果我在这里或者在dask中做错了什么,请纠正我,我们根本不能通过读取一个pi