我正在寻找一种大规模(数千万或数亿条数据记录)的resample time series数据的解决方案。Pandasresample()运行良好,直到达到大约10MIO数据记录,之后它实际上停止了工作,因为硬件没有足够的内存。我在大数据集上使用Pandas时遇到过几次这个问题。有没有人知道没有pandas的resample time series data的好解决方案
数据的来源是MySQL服务器,记录包含OHLC数据和时间戳。
, in pandas._libs.hashtable.PyObjectHashTable.get_item我认为文件有未知的字符,所以我在/var/tmp/ticks_data.csv上运行了resample File "/usr/local/lib/python3.7/site-packages/pan