我有一个12的JSON文件,每一行都包含有关科学论文的信息。这是它看起来的样子 enter image description here 我想解析它并创建3个pandas数据帧,其中包含有关场所、作者和作者在一个场所发表了多少次的信息。下面你可以看到我写的代码。我的问题是,这段代码需要很多天才能运行。有没有办法让它更快?
我知道我可以加载一个包含数据块的文件:for chunk in pandas.read_csv("path_to_my_csv.csv", chunksize=1e9):# Process
其中,chunksize的值对应于每个“块”包含的行数。我想这样做的原因是能够在不同的机器上处理数据(有不同数量的可用内存),并使用</
我有9个大的csv (每个12 in ),具有完全相同的列结构和行顺序,只是每个csv的值不同。我需要逐行遍历csv,并比较其中的数据,但它们太大了,无法存储在内存中。维护行顺序非常重要,因为行位置用作比较csvs之间的数据的索引,因此将表附加在一起并不理想。我宁愿避免9个嵌套的"with open() as csv:“使用DictReader,这看起来