目前,我正在用以下代码将数据集中的行写入CSV文件:
with open('Private-Jet-Data.csv', 'a') as f:
writer = csv.writer(f,delimiter=",")
for row in data:
writer.writerow(row)是否有更有效的方法确保在不首先打开文件并对data列表中的每一行遍历整个文件的情况下,文件中没有任何行是复制的?
发布于 2014-07-17 17:52:12
不,不可能。
您将需要将数据保存在内存中的某个位置进行比较,这意味着您必须从文件中读取以前的数据,并且只追加该文件中缺少的数据集。
还请注意,在当前的代码片段中,与.csv文件中的条目相比,没有任何地方可以比较。
发布于 2014-07-17 17:58:39
您只需将“看见”值添加到动态设置中:
with open('Private-Jet-Data.csv', 'a') as f:
writer = csv.writer(f,delimiter=",")
seen = set()
for row in data:
if row in seen:
continue
writer.writerow(row)
seen.add(row)它比两次读取源文件更有效,但是如果您正在处理一个大文件,它仍然会占用一些内存。
发布于 2022-04-08 11:16:21
f.writelines(sorted(set(ls)))设置!
https://stackoverflow.com/questions/24810265
复制相似问题