我正在尝试使用Python将一个大的~2GBSPSS (.SAV)文件转换为CSV。
如果有一个大小小于500 is的文件,那么执行以下操作没有问题:
import pandas as pd
df = pd.read_spss('stdFile.sav')
df.to_csv("stdFile.csv", encoding = "utf-8-sig")
但在这种情况下,我得到了一个MemoryError.
我期待未来的解决方案,不一定在Python中。但是我没有SPSS许可证,所以我必须用另一个工具来转换文件。
发布于 2020-07-23 07:36:09
您可以使用python的pyreadstat包以块形式读取spss文件,并将每个块保存到csv中:
import pyreadstat
fpath = "path/to/stdFile.sav"
outpath = "stdFile.csv"
# chunksize determines how many rows to be read per chunk
reader = pyreadstat.read_file_in_chunks(pyreadstat.read_sav, fpath, chunksize= 10000)
cnt = 0
for df, meta in reader:
# if on the first iteration write otherwise append
if cnt>0:
wmode = "a"
header = False
else:
wmode = "w"
header = True
# write
df.to_csv(outpath, mode=wmode, header=header)
cnt+=1
这里有更多信息:https://github.com/Roche/pyreadstat#reading-rows-in-chunks
发布于 2020-05-22 23:48:01
首先导入模块savReaderWriter将.sav文件转换为结构化数组,然后导入模块numpy将结构化数组转换为csv:
pip install savReaderWriter
import savReaderWriter
import numpy as np
reader_np = savReaderWriter.SavReaderNp("stdFile.sav")
array = reader_np.to_structured_array("outfile.dat")
np.savetxt("stdFile.csv", array, delimiter=",")
reader_np.close()
https://stackoverflow.com/questions/61965489
复制相似问题