所以,我有一堆.csv文件需要清理。它们都需要经过相同的步骤,因此我提取了OpenRefine的操作历史,以便将其应用于其他操作。
我可以在OpenRefine中逐一打开每个文件,并应用提取的JSON历史记录。但有很多文件..。
而且,我没有足够的内存一次在OpenRefine中打开它们(打开文件时进行多次选择)。
有任何方法可以使用我从OpenRefine提取的JSON来编辑所有的或自动的JSON吗?
发布于 2017-04-07 20:08:11
这就是我们创建BatchRefine的原因,自述应该是很清楚的。如果没有,请告诉我。
最近,我使用BatchRefine将400万条CSV记录转换为RDF,在MacBook Pro上花了不到10分钟。
我使用以下简单的shell脚本执行BatchRefine:
#!/bin/bash
for file in ./input/*.tsv
do
filename=$(basename "$file")
if [ ! -f "target/"$filename"-transformed" ]
then
echo Processing $filename...
curl -XPOST -H 'Accept: text/turtle' -H 'Content-Type:text/csv' --data-binary "@"$file -o "target/"$filename"-transformed" 'localhost:8310/?refinejson=http://localhost:8000/bar-config.json'
else
echo Found "target/"$filename"-transformed", skipping $file
fi
done;
请注意,您需要调整脚本中的Accept
头,我想您希望再次将CSV作为输出,而不是RDF。
发布于 2017-04-07 18:51:02
您可以使用现有库之一自动化一些OpenRefine操作:
https://stackoverflow.com/questions/43284456
复制相似问题