我已经下载了RDF格式的Wikidata truthy dump (.nt.bz2文件)。我希望将转储的语言限制为仅英语,并将这个新过滤的转储生成为新的.nt文件。
我尝试过使用并行grep来过滤带有'@en‘文本的行,但它消耗了大量的处理时间。
有没有更快的方法生成过滤过的转储文件?使用Spark之类的东西?
发布于 2020-02-13 03:45:49
也许对您来说有点晚了,但同时生成了一个用于创建自定义转储的工具:https://tools.wmflabs.org/wdumps/
使用这个工具,您可以在线定义一个语言过滤器,然后下载一个只包含相关三元组的.nt文件。
https://stackoverflow.com/questions/56505737
复制相似问题