首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何过滤一种语言的维基数据转储?

如何过滤一种语言的维基数据转储?
EN

Stack Overflow用户
提问于 2019-06-08 19:02:23
回答 1查看 264关注 0票数 2

我已经下载了RDF格式的Wikidata truthy dump (.nt.bz2文件)。我希望将转储的语言限制为仅英语,并将这个新过滤的转储生成为新的.nt文件。

我尝试过使用并行grep来过滤带有'@en‘文本的行,但它消耗了大量的处理时间。

有没有更快的方法生成过滤过的转储文件?使用Spark之类的东西?

EN

回答 1

Stack Overflow用户

发布于 2020-02-13 03:45:49

也许对您来说有点晚了,但同时生成了一个用于创建自定义转储的工具:https://tools.wmflabs.org/wdumps/

使用这个工具,您可以在线定义一个语言过滤器,然后下载一个只包含相关三元组的.nt文件。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56505737

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档