问如何从Wiki中导出转储
EN

Stack Overflow用户

提问于 2018-06-07 00:14:06

回答 1查看 393关注 0票数 1

我一直在研究如何抓取一些维基(即https://fr.vikidia.org/和https://fr.wikimini.org/)来为自然语言处理创建纯文本语料库。

据我所知，对于维基百科，这通常是通过从https://dumps.wikimedia.org/下载转储并使用WikiExtractor等解析器工具来完成的，但似乎我无法从转储网站上的这些维基中获得转储，对吗？

到目前为止，我在MediawikiAPI的Help:Export页面上找到了两个部分答案：

1)为这些wikis配置MediawikiAPI，并将脚本listpages.py与选项-search一起使用

问题:我一次将10,000页的内容保存在每篇文章的一个文件中，但是这些内容通过模板保存为格式化文本，而不是XML，这使得它对WikiExtractor不可用，因此我无法访问此处的纯文本。

2)跟随these instructions从页面特殊:每个维基的所有页面中获取页面名称列表，将它们粘贴到各自的页面特殊:导出并生成XML

问题:这一次我得到了一个由WikiExtractor正确解析的格式，结果是纯文本，但我需要为每个wiki的数百个页面Special: all pages重现这个操作，这根本不实用。

你知道我怎么才能从wiki变成纯文本吗？

回答已采纳

发布于 2018-06-10 05:42:35

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50725026

复制

相似问题

问如何从Wiki中导出转储EN