我一直在研究如何抓取一些维基(即https://fr.vikidia.org/和https://fr.wikimini.org/)来为自然语言处理创建纯文本语料库。
据我所知,对于维基百科,这通常是通过从https://dumps.wikimedia.org/下载转储并使用WikiExtractor等解析器工具来完成的,但似乎我无法从转储网站上的这些维基中获得转储,对吗?
到目前为止,我在MediawikiAPI的Help:Export页面上找到了两个部分答案:
1)为这些wikis配置MediawikiAPI,并将脚本listpages.py与选项-search一起使用
问题:我一次将10,000页的内容保存在每篇文章的一个文件中,但是这些内容通过模板保存为格式化文本,而不是XML,这使得它对WikiExtractor不可用,因此我无法访问此处的纯文本。
2)跟随these instructions从页面特殊:每个维基的所有页面中获取页面名称列表,将它们粘贴到各自的页面特殊:导出并生成XML
问题:这一次我得到了一个由WikiExtractor正确解析的格式,结果是纯文本,但我需要为每个wiki的数百个页面Special: all pages重现这个操作,这根本不实用。
你知道我怎么才能从wiki变成纯文本吗?
发布于 2018-06-10 05:42:35
https://stackoverflow.com/questions/50725026
复制相似问题