首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何从Wiki中导出转储

如何从Wiki中导出转储
EN

Stack Overflow用户
提问于 2018-06-07 00:14:06
回答 1查看 393关注 0票数 1

我一直在研究如何抓取一些维基(即https://fr.vikidia.org/https://fr.wikimini.org/)来为自然语言处理创建纯文本语料库。

据我所知,对于维基百科,这通常是通过从https://dumps.wikimedia.org/下载转储并使用WikiExtractor等解析器工具来完成的,但似乎我无法从转储网站上的这些维基中获得转储,对吗?

到目前为止,我在MediawikiAPI的Help:Export页面上找到了两个部分答案:

1)为这些wikis配置MediawikiAPI,并将脚本listpages.py与选项-search一起使用

问题:我一次将10,000页的内容保存在每篇文章的一个文件中,但是这些内容通过模板保存为格式化文本,而不是XML,这使得它对WikiExtractor不可用,因此我无法访问此处的纯文本。

2)跟随these instructions从页面特殊:每个维基的所有页面中获取页面名称列表,将它们粘贴到各自的页面特殊:导出并生成XML

问题:这一次我得到了一个由WikiExtractor正确解析的格式,结果是纯文本,但我需要为每个wiki的数百个页面Special: all pages重现这个操作,这根本不实用。

你知道我怎么才能从wiki变成纯文本吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-10 05:42:35

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50725026

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档