我写了一个脚本从维基百科下载pagviewsXXXXX.gz文件。太棒了。当我解压缩文件时,内容难以辨认。有人知道如何读取pagwviews.gz文件的内容吗?如果有一些api或任何关于如何做它的想法?
提前感谢
发布于 2018-04-21 15:51:14
我不知道你用什么软件来解压缩.gz文件。我刚刚成功地在64位Win10机器上使用了7-zip。完成之后,我发现https://dumps.wikimedia.org/other/pagecounts-raw/提供了对未压缩文件中行的描述。
线
de Stadio_Arena_Garibaldi_-_Romeo_Anconetani 1 11820来自de (德语) wikipedia,页面'Stadio_Arena_Garibaldi_-_Romeo_Anconetani',该页面在gzipped文件覆盖的一个小时内被引用一次,服务器返回了11,820字节。
这句话看上去像胡言乱语。
ar %D9%85%D8%B7%D9%8A%D8%A7%D9%81%D9%8A%D8%A9 1 16742然而,前两个字符表示对维基百科阿拉伯版本的引用。'%‘项是非ascii字符。
https://stackoverflow.com/questions/49956619
复制相似问题