首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从维基百科读取pageviews.gz文件

从维基百科读取pageviews.gz文件
EN

Stack Overflow用户
提问于 2018-04-21 14:07:42
回答 1查看 53关注 0票数 0

我写了一个脚本从维基百科下载pagviewsXXXXX.gz文件。太棒了。当我解压缩文件时,内容难以辨认。有人知道如何读取pagwviews.gz文件的内容吗?如果有一些api或任何关于如何做它的想法?

提前感谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-04-21 15:51:14

我不知道你用什么软件来解压缩.gz文件。我刚刚成功地在64位Win10机器上使用了7-zip。完成之后,我发现https://dumps.wikimedia.org/other/pagecounts-raw/提供了对未压缩文件中行的描述。

线

代码语言:javascript
运行
复制
de Stadio_Arena_Garibaldi_-_Romeo_Anconetani 1 11820

来自de (德语) wikipedia,页面'Stadio_Arena_Garibaldi_-_Romeo_Anconetani',该页面在gzipped文件覆盖的一个小时内被引用一次,服务器返回了11,820字节。

这句话看上去像胡言乱语。

代码语言:javascript
运行
复制
ar %D9%85%D8%B7%D9%8A%D8%A7%D9%81%D9%8A%D8%A9 1 16742

然而,前两个字符表示对维基百科阿拉伯版本的引用。'%‘项是非ascii字符。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49956619

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档