首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >列出浏览量最大的页面wikimedia项目(wikipedia),其中包含超过1000个结果

列出浏览量最大的页面wikimedia项目(wikipedia),其中包含超过1000个结果
EN

Stack Overflow用户
提问于 2020-06-30 19:33:03
回答 1查看 227关注 0票数 0

我已经看到,有各种API和各种工具,可以让你看到访问最多的页面的维基百科项目,如维基百科,但所有这些服务都有限制,他们不允许显示超过1,000页,而我希望有5,000-10000(或更多)访问最多的页面在流量的顺序。

这些是我检查过的所有服务,我发现了这个限制:

https://en.wikipedia.org/w/api.php?action=help&modules=query%2Bmostviewed

https://stats.wikimedia.org/#/en.wikipedia.org/reading/top-viewed-articles/normal|table|last-month|~total|monthly

https://pageviews.toolforge.org/topviews/?project=en.wikipedia.org&platform=all-access&date=last-month&excludes=

https://wikimedia.org/api/rest_v1/#/Pageviews%20data

我还发现了像https://quarry.wmflabs.org/https://query.wikidata.org/这样的服务,你可以运行查询,从技术上讲,你可以通过这个服务,但我不知道要执行的查询,以显示访问次数最多的页面。

我还在这里发现了一篇有趣的文章:https://www.reddit.com/r/bigquery/comments/3dg9le/analyzing_50_billion_wikipedia_pageviews_in_5/,其中解释说可以使用谷歌的BigQuery,但它是一个外部服务,在使用它之前,我想知道它是否存在更简单的方法。

EN

回答 1

Stack Overflow用户

发布于 2020-07-02 21:29:21

如果REST API不适合您的目的,您需要自己解析原始数据。这是因为您链接的所有工具都只使用REST API。

原始数据可在https://dumps.wikimedia.org/other/pageviews/上获得。那里有两组文件。一个从pageviews-开始,它列出了单个页面的视图数量,第二个从projectviews-开始,它列出了单个项目的视图数量。

对于你的目标,你需要的是页面浏览量。下载您的timespan的文件,然后使用脚本分析它们。

该文件以空格分隔。每一行表示在该小时内被访问的一个页面。第一列表示项目(例如,en是英文维基百科),第二列是页面标题(空格用下划线表示),然后是总页面浏览量。

技术文档可以在https://wikitech.wikimedia.org/wiki/Analytics/Data_Lake/Traffic/Pageviews上找到。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62656492

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档