我已经看到,有各种API和各种工具,可以让你看到访问最多的页面的维基百科项目,如维基百科,但所有这些服务都有限制,他们不允许显示超过1,000页,而我希望有5,000-10000(或更多)访问最多的页面在流量的顺序。
这些是我检查过的所有服务,我发现了这个限制:
https://en.wikipedia.org/w/api.php?action=help&modules=query%2Bmostviewed
https://wikimedia.org/api/rest_v1/#/Pageviews%20data
我还发现了像https://quarry.wmflabs.org/或https://query.wikidata.org/这样的服务,你可以运行查询,从技术上讲,你可以通过这个服务,但我不知道要执行的查询,以显示访问次数最多的页面。
我还在这里发现了一篇有趣的文章:https://www.reddit.com/r/bigquery/comments/3dg9le/analyzing_50_billion_wikipedia_pageviews_in_5/,其中解释说可以使用谷歌的BigQuery,但它是一个外部服务,在使用它之前,我想知道它是否存在更简单的方法。
发布于 2020-07-02 21:29:21
如果REST API不适合您的目的,您需要自己解析原始数据。这是因为您链接的所有工具都只使用REST API。
原始数据可在https://dumps.wikimedia.org/other/pageviews/上获得。那里有两组文件。一个从pageviews-
开始,它列出了单个页面的视图数量,第二个从projectviews-
开始,它列出了单个项目的视图数量。
对于你的目标,你需要的是页面浏览量。下载您的timespan的文件,然后使用脚本分析它们。
该文件以空格分隔。每一行表示在该小时内被访问的一个页面。第一列表示项目(例如,en是英文维基百科),第二列是页面标题(空格用下划线表示),然后是总页面浏览量。
技术文档可以在https://wikitech.wikimedia.org/wiki/Analytics/Data_Lake/Traffic/Pageviews上找到。
https://stackoverflow.com/questions/62656492
复制相似问题