【新数据集】亚马逊Kindle电子书和纸质图书销售排行数据(61000本书,2亿数据点)

【导读】近日,Mario Lurig开源了一份亚马逊纸质书及Kindle电子书销售排行的数据集。包含61000本书、2亿数据点、从2017年1月1日开始到2018年6月29日的图书销售排行数据。

‍Amazon sales rank data for print and kindle books

61,000 unique ASINs and 200,000,000 salesrank data points.

  • 简介

Mario Lurig: 近十年来,我一直在为通过亚马逊在全球范围内发表文章的作者收集salesrank。这些数据每小时收集一次,每24小时一次。一年中收集了GB级数据。多年来,我一直使用销售额变化来估计作者的销售量#,这是由于排名数据作为主要来源的固有缺陷,对于低销量的卖家来说,要比高销量的卖家要好得多。不可靠的数据收集会使情况加剧。

新数据集最早的数据从2017年1月1日开始,最新的数据到2018年6月29日。在61000+本独特的书籍中,Kindle版和纸质版之间大约是50/50的比例。这一点至关重要,亚马逊的销售排名按图书分类分为这两类。因此,数据集中可以有两本书同时拥有相同的销售排名(其中一个在Kindle组,另一个在图书组)。

在数据集中,有一小部分书籍,具有更一致的销售排名集合,特别是他们有小时销售排名集合。*(未来的目标:只提供这些ASINs的.zip文件)。这些标题由NovelRank Pro用户跟踪,对其跟踪没有任何限制。一段时间不卖的图书会将跟踪时间限制为每24小时降低一次,直到检测到销售排名下降为止,因此大多数数据收集时间戳的可变性也会受到影响。

最后,当salesrank没有改变时,NovelRank不记录它。 换句话说,拿上面提到的每小时检查的书籍,如果销售额没有变化,那么由于这个细节,数据点之间可能会有2小时或更长时间的差距。 这对于保持非常好的排名的书籍以及排名非常低的图书的书籍来说也是如此。

*亚马逊每小时更新一次销售排名。

数据集的一些缺陷

  • 在一个订单中购买一个标题(title)的多份副本(copis),就销售排名的提升而言,将算作一次销售。
  • 由于销售而引起的销售排名变化可能会比实际销售延迟3到12个小时。
  • 销售排名是该领域中的项目总数所独有的,而且由于这种情况不断变化,任何单一公式都不能代表一个很好的估计。例如,由于不同的group size,亚马逊(Amazon.com)上的Kindle版本图书的范围和变化程度将远远超过在amazon.it(意大利)上的印刷版图书。
  • 数据集
  1. amazon_com.csv

仅代表Amazon.com的全部图书信息:

  • ASIN是唯一的Amazon标识符。长10个字符,大写,字母和数字的混合,标识了数据文件名的第一部分。
  • GROUP要么是“书(book)”类,要么是“Kindle”类,按销售排名分为两类。
  • FORMAT是特定的书籍格式,小写。

2. rank.zip

文件名格式:{ASIN}_{TLD}.json

内容:ranks.zip 包含一个包含单个JSON文件的文件夹 ranks。 每个JSON文件都是UNIX时间戳(seconds since epoch)作为key,salesrank整数作为value。

注意: ranks.zip 包含 second accurate timing。如果你喜欢按小时调整时间戳,以便更容易地进行跨ASINs的比较,请下载 *ranks_norm.zip*。没必要同时用两个压缩文件。

3. ranks_norm.zip

文件名格式:{ASIN}_{TLD}.json

内容:ranks_norm.zip 包含一个包含单个JSON文件的文件夹 ranks_norm。 每个JSON文件都是UNIX时间戳(seconds since epoch)作为key,salesrank整数作为value。

注意: ranks_norm.zip 包含hour rounded timing。如果你喜欢second accurate timing,请下载 *ranks.zip*。没必要同时用两个压缩文件。

各项比例:

  • 下载地址

https://www.kaggle.com/ucffool/amazon-sales-rank-data-for-print-and-kindle-books#ranks_norm.zip

-END-

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-07-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Petrichor的专栏

好程序需要你写(至少)两遍

  最近这些年,越来越多的人开始转向敏捷开发。各种敏捷开发技术并不新鲜,大多是在80 和 90年代发展形成。但只是在最近这些年,程序员和(更重要的是)一些商业顾...

1494
来自专栏云计算D1net

IBM投资数十亿美元 押注BlueMix PaaS云

IBM认为,开放SoftLayer云平台即服务(PaaS)的中间件堆栈的是一个保险的赌注,一步只能赢不能输的棋。因此,蓝色巨人将数十亿美元摆在台上。 ? ...

2835
来自专栏精讲JAVA

理解程序员并不是一项简单的任务, 即使你当过程序员

最近在读一本软件团队管理方面的书 :books: ,是两位在软件行业的资深从业者写的,其中有一个章节在讲如何理解程序员这件事。 理解程序员并不是一件简单的任务...

3545
来自专栏Golang语言社区

每个优秀程序员必须具备的技术技能

我特别支持软件开发者在他们掌握技术技能的同时去学习“软技能”——事实上,我写了一本关于这方面的书——但是不可否认的是:技术技能很重要。 我的意思是,如果你不能编...

3456
来自专栏大数据

大数据驱动的未来网络:体系架构与应用场景

来源:学术plus(caeit-e) 摘 要:当前网络已经发展了40余年,存在许多问题亟待解决。随着美国产业互联网、德国工业4.0以及“互联网+”等战略的提出,...

2557
来自专栏程序员的知识天地

年薪30w+的软件开发工程师需要掌握的技能

现在,有这样一种主流观念,压垮了很多新手软件开发者,那就是你需要学习很多东西才能成为软件开发人员,并且很多人不知道从哪里开始起步。如今新手进入软件开发的程序员月...

2713
来自专栏程序你好

新手程序员如何写出好的代码

我之前的博客文章在推特上火了。这篇文章指出了一个问题——始终遵守某些规则实际上并不能帮助人们更好地编写代码。

1055
来自专栏灯塔大数据

探秘 | 写了一百万行代码是什么体验?

搞程序的累计写到一百万行代码到底是什么体验呢? 如果一百万是标量的话,来和大家研究一下这个数据,假设最好的情况,一天100行高质量代码,一年36500,100/...

4074
来自专栏Python绿色通道

Python圈子需要净化一下

最近Python行业大环境出了很多大事,反正是不利于Python生态发展的事情,具体事宜我就不说了,我无意于因为这些事情打一些口水仗,我先做好自己就行.从现在做...

923
来自专栏程序员互动联盟

为什么很多老程序员不屑用IDE?

随着软件的发展进步开发工具会越来越人性化,集成度也会越来越高,很多的旁枝末节都会隐藏起来,程序员在使用的时候只需要关心主体的逻辑,只需要调用对应的模块,直接看调...

3735

扫码关注云+社区

领取腾讯云代金券