170多万篇论文，存储量达1.1 TB，Kaggle上线arXiv完整数据集

机器之心

发布于 2020-08-11 16:23:15

1.3K0

机器之心报道

编辑：杜伟、小舟

现在，用户可以在 Kaggle 平台上获取 arXiv 论文了！

众所周知，arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来，arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞大分支和计算机科学的众多子学科，如数学、统计学、电气工程、定量生物学和经济学等等。

arXiv 上研究论文数量之多有利也有弊。一方面，对于在自身研究领域迅速成长的研究生，以及致力于用科研为公众提供服务的研究者而言，这一丰富的信息库可以提供极有效的助力。另一方面，arXiv 有时在搜索时也有不便。

与此同时，Kaggle 通常是数据科学家和机器学习工程师寻求有趣数据集、公开笔记和赛题的重要平台。研究者可以利用 Kaggle 上广泛的数据探索工具，轻松地与他人共享相关脚本和输出。

所以，是不是可以将 arXiv 上的巨量学术论文打包放在 Kaggle 上呢？

近期，为了让 arXiv 可用度更高，康奈尔大学和其他一些开发者在 kaggle 上创建了一个免费、开放的 arXiv 数据集。该数据集是一个含有 170 多万篇学术论文的存储库，用户可以获取论文的标题、作者、类别、摘要、全文 pdf 等。

arXiv 执行董事 Eleonora Presani 表示：「在 Kaggle 上放置完整的 arXiv 语料库，可以极大地增强 arXiv 论文的阅读潜力。并且，通过在 Kaggle 上提供该数据集，我们能够获取比通读这些文章更多的知识，并且能够以机器可读的格式将 arXiv 背后的数据和信息向公众开放。」

此外，她还表示：「arXiv 不仅是一个论文资源库，它还是一个知识共享平台。这就要求我们在展示和解释可用知识的方式上不断创新，Kaggle 用户能够帮助突破这种创新的局限，并且能够成为社区协作的新渠道。」

开发者希望启用能够探索出更丰富机器学习技术的新用例。这些技术还将结合面向如趋势分析、论文推荐器引擎、类别预测、共引网络、知识图谱构造、语义搜索接口等诸多应用的多模态功能。

Kaggle 上的 arXiv 数据集是什么样的

这是一个包含 170 多万篇理工科（STEM）学术论文的 arXiv 数据集和元数据。目前，开发者已经更新了 5 个版本，从第一版的 arXiv 元数据集（arXiv metadata）到最新版本的 arXiv 数据集，包含的论文数量越来越多，范围也更广。该数据集将每周更新一次。

第一版的 arXiv 元数据。

该数据集是原始 arXiv 数据的镜像，存储量高达 1.1TB，并且还会继续增加。数据集仅提供了 json 格式的元数据文件，它包含每篇论文的相关条目，具体如下：

id：arXiv ID，可用于访问论文；
submitter：论文提交者；
authors：论文作者；
title：论文标题；
comments：论文页数和图表等其他信息；
journal-ref：论文发表的期刊；
doi：数字对象标识符；
abstract：论文摘要；
categories：论文在 arXiv 系统的所属类别或标签；
versions：论文版本。

此外，用户可以通过以下两个链接直接在 arXiv 上访问每篇论文：

https://arxiv.org/abs/{id}：包含摘要和进一步链接的论文页面；
https://arxiv.org/pdf/{id}：论文 PDF 下载页面。

批量访问

用户可以在谷歌云存储（Google Cloud Storage, GCS）bucket gs://arxiv-dataset 上免费获取全部 PDF 论文，或通过谷歌 API json documentation 和 xml documentation 也可以获取。

PDF 论文被分组到 tarpdfs 文件夹的几个. tar.gz 文件中，具体如下所示：

tarpdfs/arXivpdf1001001.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001001.tar.gz) tarpdfs/arXivpdf1001002.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001002.tar.gz) tarpdfs/arXivpdf1001003.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001003.tar.gz) Which are chunks 1, 2 and 3 for month 1001 (2010-01).

此外，用户可以使用 gsutil 工具将数据下载到本地计算机中。

arXiv 将 170 多万篇论文打包放在 Kaggle 上，更方便了用户获取和下载论文。有网友表示：「此举棒极了！」