前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >包含近 20 万本图书,OpenAI 级别的训练数据集上线

包含近 20 万本图书,OpenAI 级别的训练数据集上线

作者头像
HyperAI超神经
发布2020-10-30 11:13:32
9320
发布2020-10-30 11:13:32
举报
文章被收录于专栏:HyperAI超神经

了By 超神经

内容提要:你是否也想要像 OpenAI 一样,训练出强大的 GPT 模型,但是却苦于没有足够的训练数据集?近期,reddit 社区的一位网友上传了一个纯文本数据集,包含近 20 万本书籍,训练出一流的 GPT 模型不再是梦。

关键词:自然语言处理 纯文本数据集

近日,机器学习社区的一篇资源热贴「用于训练 GPT 等大型语言模型的 196640 本纯文本书籍数据集」引发了热烈的讨论。

该数据集涵盖了截至 2020 年 9 月所有大型文本语料库的下载链接。除此之外,它还包含了所有的 bibliotik(一个线上图书资源库)中书籍的纯文本,以及大量用于训练的代码。

数据集中除文本数据外,还包含了 100GB 的训练代码

196640 册图书数据,训练你的 GPT

就在昨天,reddit 的机器学习社区上,网友 Shawn Presser 发布了一套纯文本数据集,得到一致好评。

这些数据集中共包含 196640 册纯文本数据,可以用于训练 GPT 等大型语言模型。

由于这套数据集包含多个数据集以及训练代码,我们在此不一一赘述,仅将其中的 books1 与 books3 数据集的具体信息列出:

图书纯文本数据集

发布作者: Shawn Presser

包含数量:books1:1800 册图书;book3:196640 册图书

数据格式:txt 格式

数据大小:books1:2.2 GB;books3:37 GB

更新时间:2020 年 10 月

下载地址:https://hyper.ai/datasets/13642

据数据集整理者 Shawn Presser 介绍,这些数据集的质量是非常高的,仅 books1 数据集,就花费了他大约一周的时间,对 epub2txt 脚本进行修复。

此外,他还表示,books3 数据集似乎与 OpenAI 的论文中神秘的「books2」数据集相似。但是,由于 OpenAI 并没有提供这方面的详细信息,所以也无法了解二者之间的任何差异。

不过,在他看来,这份数据集极其接近 GPT-3 的训练数据集。拥有它,下一步,你也可以训练出与 GPT-3 相匹敌的 NLP 语言模型,当然,还有一个条件是,你还需要准备足够的 GPU。

数据集中 books1 数据集部分内容示例

据介绍,books1 数据集中 1800 本图书文本数据,都来自于大型文本语料库 BookCorpus,其中包括诗歌类、小说类等。

比如美国作家 Kristie Lynn Higgins 的《Shades of Gray:Noir, City Shrouded By Darkness》(《灰色阴影:被黑暗笼罩的城市》)、Benjamin Broke 的《Animal Theater》(《动物剧院》)、T·I·韦德的《America One》(《美国一号》)等。

强大的 GPT-3 背后,训练数据集立功劳

关注自然语言处理领域的小伙伴都知道,今年 5 月,OpenAI 斥巨资打造的自然语言处理模型 GPT-3,凭借惊人的文本生成能力,在业界引起高度关注,并且一直以来热度不减。

GPT-3 不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。而它之所以拥有这些强大的能力,离不开背后巨量的训练数据集。

GPT-3 训练数据集一览

据介绍,GPT-3 使用的训练数据集十分庞大,基于包含近 1 万亿单词量的 CommonCrawl 数据集、网络文本、数据、维基百科等数据,它使用的最大数据集在处理前容量达到了 45TB,其训练费用也达到惊人的 1200 万美元。

更大的训练数据集、更多的模型参数,让 GPT-3 在自然语言处理模型中一骑绝尘。

然而,对于普通开发者来说,想要训练出一流的语言模型,暂且不说高昂的训练成本,仅仅在训练数据集这一步,就会被卡住。

因此,Shawn Presser 带来的数据集无疑解决了这一难题,一些网友表示,这项工作他们节省了巨大的成本。

超神经目前已经将 books1 数据集搬运至 https://hyper.ai,搜索关键词「书籍」或「文本」,或点击原文获取数据集。

其它数据集可从以下链接中获取:

books3 数据集下载地址:

https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz

训练代码下载地址:

https://the-eye.eu/public/AI/pile_preliminary_components/github.tar

reddit 原帖:https://www.reddit.com/r/MachineLearning/comments/ji7y06/p_dataset_of_196640_books_in_plain_text_for/

—— 完 ——

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 HyperAI超神经 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档