前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了

作者头像
量子位
发布2019-05-14 13:45:45
1.1K0
发布2019-05-14 13:45:45
举报
文章被收录于专栏:量子位

逆天的语言模型GPT-2又有最新开源进展了!

GPT-2,这个造假新闻编故事以假乱真,能完成阅读理解、常识推理、文字预测、文章总结等多种任务的AI模型,从诞生开始就引起大量关注。

但因一开始只放出了117M的小型预训练模型,OpenAI还被网友调侃为“ClosedAI”。OpenAI表示,不是不开源,而是时候未到。

刚刚,OpenAI宣布将其345M的预训练模型开源,外加其Transformer的1.5B参数。

这一次,你也可以将最强语言模型,用到自己的项目中了。

称霸各大语言建模任务

语言模型GPT-2在语言建模任务中,简直是逆天般的存在。

作为一个没有经过任何领域数据专门训练的模型,它的表现比那些专为特定领域打造的模型还要好,横扫各大语言建模任务。

GPT-2在不同语言建模任务上的测试结果(从左到右:数据集名称、指标类型、GPT-2测试结果、此前最好结果、人类水平)

一经问世就获得了Hinton等大牛的强推和关注。

简单来说,GPT-2就是基于Transformer架构的大规模模型。

GPT-2是GPT算法“进化版”,比GPT参数扩大10倍,达到了15亿个,数据量扩大10倍,使用了包含800万个网页的数据集,共有40GB。

这个庞大的算法使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个Transformer,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。

上图左部分,是研究中使用的Transformer架构以及训练目标。右边部分,是针对特定任务进行微调。将所有结构化输入转换为token序列,由预训练模型处理,然后经过线性+softmax层处理。

就GPT-2而言,它的训练目标很简单:根据所有给定文本中前面的单词,预测下一个单词。

几天前,在此架构基础上改进得到的模型MuseNet,也能预测一段音乐中下一个音符是什么了,还用贝多芬的曲风续写阿黛尔的Someone Like You,让莫扎特续写披头士。

不来了解一下?

让莫扎特“续写”披头士的音乐,OpenAI的新AI作曲能力强丨Demo可玩

传送门

最后,附上GitHub代码地址: https://github.com/openai/gpt-2

GPT-2数据集地址: https://github.com/openai/gpt-2-output-dataset

OpenAI介绍主页: https://openai.com/blog/better-language-models/#update

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 称霸各大语言建模任务
  • 传送门
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档