首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

史上最强通用NLP模型GPT-2:OpenAI刚又发布7.74亿参数版本

新智元报道

来源:OpenAI

编辑:张佳、大明、鹏飞

【新智元导读】OpenAI号称史上最强“通用”NLP模型又有新动作啦!继今年2 月发布了小型1.24亿参数模型GPT-2后,OpenAI宣布发布7.74亿参数GPT-2 模型,15.58亿的完整模型也有望于几个月内发布。

今年2月,OpenAI发布了号称史上最强“通用”NLP模型,它基于Transformer,拥有15亿参数,使用含有800万网页内容的数据集训练,只为一个目的:

根据当前已有的信息,预测下一个单词是什么。

新模型的名字叫GPT-2,是OpenAI去年发布的无监督NLP模型GPT的直接拓展,新模型用到的参数和训练数据,都增长了超过10倍参数数量。

但是OpenAI表示,由于这个新模型过于强大怕被滥用,所以没有全部开源,遭到网友猛怼。

就在本周,OpenAI宣布,发布了7.74亿参数GPT-2语言模型,15.58亿的完整模型也有望于几个月内发布,并将GPT-2这6个月的进展情况在博客上和大家做了介绍,本文将为大家梳理。

OpenAI博客地址:https://openai.com/blog/gpt-2-6-month-follow-up/

GPT-2有多“可怕”?训练1小时相当于烧掉1台顶配版X Max

今年2月,OpenAI宣称他们研究出一个GPT-2的NLP模型,号称“史上最强通用NLP模型”,因为它是:

踩在15亿参数的身体上:爬取了Reddit上点赞超过三票的链接的文本内容,大约用到1000万篇文章,数据体量超过了40G,相当于35000本《白鲸记》。(注:小说约有21万单词,是电影《加勒比海盗》的重要故事参考来源之一。动漫《海贼王》里四皇之一的白胡子海贼团的旗舰就是以故事主角大白鲸的名字Moby Dick命名)。

无需预训练的“zero-shot”:在更通用的数据集基础上,使用自注意力模块迁移学习,不针对任何特定任务的数据进行训练,只是作为最终测试对数据进行评估,在Winograd Schema、LAMBADA以及其他语言建模任务上实现了state-of-the-art 的结果。

最终结果:8个数据集中油7个刷新当前最佳纪录。

下表显示了最先进的zero-shot结果。(+)表示该项分数越高越好。(-)表示分数越低越好。

虽然OpenAI没有在论文中提及具体的计算力及训练时间,但通过公布的数据推测,他们的模型使用了256个谷歌云TPU v3。

TPU v3在Google之外只提供单独使用版本(排除OpenAI可能得到了特别的许可),很可能GPT-2训练时所需的成本将高达8 * 256 = 2048美元/小时,相当于一小时烧掉一台512G的iPhone Xs Max。

然而,OpenAI并没有完全公布GPT-2模型及代码,OpenAI给出的理由是:因为这个模型能力太强大了!他们目前还有点hold不住它。一旦开源后被坏人拿到,将会贻害无穷。有点中国武侠小说里,绝世武功秘籍的意思。

网友吐槽:不公开代码和训练集就干脆别发表!

于是开发者和学者们不干了,纷纷质疑OpenAI这种做法显得心口不一。甚至盛产吐槽大神的Reddit上,有人建议OpenAI干脆改名CloseAI的言论,获得了数百网友的点赞。

OpenAI干脆改名“CloseAI”算了!

我也做了个超强大的MNIST模型,要不要担心它被滥用而不公开呢?

更有甚者,比如下面这位Ben Recht,还发了一条Twitter长文进行嘲讽:

对于种种质疑,OpenAI在最新的博客中进行了回应。

OpenAI在对模型的研究和合作测试中总结出3点

在对模型的研究和合作测试中,OpenAI有3点总结:

1.协调合作很困难,但有可能实现。

到目前为止,我们还没有公开发布15.58亿参数的完整模型,不过已经有不少组织开发了系统来训练模型,并公开讨论如何训练更大的模型。比如来自华盛顿大学的NLP开发人员Hugging Face和艾伦人工智能研究所(AI2)的团队已明确采用了类似的分阶段发布方法。自今年2月以来,我们已经与超过五个复制GPT-2模型的团队进行了交流。

进行这些对话并不容易,因为它涉及专有系统,而且我们并不清楚是讨论这些模型应该找哪些人来交流,以及在不同组织和团队间讨论尚未发布的模型时,合适的流程是什么,等等。

2、通过模型合成的文本可能会让人们感觉更为合理。

我们的合作伙伴Sarah Kreps和Miles McCain在康奈尔大学发表的一项研究表明,人们发现GPT-2合成文本的样本几乎与真人写出的文本具有同样的说服力(测试者中有72%的人认为这些合成的文章是可信的)《纽约时报》上的真实文章得票率为83%。

此外,艾伦研究所和华盛顿大学的研究表明,由名为“GROVER”的AI系统撰写的新闻比人类写的更为合理。这些研究结果使我们在发布语言模型时更加谨慎。

3.检测模型并不是个简单的事。

恶意使用者可以使用各种采样技术(包括拒绝采样)或微调模型来逃避检测。最终部署的检测系统可能需要在各代中都具备极高准确率(99.9%-99.99%)。

我们的研究表明,目前基于机器学习的方法只能达到90% 到95%的准确度,对语言模型进行微调还会进一步降低准确性。这条路真的很有前途,但这个问题也是真的困难。我们认为,文本的统计检测需要辅以人类判断和与文本相关的元数据,以便有效地打击对语言模型的滥用。

OpenAI与其他机构团队的合作

OpenAI与四家领先的研究机构合作,分析了新发布的7.74亿参数的GPT-2模型,以及尚未发布的完整GPT-2模型。我们将一些初步结果写入了技术报告,目前正在分析可能发布的15.58亿参数完整模型的有关问题。此外,还制定了非商用法律协议,以促进组织机构之间的模型共享。

康奈尔大学正在研究人类对语言模型产生的数字虚假信息的敏感性。

米德尔伯里恐怖主义、极端主义和反恐国际研究中心(CTEC)正在探索GPT-2被网络上的恐怖分子和极端分子滥用的情况。

俄勒冈大学在开发一系列“偏差检测器”来分析GPT-2模型中的偏差。

德克萨斯大学奥斯汀分校正在研究在特定领域数据集上进行微调后的GPT-2输出的统计可检测性,以及跨不同语言模型的检测传递程度。

未来,完整模型何时发布?

未来我们将综合考虑以上这些合作伙伴的研究成果,观察当前的7.74亿参数模型的使用情况,并与研究人员和决策者讨论语言模型的制定。作为我们分阶段发布策略的一部分,我们目前的计划是在几个月内发布15.58亿参数的完整GPT-2模型,但如果合作伙伴的调查结果有变,或者当前的模型出现了恶意使用,那么最终的发布时间也可能会变化。

我们认为,分阶段发布、以及基于合作伙伴关系的模型共享,这两点是负责任的AI模型发布的关键基础,在性能强大的生成模型的背景下更是如此。未来,随着时间的推移,大型模型固有的问题将会越来越多,而不是越来越少。我们希望在GPT-2模型上开展的合作会有助于解决这些问题。

大型语言模型存在无法估量的潜在威胁,公开数据需要谨慎再谨慎!

随模型发布的还有一份技术报告,介绍与更广泛的AI研究社区协调发布规范方面的经验。新智元也把重点内容为大家做了总结:

大型语言模型在各个领域具有广泛的用途。例如创建情感分类器、语音识别系统、翻译系统、对话系统,区分由语言模型(尤其是对抗性示例)生成的合成文本和人类创作的文本。

除此之外,在生物医学文献分析、生成综合测试数据、生成放射学报告和脑电图报告等方面的应用对人类健康有着非常大的价值。

在过去六个月内,GPT-2已经被应用在软件工程、文案、艺术、娱乐、健康等多个领域,帮助文字工作者纠正语法、提供灵感,为开发者自动补全代码(例如Deep TabNine),创作音乐(例如OpenAI的MuseNet)等等。

小参数的GPT-2就在这些领域的成功应用,为研究人员发布更大规模参数的模型树立了极大的信心。在此之前,研究人员一直担心GPT-2可能导致无法估量的潜在风险,例如虚假信息、网络暴力等。

研究人员将目前已知的恶意行为分为三个层级:

1. 初、中级。资源有限,可能只是好奇想试着搞点事情

2. 专家级。能力够,资源也不少。例如水军、营销号、垃圾邮件等

3. 大师级。也被称为高级持续性威胁(APT),技能一流,资源充足,能够打硬仗、打持久战

研究人员通过后续监测最终确认,别有用心之人很难具备利用GPT-2掀起滔天巨浪的能力和资源,因此研究人员才敢继续释放更大规模的参数。

而面对大师级的恶意攻击者,数据量的多少,根本不能显著的影响他们为非作歹的意愿和进度。这个时候,正式专业的安防机构体现价值的机会。

OpenAI正在和合作伙伴携手研究应对可能的各种威胁,制定对战策略,加固正义的防线。

语言模型未来的四大趋势

通过进一步的研究,OpenAI希望语言模型能够以更高的输出质量和准确度扩展性能。除了这些模型级别的改进之外,OpenAI还确定了四种趋势,以便以有益和有效的方式理解和塑造语言模型的社会影响。

趋势1:语言模型转移到设备

考虑到计算能力成本的历史趋势,我们可以期待语言模型在一系列设备上得到更广泛的部署。例如,Hugging Face将1.24亿参数GPT-2移植到Swift CoreML中,以便在iOS设备上进行推理。

趋势2:更可控的文本生成

语言模型的潜在用途将随着提高可靠性和/或可控性的发展而增长,例如新的抽样方法、新的数据集、新的目标函数和新的人机界面。

可控性的例子包括:

•在GROVER模型中,进行界面修改以引入输出可控性,使得可以输入文章元数据(例如,标题,作者)以生成高质量输出。

•清华大学的ERNIE模型与知识库相结合,促进了比通用语言模型更可控的生成。

•Stanford和FAIR展示了通过更直接地针对高级会话属性(例如重复程度)进行优化来改善聊天机器人性能的潜力。

趋势3:更多风险分析

目前还不清楚如何比较具有不同性能配置文件的两个大型语言模型的误用性(misusability),特别是在考虑微调(fine-tuning)时。一些关键的考虑因素包括在模型的帮助下生成一定质量的文本所需的时间和专业知识,以及不使用模型的情况,尽管随着技术工具的发展,这将随着时间的推移而变化。

趋势4:工具可用性提升

今天,模型的训练和部署需要了解ML技术,使用工具的技能以及访问测试平台以进行评估。稳步改进的与语言模型交互的工具,如Talk to Transformer和Write with Transformer,将扩大能够以各种不同方式使用语言模型的参与者的数量。这些对工具可用性的改进将对模型性能和采样方法的改进起到补充作用,并将使语言模型的创造性应用比我们目前看到的更广泛。

GPT-2时间线梳理

2019年2月

OpenAI首次公布了GPT-2论文以及1.24亿参数的GPT-2模型。

论文:

https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

2019年3月

OpenAI及其合作伙伴举行晚宴讨论发布高风险AI的合适时机:

https://www.partnershiponai.org/when-is-it-appropriate-to-publish-high-stakes-ai-research/

2019年5月

发布3.35亿模型,以及大规模模型输出的数据集。

发布检测基线,帮助人们了解如何检测GPT-2等模型的输出。

TalktoTransformer.com网站上线,可以让大众直观体验GPT-2。输入一句话,它会自动为你脑补出一段狗血剧情,下图:

随后一份教程上线。但作者也提醒GPT-2带来的潜在风险不可限量,并举例水军机器人由于GPT-2得到极大的提升。

2019年6月

OpenAI在国会听证会上,讨论关于合成媒体的影响,包括讨论合成文本。

DeepMind讨论了GPT-2及适用于生成模型的出版规范的重要性无监督学习的讨论:

https://deepmind.com/blog/article/unsupervised-learning

OpenAI开始与合作伙伴开展研究合作,以制定人工智能研究的出版规范。并尝试与各种各样的人工智能研究组织合作,提出科学家在发布之前可能要问的问题,以及他们可以用来做出版决策的潜在框架。

2019年7月

DeepTabNine基于GPT-2开发代码自动补全应用。

使用自回归Transformer模型生成多圈对话响应:

https://arxiv.org/abs/1908.01841

GLTR:生成文本的统计检测和可视化:

https://www.aclweb.org/anthology/P19-3019

2019年8月

思科技术项目和剑桥大学的研究人员发表了一篇关于减少合成恶意使用的工作文件媒体研究:机器学习的注意事项和潜在发布实践

论文:

https://arxiv.org/abs/1907.11274

初创公司AI21 Labs发布了一个神经文本生成器“HAIM”,他们只发布了该模型的3.45亿参数版本:

https://www.ai21.com/haim-post

NVIDIA Research训练了83亿参数GPT-2模型:

https://nv-adlr.github.io/MegatronLM

发布了7.74亿参数模型。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190821A0AC7900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券