专栏首页AI派大三学生独自破解逆天AI模型:我只是把撩妹的时间,都用来研究机器学习了

大三学生独自破解逆天AI模型:我只是把撩妹的时间,都用来研究机器学习了

转载自量子位 作者:问耕

GPT-2,一个逆天的AI。

今年2月,OpenAI首次对外公布了这个模型的存在。GPT-2写起文章来文思泉涌毫无违和感,无需针对性训练就能横扫各种特定领域的语言建模任务,还具备阅读理解、问答、生成文章摘要、翻译等等能力。

但不同寻常的是,这个模型并没有真的开源。OpenAI给的解释是,它太过强大,我们不敢放出完整模型……尽管因此被外界嘲笑,但GPT-2仍然封闭至今。

现在,有人单枪匹马,破解了OpenAI不欲人知的秘密。

而且,是一个大三的学生。

来自慕尼黑工业大学的Connor Leahy同学,在两个月的时间里,付出了200个小时的时间,花费了大约6000人民币,复现了GPT-2项目。

这件事在推特上引发了众多关注。称赞Awesome的有之,深入讨论的有之,甚至连OpenAI的几位资深研究员,都赶来沟通。

另外让人佩服的是,Connor Leahy同学关于机器学习的知识,都是利用空闲时间自学而成。他形容自己是一个充满好奇心的本科生。

“我只是把别人出去撩妹的时间,用来搞AI实验了而已。”

一气之下

GPT-2是OpenAI最棒的研究成果。

这个模型是GPT的“进化版”,最大区别就在于规模大小。GPT-2参数达到了15亿个,使用了包含800万个网页的数据集来训练,共有40GB。

使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个Transformer,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。

GPT模型

OpenAI的研究人员表示,在各种特定领域数据集的语言建模测试中,GPT-2都取得了优异的分数。作为一个没有经过任何领域数据专门训练的模型,它的表现,比那些专为特定领域打造的模型还要好。

除了能用于语言建模,GPT-2在问答、阅读理解、摘要生成、翻译等等任务上,无需微调就能取得非常好的成绩。

GPT-2发布后,深度学习之父Hinton献出了他注册Twitter以来的第三次评论:“这应该能让硅谷的独角兽们生成更好的英语了。”

关于这个模型的强大表现,可以参考量子位之前的报道,这里不再赘述。

总之,就是一个字:强。

就是因为强,OpenAI做了一个艰难的决定:不把完整的模型放出来给大家。他们先是放出了不到十分之一规模、1.17亿个参数的小型版本,被吐槽几个月后又放出了3.45亿参数的中型版本。

毫无疑问,GPT-2激发了Connor Leahy同学的好奇心,同时,OpenAI私藏这个模型的决定,也让他非常生气。“信息应该是自由的。”

于是他决定自己动手复现出来。

他不只是因为一时冲动。对于为什么要复现GPT-2,Connor Leahy同学在自己的博客里有长长的思考,其中包括与其害怕AI编造的假新闻,不如积极行动起来,让大家意识到这个问题,勇敢面对然后想办法解决。

当然还有另一个原因,他觉得这么做:

很酷。

复现版GPT-2

“你怎么知道自己成功复现了15亿参数的GPT-2模型?”

这个问题,恐怕绝大多数人都想知道答案。

Connor Leahy同学给出的回应是:两个模型的大小和参数量相同,基于相似的数据源训练,使用了类似的计算资源,而且输出结果质量相仿。

他也给出了两者的一些明确不同,比方:

1、dropout和learning rate官方没有披露,所以设置可能不一样。

2、模型训练使用了Adafactor而不是Adam。Connor Leahy同学不知道怎么把15亿参数+Adam塞进TPU,即便16bit精度也不行。

哎?等下……

一个普普通通的大三学生,怎么能用到TPU搞这种研究?

感谢Google。

Google有一个Tensorflow Research Cloud(TFRC)计划。这个计划面向研究人员,提供1000个Cloud TPU组成的集群,完全免费。这个计划用于支持多种需要大量计算并且无法通过其他途径实现的研究项目。

当时Connor Leahy同学在研究GPT-2复现的时候,遇到了计算资源的瓶颈,然后随口跟TFRC团队提了一嘴,结果却得到了Google慷慨的支持。

实际上,在推进这个项目之前,Connor Leahy同学从来没有使用过TPU。所以,他在博客中热情的对Google团队表达了感谢。

不过,他还是在云端花费了大约600-800欧元(人民币6000元左右),用于创建数据集、测试代码和运行实验。

他用的笔记本是一台旧的ThinkPad。

Connor Leahy同学还对降噪耳机表达了感谢:让我保持宁静。

目前,复现版的GPT-2已经放在GitHub上开源,代码可以在GPU、TPU以及CPU上跑(不建议)。现在作者放出了两个版本,一个是1.17亿参数的小型版本,一个是称为PrettyBig的版本,比3.45亿参数的官方中型版稍大一点,也是目前公开的最大GPT-2模型。

至于15亿参数的完整版,作者计划7月1日发布。

现阶段,Connor Leahy同学邀请大家下载试用,跟他一起讨论复现版GPT-2到底还有什改进空间。在关于这件的博客文章里,他说:我100%能接受大家指出的任何错误,如果你发现问题请与我联系。

关于作者和传送门

Connor Leahy同学2017年考入德国慕尼黑工业大学,目前是一名大三的计算机本科学生。在LinkedIn上,他说自己对人工智能充满热情。

从2018年9月迄今,他还在马克思普朗克研究所实习,也在用来自Google的TPU,研究正经的AI课题。

最后,放一下传送门。

Connor Leahy同学充满思考的博客:

https://medium.com/@NPCollapse/gpt2-counting-consciousness-and-the-curious-hacker-323c6639a3a8

与他在GitHub相见吧:

https://github.com/ConnorJL/GPT2

本文分享自微信公众号 - AI派(naodong-open)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 为什么说有数据就意味着有钱?那又如何利用数据来挣钱呢?

    这是一个“大数据时代”,很明显,它的核心是数据,那数据有什么价值(有钱)呢?如何从数据中提取价值(挣钱)呢?这些问题是我们今天要讨论的。开始讨论之前,先来说下为...

    abs_zero
  • 划重点! TensorFlow 2.0 中的符号和命令式 API

    文 / Josh Gordon, Google Developer Advocate

    abs_zero
  • 2018热点总结:BERT最热,GANs最活跃,每20分钟就有一篇论文...

    【导读】本文的作者 Ross Taylor 和 Robert Stojnic 在今年一起启动了一个名为“Paper with Code”的项目,将 AI 领域的...

    abs_zero
  • 大三学生独自破解逆天AI模型:我只是把撩妹的时间,都用来研究机器学习了

    今年2月,OpenAI首次对外公布了这个模型的存在。GPT-2写起文章来文思泉涌毫无违和感,无需针对性训练就能横扫各种特定领域的语言建模任务,还具备阅读理解、问...

    量子位
  • GPT-3,价值460万美元的语言模型

    本文作者是 GPT-2 的热心用户,GPT-2 风靡 AI 领域的那段时间,他撰写了不少相关文章。然而当 GPT-3 的论文发布后,身为忠实用户的他却感觉到了失...

    代码医生工作室
  • 在Python中调用Java扩展包HanLP测试记录

    最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-...

    IT小白龙
  • 用python根据考生成绩对学生预测是否被高校录取

    Dataset 每年高中生和大学生都会申请进入到各种各样的高校中去。每个学生都有一组唯一的考试分数,成绩和背景数据。录取委员会根据这个数据决定是否接受这些申请...

    机器学习AI算法工程
  • python 爬取mm信息

    py3study
  • Python2和3的区别

    学2还是3我想这是每一个初学者都会遇到的难题,我觉得作为一名新手直接上3。Python3是未来的大势所趋,2.7现在只是在维护,不会增加新的功能。

    stormwen
  • 网智天元首席战略官莫倩:未来所有的生意都将是数据生意,中国也将成为全球最大的电影市场

    数据猿导读 未来所有的生意都将是数据生意。中国电影市场已经成为全球增长最强劲的引擎之一,在两三年内将成长为全球最大的电影市场。但同时,中国的电影工业和市场体系目...

    数据猿

扫码关注云+社区

领取腾讯云代金券