专栏首页新智元1750亿参数,比Transformer大10倍的GPT-3为什么没人在乎?

1750亿参数,比Transformer大10倍的GPT-3为什么没人在乎?


新智元报道

编辑:元子

【新智元导读】OpenAI推出GTP-3拥有1750亿参数,是迄今为止最大的模型,在一些自然语言基准上取得了很强的效果。然而专家们却认为,虽然GPT-3和类似的大型系统在性能方面令人印象深刻,但它们并没有在研究方面推动全球发展。相反,更多的是一种形象工程,只是证明了现有技术的可扩展性。

上周,OpenAI发表了一篇论文,详细介绍了GPT-3,我们也对论文做了详细的介绍。

GTP-3顾名思义,是GPT-2的升级版,拥有1750亿参数,是迄今为止最大的模型了,在一些自然语言基准上取得了很强的效果。

参数1750亿,存储超过350GB,成本1200万美元!

这么大的参数,自然需要巨大的存储空间来承载。它的存储大小超过了350GB,是迄今为止最昂贵的系统之一,训练成本估计为1200万美元!

当然,一个超过350GB内存、1200万美元成本的计算量,对OpenAI来说不叫事儿,这是一家资本雄厚的公司,不差这点儿钱,他们还跟微软合作开发AI超级计算机呢。

但对大部分AI公司来说,尤其是AI初创企业,那就只能过过眼瘾了,1200万美元甚至可能是一家公司辛苦路演才赚到的一轮融资的钱。

专家认为GPT-3之所以没有引起广泛讨论,原因在于它「遥不可及」

专家们认为,虽然GPT-3和类似的大型系统在性能方面令人印象深刻,但它们并没有在研究方面推动全球发展。相反,更多的是一种形象工程,只是证明了现有技术的可扩展性。

加州大学洛杉矶分校计算机科学助理教授Guy Van den Broeck称:「我认为最好的比喻是一些石油丰富的国家能够建造一座非常高的摩天大楼,在建造这些东西时候,需要花费大量的资金和工程精力,用到『最为前进的技术』,但这个行为本身在科学上没有多少促进。就算迪拜这样的地方盖满了全世界最好的摩天大楼,也不会有人担心美国在建造大型建筑方面会失去竞争力。我相信学者和其他公司会很乐意在下游任务中使用这些大型语言模型,但我不认为它们会从根本上改变人工智能的进展。」

事实上,也曾认为,没有足够的计算能力来匹配OpenAI、DeepMind和其他资金充足的实验室的公司和机构很适合从事其他可能更重要的研究任务,比如研究模型大小和精度之间的相关性。事实上,他认为,这些实验室缺乏资源可能是件好事,因为这迫使他们深入思考为什么某些东西会起作用,并提出替代技术。

OpenAI成了一个反面教材,Bengio和LeCun都不看好AGI

长期以来,它一直断言,巨大的计算力配合强化学习,是通往AGI,或者说能够学习人类所能完成的任何任务的AI的必经之路。

但像图灵奖获得者Yoshua Bengio和Facebook副总裁、首席AI科学家Yann LeCun这样的知名人士认为,AGI是不可能创造出来的。这就是为什么他们主张采用自我监督学习和神经生物学启发的技术,如利用高级语义语言变量的自控学习和神经生物学启发的方法。

还有证据表明,效率的提高可能会抵消日益增长的计算需求。OpenAI自己的调查就显示,自2012年以来,在一个流行的基准(ImageNet)中,训练一个AI模型达到相同的图像分类性能所需的计算量每16个月就会减少2倍。

GPT-3的论文也暗示了人工智能中仅仅增加算力的局限性。虽然GPT-3可以轻松完成从生成句子到语言间翻译的任务,但在对抗性自然语言推理的测试中,让它负责发现句子之间的关系的时候,它的表现却没有比偶然性好得多,作者对此也有非常清醒的认知。

前Google Brain成员Denny Britz认为,一味地追求各个子领域的SOTA结果,正在变得越来越多的计算密集型,这对那些不在某个大实验室工作的研究人员来说并不是一件好事。因为有太多的混杂变量,SOTA通常没有任何意义,它最大的意义在于发论文,以及便于评审给出高分。

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • LeCun:30年前知道DeepFake,我还该不该开源CNN?

    讲真,要是当初知道卷积神经网络(CNN)会催生DeepFake,我们还要不要发表CNN?

    新智元
  • 深度解析OpenAI:马斯克打造精英军团,释放AI潜力

    【新智元导读】4月28日,OpenAI 对外发布了人工智能开发平台Gym,倡导开放AI研究和开发,该团队希望能借此改变人们对算法的固有认识。马斯克情怀满满的Op...

    新智元
  • 谷歌用“多巴胺”怼上OpenAI,开源TensorFlow强化学习框架

    最近 OpenAI 在 Dota 2 上的表现,让强化学习又大大地火了一把,但是 OpenAI 的强化学习训练环境 OpenAI Gym 却一直遭到不少抱怨,比...

    新智元
  • 基因在任意癌症表达量相关性

    第四单元第一讲:计算基因在任意癌症表达量相关性 课程链接在:http://jm.grazy.cn/index/mulitcourse/detail.html?c...

    生信技能树jimmy
  • nginx https域名无法访问,iP方式可以访问问题

    nginx https域名无法访问,iP方式可以访问问题,域名备案过,ssl dv认证,此问题突然出现,前面可以域名https访问很快

    用户1926532
  • minigui 3.2.0:直接访问framebuffer的方法及示例

    在做嵌入式应用程序开发时,有的场景下因为要追求图像显示效率,需要直接访问Frame Buffer,比如更流畅的视频显示。基于minigui框架的应用程序该如何访...

    用户1148648
  • 支付宝是如何用大数据憋死伪基站骗子?

    IT故事会
  • 支付宝用大数据憋死伪基站骗子

    广州用户黄XX,6月7日接到一条10086的短信(小偷通过伪基站发送的钓鱼短信),他点击了短信中的链接,依据指示先后输入了自己的身份证信息和银行卡信息,同时,手...

    华章科技
  • python koans: Trian

    这是一个with context manager,assertRaises现在在python3里面已经支持使用with了,所以运行顺序应该是建立assertRa...

    py3study
  • WPF 内部的5个窗口之 MediaContextNotificationWindow

    而 MediaContextNotificationWindow 是在 MediaContext 的构造函数创建的,用来提供给创建他的 MediaContext...

    林德熙

扫码关注云+社区

领取腾讯云代金券