首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

最新研究发现:模型越大不一定越好

自2020年6月发布GPT-3大型语言模型以来,OpenAI一直在对其进行调整和改进,去年12月增加了微调功能,使开发人员更容易为其企业应用程序创建GPT-3版本。现在,该小组的研究发现了一个他们可能没有预料到的有趣结果——他们刚刚发布了一个更小的新语言模型版本,在遵循用户意图方面比GPT-3做得更好。

OpenAI 1月27日的一篇博客文章称,最新版本的GPT模型包含13亿个参数,而GPT-3中有1750亿个参数,是前者的100多倍。

文中表示“这是通过我们的模型在自然语言处理评估中的表现来衡量。”

这些进步来自于最新版本能够自我调整以更好地遵循用户的指示。这些发现发表在一篇68页的研究论文《使用训练语言模型遵循人类反馈指示》中,该论文也于1月27日由OpenAI发布。

新训练的语言模型InstructGPT比GPT-3更好地遵循用户的意图,同时也使它们更真实、更无害,在循环中由人训练。现在已作为默认的语言模型部署在OpenAI的API上。

这些发现从本质上表明,InstructGPT在遵循英语指导方面比GPT-3更好,这是一个有趣的发现。相比之下,GPT-3模型并没有按照用户的指示进行训练,而是设计用于从数据存储执行语言建模。因此InstructGPT模型根据用户指令生成了更有帮助的输出。

由OpenAI API支持的GPT-3语言模型可以使用精心设计的文本提示来执行自然语言任务。但这些模型也可能产生不真实、有害或反映有害情绪的结果。这在一定程度上是因为GPT-3被训练成在互联网文本的大数据集上预测下一个单词,而不是安全地执行用户想要的语言任务。

OpenAI表示,这就是新的InstructGPT模型的作用,通过添加一种名为“从人类反馈中强化学习”(RLHF:Reinforcement Learning from Human Feedback)的技术,使模型更安全、更有用、更一致。新模型不太经常编造事实,并显示有毒物质产出略有下降。在人类参与的情况下,微调语言模型是提高安全性和可靠性的有力工具,OpenAI将继续朝着这个方向努力。这是OpenAI首次将其校准研究应用到其产品上。

这一发现对该项目意义重大。因为这是研发了数年的校准技术首次在现实世界中得到验证。它们非常有效,在某种程度上,校准模型使它们比训练100倍大的模型更有用,同时也使它们更真实、更安全。虽然这方面还有很多工作要做,但OpenAI预计这些方法将是调整人工智能向前发展的重要基石。

虽然InstructGPT现在是OpenAI API的默认模型,但之前的GPT-3模型将继续保持可访问性。

尽管结果令人鼓舞,这项工作仍在继续,以建立一个更好的语言模型。InstructGPT模型既不是完全一致的,也不是完全安全的。仍然会产生有毒或有偏见的内容,编造事实,并在没有明确提示的情况下产生性和暴力内容。事实上,如果他们被要求这么做,他们更有可能说出有害的语言。

为了防止这类问题,OpenAI在其API上设置了安全“护栏”,例如免费内容过滤器、费率和配额限制,以及允许OpenAI筛选滥用内容的监控系统。

GPT简史

2021年12月,GPT-3 API中增加了模型微调功能,这使得想要定制自己模型的开发人员可以更快更容易地使用语言模型。新功能允许开发人员仅使用OpenAI命令行工具中的一个命令就可以根据企业应用程序定制GPT-3版本。

2021年11月,OpenAI取消了在GPT -3上运行工作负载的等待列表,让开发者和企业可以立即使用其建模功能来解决最具挑战性的语言问题。

OpenAI在2020年6月首次发布了其强大的GPT-3自然语言模型,并提供了有限的beta测试功能和等待列表,开发人员可以在未来注册使用其基础设施和功能。

通用版本增加了防止GPT-3被用于伤害人类的条件,以及只允许在世界上某些国家使用它的条件。

GPT-3是一个大型的自然语言模型,只在微软Azure上运行。它是一个具有1750亿个参数的自回归语言模型,OpenAI声称这个参数比以前的任何非稀疏语言模型都要多10倍。

第一个版本GPT-1于2018年发布,第二个版本GPT-2于2019年发布。随着GPT-3在2020年的发布,自然语言处理在企业中获得了比以往任何时候都更强大的功能和用例。

到目前为止,GPT-3主要用于英语语言建模。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220130A02APQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券