前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NVIDIA SteerLM :为AI定制模型响应的全新方式

NVIDIA SteerLM :为AI定制模型响应的全新方式

作者头像
GPUS Lady
发布2023-10-24 14:10:55
3350
发布2023-10-24 14:10:55
举报
文章被收录于专栏:GPUS开发者

国庆节刚过,NVIDIA悄悄发布一个开源软件SteerLM。

在令人兴奋的人工智能领域,像GPT-3、Megatron-Turing、Chinchilla、PaLM-2、Falcon和Llama 2等大型语言模型(LLM)以其出色的文本生成能力而备受关注。它们为自然语言生成带来了显著的进展,但它们仍然难以提供我们想要的精准结果。它们有时会像才华横溢的音乐家一样,不时弹奏错误的音符。那么,我们如何对这些模型进行微调,以使它们按照我们的意愿运行呢?这就是NVIDIA研究团队最新创新SteerLM的出现,它承诺让AI文本生成更加有趣和个性化。

语言模型革命

在深入了解SteerLM的奇妙之前,让我们先了解一下背景。大型语言模型(LLMs)通过吸收大量来自互联网的文本而学习。它们获得了语言的超能力和对世界的广泛知识。这使它们能够执行诸如语言翻译、回答问题甚至生成创意文本等任务。但问题是,当涉及按照您的具体指示操作时,它们有时会偏离目标。想象一下,当您要求厨师制作一份无麸质的比萨时,他们却送上了一份普通的比萨。令人沮丧,对吧?这就是我们需要介入并向LLMs传授一些经验的地方。

当前方法

有一些方法可以教这些语言模型,例如受监督的微调(SFT)和来自人类反馈的强化学习(RLHF)。SFT有助于扩展它们的功能,但可能使它们的回应听起来简洁而机械化。另一方面,RLHF就像给它们配了个私人导师,但它非常复杂,不太用户友好。

介绍SteerLM:我们需要的英雄

现在,我们来介绍我们故事的主角-SteerLM!这是由NVIDIA研究团队开发的,它承诺在简化过程的同时让您更多地控制其回应。可以将其视为一种神奇的工具,使您可以轻松引导语言模型。

SteerLM的工作原理:四个步骤

SteerLM分为四个神奇的步骤:

  1. 属性预测:想象它是一个质量控制检查员。它学会了根据属性(如帮助性、幽默和创意)来评估文本质量。
  2. 多样性注释:现在,我们有一支AI检查员的队伍,他们使用他们在第一步中学到的知识来评估不同的文本。这使得我们的模型更加多才多艺。
  3. 有条件的回应:这一步就是魔法发生的地方。我们训练LLM生成与您想要的属性相匹配的文本,比如帮助性或幽默。
  4. 反馈的微调:就像音乐家练习以提高一样,我们的LLM会生成各种回应,同时追求最高的质量。然后这些回应会被评估,从而进行更多的微调。

为什么SteerLM是一个改变游戏规则的工具

SteerLM的美妙之处在于它的简单性。与RLHF不同,它依赖于标准语言模型目标。它允许您在推断时自定义模型,这意味着您可以告诉它您想要什么,它会按照您的意愿进行操作。与其他技术不同,其他技术要求您使用预先确定的偏好,这是一股清新的风。

让我们看一个SteerLM的应用案例:

SteerLM的超能力

SteerLM打开了不同应用领域的可能性:

1. 游戏: 是否曾经希望游戏中的角色能更机智一些?有了SteerLM,您可以定制它们的对话,使您的游戏体验更加身临其境和娱乐。

2. 教育: 针对所有的学生,告别了单调和不实用的AI回应。SteerLM确保AI保持友好和富有信息性的形象,以协助您的查询。

3. 企业: 想象一下为组织中的多个团队提供个性化的AI能力。SteerLM使这成为可能,简化任务并增强全面的生产力。

4. 可访问性: 控制敏感属性对于遏制不希望的模型偏见至关重要。SteerLM让您有能力确保AI的行为符合您的价值观,促进公平和包容性。

这种灵活性意味着下一代AI系统将变成个人助手,理解和响应您的特定偏好。您与AI的互动将变得更加自然和根据您的需求进行定制。

民主化AI定制

让SteerLM更令人兴奋的是其用户友好的方法。与其他需要专门基础设施的高级定制技术不同,SteerLM保持简单。它证明了您不需要复杂的强化学习来微调AI指令。

SteerLM利用标准技术,如受监督微调(SFT),简化整个流程。它对现有基础设施和代码进行最少的更改,使定制更加容易让开发人员实现。您只需要进行少量的超参数优化,就可以取得卓越的结果。

实际上,在实验中,SteerLM 43B被证明是一个改变游戏规则的工具,超越了复杂的RLHF模型,如LLaMA 30B RLHF。它在Vicuna自动评估中获得了平均分数655.75,使Guanaco 65B和LLaMA 30B RLHF相形见绌。这些结果凸显了SteerLM的简单培训流程可以提供与更复杂技术相匹敌的定制AI模型的准确性。

总之,SteerLM是一个改变游戏规则的工具,简化了AI定制,并使其更容易让开发人员实现。借助这种创新方法,个性化AI系统的梦想比以往更近了。

为了提供全面的企业安全性和支持,SteerLM将集成到NVIDIA NeMo中,这是一个用于构建、定制和部署大型生成式AI模型的丰富框架。SteerLM方法适用于NeMo支持的所有模型,包括社区构建的热门预训练LLMs,如Llama 2、Falcon LLM和MPT。NVIDIA希望通过这种方式将催生更多研究,开发能赋予用户权力而不是限制他们的模型。AI的未来可以通过SteerLM进行引导。

关于SteerLM论文:https://arxiv.org/pdf/2310.05344.pdf 如何使用SteerLM定制的Llama-2-13b模型:

https://huggingface.co/nvidia/SteerLM-llama2-13B?mkt_tok=MTU2LU9GTi03NDIAAAGOwfy33eGcEv4-ZbMvTiwXkUlN9s8515pHjoPIhyqXch5Dtf9aFr8vYuJqViETh1qJ7LKnk9KSmOyRKdxM7cXrvyo0pevFqt0Y6jtocrL61m0XizeK-Q

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档