首页
学习
活动
专区
圈层
工具
发布

10 分钟吃透!手把手教你用 nemoguardrails 玩转大模型安全测试全流程

一般来说,人的专注力通常只有十分钟。

话不多说,下面我们来进行具体的操作步骤讲解。

在开始之前,我们先介绍一下整体的流程,主要分为以下几个部分:

安装依赖;

定义 LLMRails;

输入审查测试;

输出审查测试;

主题审查测试(指定输出)。

代码的逻辑很清晰,而且注释也很明确,大家可以跟着操作,后续也可以将这些应用到自己的项目当中。

第一部分:安装依赖

这次是千集在 colab 上运行的,当然大家也可以在本地运行。不过需要注意的是,如果修改了模型,那么就要相应地修改配置文件中的 model 配置。

另外,在 colab 中运行时,需要配置你的 OpenAI key,具体的配置方法大家可以自行查找,这里千集就不详细展开了。在安装依赖时,我们要用到官方的 nemoguardrails,结合 llama_index,同时加载 pypdf 文档。具体的安装命令如下:

第二部分:定义 LLMRails

在这一部分,我们首先要定义配置文件。在上一篇内容中,我们已经把配置文件写好了,命名为 config。接下来,我们通过以下代码来进行操作:

然后,我们定义 rails.generate,这是护栏项目的关键配置,通过这个配置才能实现与大模型的交互。具体示例如下:

第三部分:输入审查部分

这部分操作相对简单。我们知道,用户发给大模型的对话内容可能存在一些恶意的攻击指令,那么大模型能否识别这些指令呢?

为了测试这一点,千集设置了一些简单的句子,来看看大模型是否能够有效防范。

这里需要注意的是,千集曾经把这些问题同时发送给国内的一些模型,发现部分模型无法有效防范。大家可以按照下面的代码一路执行下去,第一条指令是:

第四部分:输出审查测试

接下来我们直接进行输出审查测试,代码如下:

第五部分:主题审查测试(指定输出)

因为千集已经配置好了主题,所以在这里直接问一个与主题不相关的问题。运行代码后,我们得到的答复是:我无法预测超级碗或任何其他体育赛事的结果!具体代码如下:

好啦,以上就是本次的全部内容。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oda4-DOCwvwzXN6MfCKqL2Ig0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券