2023年年8月15日,由国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布的《生成式人工智能服务管理暂行办法》正式施行[2],为提供和使用生成式人工智能服务制定了明确的规范。在服务的全过程中,数据提供者被明确要求采取有效措施,以确保尊重知识产权、他人合法权益,并提高生成内容的准确性与可靠性。
学术界研究方向
学术界的研究主要针对AIGC生成内容的安全性和鲁棒性,通过对输出结果进行评测,研究人员就能自动化评估模型生成内容的安全性。常见的研究方向有两种:
工业界研究方向
此前,OWASP组织在提出了针对AIGC领域的Top 10安全性问题,对LLM的生成内容潜在的安全性问题做了具体的阐述。工业界对于确保LLM应用的安全性问题极为重视,通过具体的安全性问题归纳,有针对性地指引了关注焦点。这项研究为工业界提供了一个基本的安全性框架,以帮助企业更好地评估、理解和解决LLM生成内容的安全挑战。通过关注这些问题,社会各界能够更有针对性地提升其应对潜在风险的能力,促进LLM技术在具体落地应用中的内容安全性保障。
通过对社会各界在LLM输出内容安全性的研究方向进行分析,目前LLM输出内容安全性研究主要立足于以下两方面:针对自然语言的安全性问题和针对机器语言的安全性问题。
自然语言
对于自然语言可能产生的安全性问题,研究方向分类为情感、认知问题以及违法教唆问题。
两种类型的问题针对的监管领域不同,但都会造成严重的后果。因此,保证模型的生成内容能够遵守相关法律法规要求、尊重社会公德、公序良俗十分必要,模型提供者需要作出相关行为以保证模型生成内容的安全性。
机器语言
对于机器语言可能产生的安全性问题,我们将其分类为可执行的代码语句以及潜在的安全漏洞问题。
两类问题覆盖了直接与间接可能在模型生成内容中存在的问题,因此服务提供者在提供模型服务时应当明确并公开其服务的适用人群、场合、用途并采取适当措施防范用户过度依赖或者沉迷生成内容。
由绿盟科技独立开发的大模型安全评估系统NSFOCUS LSAS(以下简称LSAS)从两方面对模型输出内容进行安全性、合规性检测:
扫描器的检测包含自然语言与机器语言两种类型的潜在有害内容。LSAS就像模型的一道防火墙,能够在不安全的模型生成内容被用户看到之前对其进行检测,以便安全研究人员对模型的安全性进行修改优化。
在LSAS生成的模型安全性报告中,相应输出内容的安全性结果会被显示。报告可以显示在各种不同类型的攻击下模型的输出结果是否包含不安全的内容,如果输出的内容是安全的,那么报告会给出成功通过的返回。若模型生成了不安全的输出内容,LSAS会将相关的输出内容进行记录保存并呈现。
针对每个攻击的小类,LSAS会根据最终出现不安全内容的比例进行评分,并通过算法得到模型最终的安全性的分数结果,给模型的安全性提供参考。
大模型安全性扫描报告(部分)
LSAS输出内容安全性检测
绿盟科技针对不同LLM有不同的应用场景特性,在设计初期便使用了多种不同探针以使扫描器能够尽量覆盖更多的实际应用场景,检测LLM的输出内容安全性。通过模拟用户交互的方式,向待检测的目标LLM使用专用测试探针主动发起扫描测试和风险评估。
针对两种语言方式的输出内容安全性,检测器设计了多种安全性检测探针。
针对自然语言,有如下输出内容安全性探针:
越狱场景
雪球攻击原理
LSAS通过将恶意指令添加到用户输入中以劫持语言模型输出,诱导LLM输出指定的字符串或json。
目标劫持原理
针对机器语言,输出内容安全性探针侧重于对漏洞、恶意代码的检测:
模型风险评估
在实际应用检测场景中,绿盟科技LSAS针对现在的多款开源大模型进行了扫描检测,其中包含多个有关输出内容安全性的检测。其结果如下:
大模型输出安全性检测结果(自然语言类)
大模型输出安全性检测结果(中文探针)
大模型输出安全性检测结果(机器语言类)
LSAS使用探针中测试用例的通过率作为模型的分数指标,分数在0到1的区间内。扫描的结果显示,在自然语言环境下,针对现有的模型几乎都会存在输出安全问题。在有关jailbreak探针的测试中,所有的LLM都会在攻击者精心构造的越狱提示词环境下输出不符合安全策略的内容;从其他几项测试结果来看,LLM整体都能提供一定程度的安全性,但是不同的LLM会有不同的安全性风险,因此不同的LLM在后续开发和使用的时候应该侧重其薄弱环节,有针对性地进行安全性强化。
此外,不同于其他LLM扫描器,LSAS针对国内的LLM构造了专门的中文语料检测探针,以检测LLM在中文语境下的输出内容安全性,这些探针在命名中都以cn结尾。
从结果也可以看出,不同语境下模型的输出内容安全性可能有着很大的差异,因此,针对国内的LLM环境构造的中文语料探针是有效且必要的。
在针对机器语言的输出内容安全性扫描环境下,大部分LLM都会在提示词的诱导下输出不安全的代码内容或payload信息。其中,Encodings探针结果表明了多数LLM会存在着回答编码问题上的错误,使用LLM进行相应的编解码问题需要更高的安全性关注; malware探针的结果表明了多数LLM在训练开发的过程中没有对相应的网络安全相关内容进行预处理,这样的结果导致了目前LLM都会出现输出不同操作系统下漏洞文件的PoC与payload内容。LSAS的存在可以在一定程度上对LLM生成内容的安全性起到一定的检测效果。
由于LLM架构上的特点,它的每一次输出交互所产生的回答并不是固定的,因此目前的扫描器依然存在着难捕捉、难定位的风险。在未来,绿盟科技将进一步开发、优化并细化LSAS,引入更丰富、更全面的输出内容安全性检查方式,通过机器学习算法使模型安全性评分更客观、更可靠。
伴随AIGC技术与LLM产品的迅猛发展和广泛应用,LLM安全问题逐步凸显。安全性一直是LLM与其相关技术所需要持续关注和不断创新的重要领域,绿盟科技为生成式人工智能模型的应用环境提供综合的安全解决方案,有效应对模型输出内容中可能涉及的安全风险,为用户的LLM平台和应用提供可靠的安全保障。
参考目录
[1] 天枢实验室. M01N, 《LLM安全警报:五起真实案例,揭露大模型输出内容的安全隐患》, 2024.
[2] 国家网信办网站, 《生成式人工智能服务管理办法(征求意见稿)》, 2023
[3] Lapid R, Langberg R, Sipper M. Open sesame! universal black box jailbreaking of large language models[J]. ar**v preprint ar**v:2309.01446, 2023.
[4] Cao B, Cao Y, Lin L, et al. Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM[J]. ar**v preprint ar**v:2309.14348, 2023.
[5] Chen B, Paliwal A, Yan Q. Jailbreaker in Jail: Moving Target Defense for Large Language Models[J]. ar**v preprint ar**v:2310.02417, 2023.
[6] Helbling A, Phute M, Hull M, et al. Llm self defense: By self examination, llms know they are being tricked[J]. ar**v preprint ar**v:2308.07308, 2023.
[7] OWASP, “OWASP Top 10 for LLM”, 2023
[8] 天枢实验室. M01N Team, 《LLM强化防线:大模型敏感信息的泄露检测和风险评估》, 2023