在大型语言模型(LLM)迅速发展并在全球范围内部署的今天,一个关键问题却常被忽视:这些模型在不同语言中的安全性是否一致?布朗大学的钟正鑫(Zheng-Xin Yong)和Cohere实验室的Julia Kreutzer等研究者在2025年5月发表的论文《多语言LLM安全研究的现状:从测量语言鸿沟到缓解它》中,对这一问题进行了全面调查。这篇发表在arXiv(arXiv:2505.24119v1)上的研究通过系统分析近300篇从2020年到2024年发表的论文,揭示了LLM安全研究中存在的明显"语言鸿沟"。
想象一下,如果你建造了一座桥梁,但只在英语国家测试了它的安全性,然后就将它部署到全世界各种不同地形的国家——这听起来不太合理,对吧?但这正是当前LLM安全研究面临的现状。研究团队发现,即使是像中文这样的高资源语言,其相关安全研究的数量也只有英语研究的十分之一。这种不平衡随着时间推移反而在加剧,从2020年5篇的差距扩大到2024年83篇的差距。
为什么这很重要?因为语言不仅仅是词汇和语法的不同,还蕴含着丰富的文化内涵、隐喻表达、禁忌话题和社会规范。在一种文化背景下无害的内容,在另一种文化中可能极具冒犯性。例如,在东南亚,"香蕉"一词(意为"外黄内白")被用来贬低那些被认为放弃了文化认同并接受西方文化价值观的亚裔。而在中文中,"屌"字直译为"阴茎",既可用作冒犯性的脏话,也可用作赞美他人才能的非冒犯性表达。
这项研究不仅揭示了语言多样性的缺失,还发现非英语语言通常只是作为多语言评估的一部分被研究,而非针对其独特文化背景进行深入专门分析。更令人担忧的是,许多商业LLM在非英语提示下展现出明显较弱的安全表现,产生了在英语环境中会被过滤的有害内容。研究者们提出了三个具体方向来推进多语言安全研究:开发文化敏感的评估基准、创建多样化的多语言安全训练数据,以及深入理解跨语言安全泛化的挑战。
让我们深入了解这项研究的发现及其对构建更安全、更包容的人工智能的启示。
一、研究方法:剖析安全研究的语言鸿沟
研究团队采用了一种系统化的方法来评估LLM安全研究中的语言差距。他们选择专注于ACL(计算语言学协会)等主要自然语言处理会议和研讨会的论文,因为这些场所相比其他机器学习会议如ICLR、NeurIPS和ICML,包含了更多语言多样性的NLP研究。
研究者使用关键词匹配方法,通过"safe"和"safety"等关键词筛选出安全相关的论文。随后,他们手动将这些论文分类为七个不同的安全子主题:1)绕过安全机制的攻击和防御,2)毒性和偏见研究,3)事实性和幻觉问题,4)AI隐私问题,5)政策和治理框架,6)LLM对齐,以及7)与安全无关的工作(这类被排除在分析之外)。
为了确保分析质量,研究团队还记录了每篇论文研究的语言,并注明这些语言是否在论文中被明确提及。这些论文被分为三类:仅英语、仅非英语单语言,以及多语言(涵盖两种或更多语言)。
想象一下,这个过程就像是在图书馆中整理书籍——研究者们不仅要看书的标题,还要翻阅内容,确认每本书讨论的是哪些语言,并仔细核对这些语言是否被明确标注在书中。为了确保这个"图书分类"过程的可靠性,研究团队进行了多人标注一致性检验,结果显示他们的分类方法具有很高的一致性(平均0.80至0.96的Cohen's κ或Jaccard相似度)。
在近300篇从2020年到2024年的论文中,研究团队发现约28%的论文与LLM安全无关(即关键词匹配的假阳性),这些论文在进一步分析前被过滤掉。这就像是在挖掘宝藏时,需要先去除表层的砂石,才能找到真正有价值的金矿。
二、主要发现:安全研究中的英语中心主义
研究团队的分析揭示了LLM安全研究中明显的英语中心主义现象,这种现象不仅存在,而且随着时间推移正在加剧。
想象一下一个蛋糕店,每天都有各种口味的蛋糕生产出来。但如果我们仔细观察,会发现香草口味(代表英语)的蛋糕占据了绝大多数的货架空间,而巧克力口味(代表中文)的蛋糕数量还不到香草口味的十分之一,其他各种独特口味的蛋糕(代表其他语言)则只能挤在角落里的一小块区域。更令人担忧的是,随着时间推移,香草蛋糕与其他口味蛋糕的比例失衡不仅没有改善,反而在扩大。
具体来看,2020年,英语安全研究比非英语和多语言研究多5篇;到2024年,这一差距扩大到83篇。虽然两类研究都在增长,但增长不成比例地集中在英语研究上。这就像是蛋糕店不断扩大,但新增的货架空间主要用来摆放更多的香草蛋糕,而非增加其他口味的多样性。
更值得注意的是,非英语语言通常是作为"群体"被研究的。想象一下,在研究不同种类的树木时,橡树(代表英语)每一棵都得到单独、详细的研究,而其他种类的树木(代表非英语语言)则被简单地归为"非橡树"组,甚至高大的松树(代表中文)也很少得到单独关注。研究显示,英语研究的频率近乎中文(第二常研究语言)的十倍,而中文、阿拉伯语和西班牙语等语言主要出现在多语言研究中,很少有针对这些语言特定安全问题的深入分析。
这种"成群研究"的现象在资源较少的语言中更为明显。例如,斯瓦希里语和泰卢固语等语言几乎只出现在大型多语言评估中,而南非语等语言则只在一篇覆盖约30种语言的论文中出现过。这种包含方式严重限制了对语言特定安全问题的分析深度和获取有意义的见解的可能性。
三、安全子主题的语言分布:鸿沟无处不在
研究团队进一步分析了不同安全子主题中的语言分布,发现英语中心主义在所有领域都普遍存在。
想象一座有多个房间的房子,每个房间代表一个安全研究子领域。无论你走进哪个房间,都会发现英语研究占据了大部分空间,非英语和多语言研究则挤在角落。特别是在LLM对齐和绕过安全机制攻击的房间,这种不平衡尤为明显。
在LLM对齐领域,包括评估和算法改进的工作,英语研究远远超过多语言研究。这就像是设计一个全球通用的安全系统,但只在一个国家进行了全面测试。毒性和偏见研究也呈现类似模式,尽管这个领域理应特别关注文化和语言变异的影响。
隐私和政策领域的多语言工作几乎完全缺失,这表明这些新兴安全问题几乎完全通过英语视角概念化,可能忽视了不同语言环境中存在的重要文化和法律差异。这就像是制定一部适用于全球的法律,但只考虑了一个国家的法律传统和文化背景。
研究还发现,单语非英语安全论文在研讨会中的比例相对较高(比英语论文高46%),这表明非英语安全研究在进入顶级会议方面可能面临更高的障碍。研讨会如性别偏见自然语言处理研讨会(GeBNLP)和对话AI安全研讨会(Safety4ConvAI)等成为传播非英语安全研究的更容易接触的场所。这种现象表明,除了整体的英语中心主义外,还有其他结构因素可能影响着非英语安全工作的评估和传播方式。
四、语言记录实践:透明度差异明显
研究团队还分析了安全研究中的语言记录实践,发现仅英语研究与非英语或多语言研究之间存在显著差异。
想象你在阅读食谱书,有些食谱明确列出了所有原料和适用的烹饪方法,而其他食谱则假设你已经知道需要什么原料,因此省略了这些细节。在LLM安全研究中,英语论文往往就像那些省略关键信息的食谱——约50.6%的英语安全研究没有明确说明研究的语言(即论文中没有提到"英语")。相比之下,所有非英语单语和多语言出版物都100%明确记录了所研究的语言。
这种差异凸显了研究报告实践中的系统性偏见,英语为中心的研究往往假设普遍性,而非英语研究则展现出更高的方法透明度。清晰记录研究语言至关重要,因为安全对齐并不一定能跨语言泛化,明确说明所研究语言能让未来研究者了解安全发现已被验证的特定语言环境。此外,通过明确承认语言限制,研究领域可以更准确地衡量在扩大安全覆盖范围方面的进展,从而鼓励更公平地分配安全研究,以服务更广泛的全球人口。
五、多语言安全研究的未来方向
在深入分析当前LLM安全研究中的语言鸿沟后,研究团队提出了三个具体的未来研究方向,以推进多语言安全研究。
### 多语言模型的安全评估
首先,研究者们指出,传统评估指标通常关注语言间的平均表现,将最大化均匀加权平均值的模型视为最佳。然而,这种标准容易受离群值影响,且不适合比较语言和任务支持不同的模型。
想象你在评估一系列多国料理厨师的表现。如果只看平均分数,一位在法国菜上表现出色但在泰国菜上完全失败的厨师可能获得与各种菜系都表现中等的厨师相似的平均分。但显然,在实际选择时,你可能更倾向于那位各种菜系都能保持基本水准的厨师,而非在某些菜系上完全不及格的人。
研究团队建议,除了报告平均安全分数外,还应报告最差情况下的表现,以确保模型在所有语言中都满足基本安全阈值。例如,他们分析了一项评估多种LLM在10种语言中的无害性的研究,发现虽然Vicuna模型的平均无害性分数相当高(69.32),但其在孟加拉语中的最低分仅为18.4,远低于ChatGPT(62.6)和PaLM-2(70.1)的最低分。仅依赖平均指标可能会创造虚假的安全感,导致像Vicuna这样的模型在它们产生有害内容的语言环境中部署。
此外,研究者们还呼吁在评估中纳入更广泛的语言覆盖范围。当前的多语言红队测试(寻找模型安全漏洞的过程)主要集中在模型在后预训练过程(如指令跟随和对齐微调)中微调的语言上。考虑到预训练中的语言污染可能促进跨语言迁移,这引发了对是否应该在多语言LLM的安全评估中豁免某些语言的担忧。
最后,研究者们强调,评估多语言安全需要从根本上转变思路,不能仅仅将评估视为向现有基准添加更多语言,而应该纳入真实使用者使用的语言模式。例如,代码切换(在单一话语中在语言间切换的交流模式)和阿拉伯语的拉丁化(Arabizi,使用英文字符书写阿拉伯语)等现象已被证明能绕过多语言安全防护机制。当前主要在单语环境中评估语言的安全框架无法捕捉多语言交流的复杂现实。
### 文化语境化的合成训练数据
收集LLM安全对齐的标记训练数据可能资源密集,许多以英语为中心的研究已转向使用合成数据生成。然而,多语言合成安全数据的探索相对不足。研究者们提出了两个基于宪法AI框架的可行未来研究方向。
宪法AI框架是什么?想象一个学生(LLM)先被要求写一篇文章(生成内容),然后老师(人类)给出一系列准则(宪法原则),让学生根据这些准则修改原文。通过多轮批评和修改,学生学会了按照准则生成更好的内容。这个过程可以创建成对的样本(原始有害/无害内容和修改后的无害/有害内容),用于对齐训练。
第一种方法是直接使用LLM生成多语言安全数据。想象你需要教一个全球厨师团队(LLM)烹饪各国安全食品。你需要与语言学家、文化人类学家和AI研究者合作,创建三个关键组件:反映不同社会价值体系的文化敏感宪法原则、足够强大能理解这些原则并生成目标语言高质量内容的多语言LLM,以及涉及母语使用者和文化专家的评估协议,以验证宪法原则和生成的合成数据。
第二种方法是利用机器翻译。但研究者们指出,机器翻译常常无法捕捉或保留文化特定的有害内容,可能引入不良社会偏见如性别刻板印象。宪法AI框架的迭代改进过程可以检测和减轻可能无意中编码有害内容或失去重要文化细微差别的翻译问题。
### 理解跨语言安全泛化
最后,研究者们强调,理解安全对齐如何跨语言泛化至关重要,特别是当大多数现有安全对齐数据集中在英语或中文时。
他们提出了两种研究方向:机制可解释性和训练数据影响分析。机制可解释性,即对神经网络进行逆向工程以精确理解它们如何处理信息,可以帮助研究者们表征能够启用或阻止安全对齐知识迁移的机制。这种方法特别有助于解释为什么去毒化和消除偏见可以有效地跨语言迁移,而拒绝训练则不行;或者安全对齐在语言适应到资源较少的语言后保留到什么程度。
另一种方法是训练数据影响分析,利用影响函数追踪特定训练示例如何因果影响模型在生成过程中的行为。这种技术为研究两个关键开放问题提供了有价值的补充:对于跨语言泛化,它可以帮助量化安全相关示例(尤其是来自高资源语言与低资源语言的示例)如何贡献于有害或已对齐的输出;对于语言适应,影响函数可以识别持续预训练语料库中的问题文档,从而实现更有针对性地策划更安全的语言特定数据。
六、结论与建议
总结这项深入研究,我们看到LLM安全研究中存在显著且不断扩大的语言鸿沟。就像一座桥梁,如果只在一端进行安全检查,那么整座桥的安全性就无法得到保证。同样,如果我们只关注英语环境下的AI安全,那么全球部署的AI系统将在非英语语言环境中面临未知的安全风险。
研究团队为推动多语言安全研究提出了几点重要建议:
首先,他们建议将语言覆盖报告整合到ACL会议投稿中。OpenReview投稿已经包含作者可以指明所研究语言的元数据字段,但这些信息目前是私密的。公开这些元数据将允许更透明地跟踪语言表示,并支持未来对多语言研究的元分析,特别是在LLM安全背景下。
其次,解决语言和主题表示中更深层次的结构不平衡需要长期努力。研究者们认为,会议和研讨会组织者可以提供激励结构来解决这种系统性不平衡,例如专门针对多语言安全子主题的特殊会议主题轨道和/或创建关于多语言安全基准的共享研讨会任务。这些举措可以有意义地扩大英语以外研究的范围和可见度,帮助社区更好地服务多样化的用户群体。
最后,研究者们提出了三个具体的研究方向,包括改进多语言模型的安全评估方法、开发文化语境化的合成训练数据,以及深入理解跨语言安全泛化的机制。这些方向为构建更安全、更包容的全球AI系统提供了路径。
这项研究提醒我们,随着AI技术继续改变世界,确保它们在所有语言和文化背景中都安全运行变得越来越重要。语言多样性不应该成为安全的盲点,而应该是AI安全研究的核心考虑因素。只有这样,我们才能构建真正为全球多样化人口服务的AI系统。
对于有兴趣深入了解这项研究的读者,可以通过arXiv:2505.24119v1访问完整论文。
领取专属 10元无门槛券
私享最新 技术干货