蚂蚁集团王维强：以 AI 对抗 AI，大模型安全既要“快”也要“慢”

文章来源：企鹅号 - 支付宝

大模型的出现为 AI 行业带来冲击，既涌现出无限创造力与想象力，或许也会带来不可控、滥用的种种风险，如何统筹大模型的发展和安全，已引发行业内外的广泛关注。

12 月 19 日，南方都市报、南都大数据研究院联合琶洲实验室、光明实验室在广州举办“势起 AI 智启新界”大模型创新应用与安全治理大会，中国工程院院士邬贺铨，欧洲科学院院士、琶洲实验室副主任陈俊龙等专家大咖，以及来自多家高校、科研机构、行业企业的代表齐聚，围绕人工智能大模型技术、治理和应用等话题展开分享和研讨。会上，蚂蚁集团安全实验室首席科学家、可信 AI 负责人王维强围绕“大模型安全的紧迫性和实践”发表主旨演讲。

他表示，大模型安全既要“快”也要“慢”，大模型安全防御方面要“快”，要能快速检测、查杀病毒，确保服务无毒害；在大模型安全可信方面要“慢”，要能长远地、体系化地保证整个系统环境的可控、可信。

以下是他的演讲全文：

大家好！非常高兴能够来此与大家一起探讨大模型的改革以及带来的问题。

从 AlphaGo 到大模型的出现，模型的不断升级，给整个 AI 行业带来非常大的冲击。从一个安全从业人员角度来看，我们也看到了不少的问题和挑战。这些问题包含了 AI 幻觉、数据泄露、结果不可控、安全以及歧视、偏见等等。大模型的能力在提升，它的使用门槛却大幅度下降，越来越多的非 AI 专业人员也可以比较容易的接触和应用到大模型，可能会带来一些滥用的问题，这相当于在数字网络世界中打开了一个魔盒。这个魔盒打开之后，会带来更加隐蔽、破坏性更强的风险。

对于平台来说，新的 AI 时代，带来了新的平台责任。

在过去的传统内容风险防控中，一个用户在平台上发表一些他自己著作的内容，涉及内容风险防控、隐私保护、谣言防扩散等问题，责任主体更多是用户和发布平台。在当下和未来的 AIGC 内容风险防控中，责任主体是大模型厂商和互联网服务平台，在内容安全风险防控、模型隐私泄露防控、伦理和价值观向善、AI 技术生成标识等方面都面临着新的安全挑战问题。尤其是应用大模型提供新型 AI 服务的互联网平台，集成了 AI 服务的生成方，内容生成方，自身又是内容管理平台，兼具了更多的责任。平台和大模型厂商有责任引导 AI 向善、安全、不作恶。

大模型的风险从何而来？首先我们要了解大模型安全的本源来自哪里。其实，大模型整体结构并不复杂，它就是一个序列生成模式，通过输入指令加文本，输出它想要生成的内容。但它的底座有一个大的预训练模型，这个模型的参数常常是达到 10 亿、100 亿、1000 亿，甚至可能更大，在实际应用时会通过领域微调满足行业需要。那么，风险就会出现在这一过程的各个环节，进而影响到最后生成的结果。

一个可能的路径便是存在于预训练的大规模数据中。如果数据本身“有毒”，带有不良伦理价值观、存在偏见和歧视，其中存在商业机密、版权等隐私问题，或有谣言虚假信息等质量问题，那么大模型输出的内容就存在安全问题。

另一个渠道是行业领域微调的过程，这其中会涉及到一些标注，这些标注也可能涉及诱导错误的人类对齐、错误价值导向的恶意标注，不可靠的低质量标注和缺少多样性的固化标准，这些标注也会给大模型带来问题。

同时，大模型的生成过程本身就是一个概率问题，它存在着不可控问题，容易生成幻觉。它的参数又非常大，存在着不可解释性。大模型使用门槛的降低也带来一些挑战，即便是训练很好的大模型，也经不住恶意的攻击和滥用。

蚂蚁集团对于智能化技术的投入比较早，在可信 AI 方面做了很多积累。蚂蚁集团从 2015 年就开启了可信 AI 技术的探索和实践；2021 年提出了可信 AI 技术架构的同时，就开始通过 WAIC 世界人工智能大会、外滩大会等很多场合，积极与行业伙伴沟通交流，达成了“可信 AI 是人工智能安全的解决方案”的共识。当时大家提出的可信 AI，主要包含隐私保护、可解释性、鲁棒性、公平性四个方面。大模型涌现后，可信 AI 面临的不只是传统的 AI 技术，更是大模型 AI，我们要解决的问题也变成了大模型的可靠、可控、合规、向善。最终变成一个核心议题，便是“如何解决超大规模数据中知识生成式学习范式下的安全、可控、可靠”。

结合大模型生产过程，我们认为保障大模型安全性主要有三个关键环节：一是从训练数据源头消毒。二是做护栏加固防止推理过程黑盒的不可控问题；三是面对外部诱导的对抗攻击，做一些对抗攻击的测试和防范。

首先，大模型数据其实去毒和不去毒，本身并不是 0 和 1 的问题，主要是要可控，世界的暗面也是世界的一面。在研究大模型研发过程中我们做了很多尝试，如果完全没有任何负面数据，训练出来的大模型可能就会成为一个“傻白甜”，碰到有挑战的安全问题，就很容易掉到陷阱里面，但如果“加毒”加得特别多，大模型就会变成黑模型，所以还得把“消毒”和“加毒”很好地融合起来。为此，我们做了一套消毒技术方案，初步实现每天 100 亿的风险初筛、亿级精细化标注的能力。消毒之后，裸模型的风险率下降比较大。

其次，在解决大模型生成可控问题上，我们从四个方面进行了初步探索。一是通过 SFT、RLHF/RRHF、RLAIF 等技术和高质量标注做人类对齐；二是图像方面做了风险抑制，进行可控调试，让大模型生成的图像具备正向的价值观。同时，大模型外挂千万级安全知识库生成和检索，生产有效率达到 60%。此外，还会对疑难风险内容进行补充，通过多模信号的感知和风险认知的增强，提升模型的风险认知能力，

然而，不管是做了消毒、可控，实际上大模型作为一个概率模型，在应用过程中难免会碰到各种误导、诱导、攻击等问题。为此，我们还在大模型外部加了一层护栏，通过对用户提问的理解做多层防御决策，实现灵活性，它主要是结合前面提到的安全知识库、风险问答等模块，对输出文案做判断，来确保生成的内容是可靠可控的。

这一整套防御体系，形成了蚂蚁的一个产品——大模型风险防御平台“天鉴”，它基于智能风控技术，通过围栏防御、极速防御以及情景式防御等多层护栏方案，可以实现内容安全、数据隐私、科技伦理、合规风险等四大类风险的识别和拦截，不仅能帮助大模型挡住恶意提问，同时对生成的回答内容进行风险过滤，从而保障大模型上线后从用户输入到生成输出的整体安全防御。

前面讲到的是防御，蚂蚁其实很早就开始了 AI 模型的安全检测和判别工作。今年，蚂蚁集团在研究大模型技术过程中，也对 AI 安全检测平台做了升级，正式发布了大模型安全检测平台“蚁鉴 2.0”。它是全球首发多类型工业级可信 AI 检测平台，可以在每天生成数十万工业检测样本，通过诱导式对抗生成技术，持续不断攻击和训练模型，在模型上线前对其进行全方位的安全扫描，提前识别和挖掘风险漏洞。

此外，蚂蚁也在建设深度伪造数据生成和检测能力，包括图文、音视频等多种模态，结合行业各种生成式算法和模型数据，融合空间域和平行域的特征做层级分类，能够识别这个图象究竟是 AI 生成还是真实的。目前，蚂蚁建造了千万级深度伪造数据，沉淀不同生产方式、不同生成方式、不同风格、不同生成模型、不同扩散模型的 AIGC 生成能力。这种能力，可以帮助我们在图象、文本、音频、视频鉴别方面做出比较强的解释判别。

这些技术方案集成，也就形成了被称为“蚁天鉴”的大模型安全一体化解决方案。目前，蚁鉴、天鉴这两大产品都已经对外开放。

总结一下，这里借用了思考的“快”与“慢”的说法。大模型其实是一个非常强的技术，但在应用过程中经常遇到一些非常有挑战的问题，作为平台我们有责任在第一时间就把风险遏制住，用去毒、护栏、检测，快速响应，做好安全防御。同时，大模型也是一个非常复杂的命题，伦理、数据、训练等领域的复杂度都是前所未有的。想要实现安全可控绝不是当前的技术手段就能完全实现的，它的建设是一个非常长的过程。

蚂蚁集团一直在持续推进可信 AI，但在大模型安全系统建设上也只是刚刚起步，仍有很多问题待研究解决，仍要花很多时间和行业共建。我们相信可信 AI 是数字时代抵御防控的核心能力，希望能够和社会共治 AI 风险，一起努力！

发表于: 2023-12-272023-12-27 12:02:56
原文链接：https://page.om.qq.com/page/OCMG14Dvo1NZlOK8zy8rq72w0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

蚂蚁集团王维强：以 AI 对抗 AI，大模型安全既要“快”也要“慢”

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐