业内首个大模型安全“测评智能体”“蚁天鉴”2.0，商业化怎么样了？

文章来源：企鹅号 - 商业秀

蚂蚁数科正不断推进AI产品的商业化进程，

赋能千行百业解决智能化领域的问题。

文｜杨肖若编｜张弘一

出品｜数智Tech

随着AI大模型和Agent智能体不断为人类带来最新智能体验，同时也带来了模型内部幻觉、安全漏洞和深度生成内容滥用等新的挑战。

为了应对这些挑战，打造AI大模型领域的安全铠甲，确保大模型技术在安全可靠的环境中发挥它的效能。7月5日，蚂蚁集团联合清华大学发布大模型安全一体化解决方案“蚁天鉴”2.0版。

相比1.0版本，“蚁天鉴”2.0新增AI鉴真功能，支持图像、视频等多模态内容真实性及深度伪造检测。并在测评功能上持续升级，打造了大模型安全测评“智能体”，新增大模型X光、大模型基础设施测评两大测评功能。

2023年7月，“蚁天鉴”首次对外发布，历时1年升级到2.0版。进入2024年，“蚁天鉴”的商业化迈出重要的一步，通过蚂蚁数科开始服务外部客户。

业内首个“测评智能体”

新增“AI鉴真”功能

“蚁天鉴”2.0版本有两大特色，一是在测评端，“蚁天鉴”2.0研发了业内首个“测评智能体”。该测评智能体提供全流程自动化的安全测评工具，支持各种形式模型和深度学习框架，可扩展测评垂类大模型、多模态大模型及Agent智能体，并能根据被测大模型的安全水位动态调整攻击策略和出具测试用例，保障测评效果和效率。

目前，“蚁天鉴”2.0有超300万高质量测评题库，支持最高50万/日的饱和式攻击和逐级诱导深度攻击，并实现了1工作日内完成测评，全流程自动化率大于99%。

同时，该智能体也增加了两项新功能。一是“大模型X-ray”。即大模型X光，可针对大模型的内在神经元进行X光扫描来做探查和判断，让研究人员了解大模型内部在发生什么、定位可能引发风险的神经元、并进行编辑修正，从而在模型内部治理幻觉，实现从源头识别和抑制风险。

二是“大模型基础设施测评”。此前蚁天鉴的测评能力主要集中于大模型生成的内容安全、合规风险等检测。蚁天鉴2.0从攻击者全链路视角出发，深入扫描模型算法组件及软件系统，可及时准确发现大模型供应链及运行环境安全问题，保障云到端的应用安全可控。

此外，“蚁天鉴”2.0防御端新增「AI鉴真」功能。支持多模态内容真实性及深度伪造检测，可快速精准鉴别图像、视频、音频、文本内容的真伪，图像识别准确率99.9%达到行业最高优秀级（信通院测评）。

目前，“蚁天鉴”2.0依托生成模型自建百万量级音视图多模态合成数据集，覆盖主流生成方案，有效应对AI换脸、声音模拟、证件伪造等各类深度伪造风险场景。

商业化进程如何？

值得注意的是，作为蚂蚁集团科技商业化的重要板块，蚂蚁数科自今年3月份独立化运营以来，悄然推进AItoB战略，SOFAStack、蚁盾等多个代表性产品均发布了大模型相关服务，积极借助AI技术助力产业智能化升级。

也就是说，蚂蚁数科正在不断推进AI产品的商业化进程，赋能千行百业解决智能化领域问题。

以“蚁天鉴”为例，其检测与防御产品已开放给20家外部机构和企业使用，为通用大模型及医疗、金融、政务等垂直领域行业大模型应用安全保驾护航。

比如，上海市第一人民医院引用了“蚁天鉴”，有效应对医疗领域大模型应用中的信息安全与隐私保护、双向内容风险防控等挑战。

蚂蚁AI金融助理“支小宝”结合蚁天鉴，通过大模型训练与推理风险管控、大模型风险点全方位评测、大模型用户交互风险管控等举措保障大模型应用安全，确保数据的准确性和金融逻辑的严格性。

蚁天鉴2.0大模型安全一体化解决方案全景图

蚂蚁集团是国内较早布局大模型安全的厂商。自“蚁天鉴”去年7月首次对外发布以来，1.0版本即被评为2023年世界人工智能大会“镇馆之宝”。历时1年，升级到2.0版，“蚁天鉴”2.0构建了双重防御护栏，内置防护关注训练阶段的数据清洗和风险抑制；外置护栏融合智能风控技术，精准拦截输入和输出的风险内容，保障其应用安全。

发表于: 2024-07-052024-07-05 19:18:18
原文链接：https://page.om.qq.com/page/Olr8MVfW7TJJLgc9WD9dgI2Q0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

业内首个大模型安全“测评智能体”“蚁天鉴”2.0，商业化怎么样了？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐