前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >针对后门攻击的防御手段之Neural Cleanse

针对后门攻击的防御手段之Neural Cleanse

作者头像
Mezereon
发布2021-04-02 09:49:37
1.1K0
发布2021-04-02 09:49:37
举报
文章被收录于专栏:MyBlog

介绍

后门攻击是一类针对深度学习的攻击,其主要组成部分有两个:

  • 触发器
  • 带后门的模型

当模型接收到带有触发器的输入,便会导致对应的触发结果。

并且,一但没有触发器,模型的表现和正常的模型相似。

关于后门攻击更多的介绍,可以参考我的这篇文章

今天主要讲的是来自于2019年SP的一篇文章“Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks”

作者基于一个重要的假设:“带有后门的模型所对应的触发器,要比利用正常模型生成的‘触发器’要小得多”

如下图所示:

这个直觉的想法是整篇文章的精髓所在

顺着这个直觉,我们直接地可以想到,那只要我们对类别进行逆向,反向地构造出每个类别的触发器,看看这些触发器的大小,不就可以知道哪些类别可能被植入后门了。

如何反向构造可能的触发器

如何利用所构造的触发器进行后门检测

Anomaly Index

如上图所示,被植入后门的模型的异常指标都要正常模型要高。

L1范数

可以看到,对于被植入后门的模型,所逆向生成的触发器,L1范数是比较小的。

裁剪神经元,让后门失效!

文章发现了触发器通常会使得神经元的激活值偏高,这里取的是倒数第二层的神经元。

平均的激活值

逆向出来的触发器和真实的触发器,所导致的激活值都比正常图片要高,我们就可以通过移除较高值来让后门失效。

裁剪对于正确率和后门的影响

如上图所示,裁剪会令正常任务的正确率降低,同时使后门的成功率降低。可以看到裁剪比例达到0.2左右的时候已经可以使得后门完全失效,同时正确率降低的幅度也不多。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 如何反向构造可能的触发器
  • 如何利用所构造的触发器进行后门检测
  • 裁剪神经元,让后门失效!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档