clean-label backdoor attacks 论文笔记

这篇具有很好参考价值的文章主要介绍了clean-label backdoor attacks 论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

#论文笔记#

1. 论文信息

论文名称 Clean-Label Backdoor Attacks
作者 Alexander Turner(MIT)
会议/出版社 ICLR 2019
pdf 本地pdf 在线pdf
代码
trojanzoo-clean-label**** Label-Consistent
其他 这篇文章和 Label-Consistent Backdoor Attacks 基本相同

简介:这篇文章是最早做干净标签下的后门攻击的文章。作者在 BadNets 上进行了一系列的实验证明在以往的方法中直接使用 clean-label 会导致攻击的失败。为了实现在 clean-label 下的攻击,作者使用了 GAN-based interpolation 和 adversarial p-bounded perturbations 来增加分类器的训练难度,让分类器学习到更多 backdoor 的信息。

2. introduction

以往的后门攻击方法是在数据上加入 backdoor trigger,并且更改该数据的标签。这种做法存在的问题是,通过人工检查可以轻易识别出异常的标签。所以本文提出了一种无需改变加毒数据集即可实现后门攻击的方法,称之为 clean-label attack。

因为是进行 target attack,最简单的想法就是在 target 类中加入 backdoor trigger。但是作者目标类中加入 badnet 的 backdoor trigger 进行实验。发现这种进攻是无效的。

clean-label backdoor attacks,AI安全,论文阅读

  • 由上图可以看出,当 Posion rate 达到 25% 时也只有 50% 的攻击成功率
  • 本文选择的 trigger 是来源于 badnet 的攻击方法

这是因为模型在学习时,只有一小部分图像存在 trigger ,并且模型更倾向于学习图片中的自然特征,所以 trigger 很容易被忽略。无法与 target label 建立起强的关联。

这篇文章为了解决这个问题,提了要让模型学习目标类的特征更加困难,使得模型学习目标类时更加依赖于 trigger,使得 trigger 更容易与 target label 关联。

文章提出了两种方法,第一种是基于 GAN 的方法,一种是基于 Adversarial examples 的方法

3. method

方法一:Latent space interpolation using GANs

通过生成模型去生成一些带有噪声目标类的样本,增大目标类的学习难度。

首先在训练集上训练一个生成器,生成模型可以学习到样本分布的 latent space

选取目标类 x 1 x_1 x1 , 非目标类 x 2 x_2 x2,通过插值的方法生成带有噪声的目标类图片

I G ( x 1 , x 2 , τ ) = G ( τ z 1 + ( 1 − τ ) z 2 ) , I_{G}\left(x_{1}, x_{2}, \tau\right)=G\left(\tau z_{1}+(1-\tau) z_{2}\right), \quad IG(x1,x2,τ)=G(τz1+(1τ)z2), where z 1 = E G ( x 1 ) , z 2 = E G ( x 2 ) z_{1}=E_{G}\left(x_{1}\right), z_{2}=E_{G}\left(x_{2}\right) z1=EG(x1),z2=EG(x2).

clean-label backdoor attacks,AI安全,论文阅读

通过实验得出 τ \tau τ 的最佳值,既能让目标类难以学习,又能让人眼难以察觉

方法二:Adversarial examples bounded in lp-norm

最大化目标类样本和目标类标签,优化对抗扰动。使得目标类更难学习

x a d v = argmax ⁡ ∥ x ′ − x ∥ p ≤ ϵ ( x ′ , y , θ ) x_{a d v}=\underset{\left\|x^{\prime}-x\right\|_{p} \leq \epsilon}{\operatorname{argmax}}\left(x^{\prime}, y, \theta\right) xadv=xxpϵargmax(x,y,θ)

clean-label backdoor attacks,AI安全,论文阅读

不同情况下的 backdoor image 的视觉效果对比

clean-label backdoor attacks,AI安全,论文阅读文章来源地址https://www.toymoban.com/news/detail-611225.html

4. experiments

  • 数据集:cifar-10
  • 实验结果:
    clean-label backdoor attacks,AI安全,论文阅读

到了这里,关于clean-label backdoor attacks 论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包