论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks

这篇具有很好参考价值的文章主要介绍了论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Imperceptible Adversarial Attack via Invertible Neural Networks

作者：Zihan Chen, Ziyue Wang, Junjie Huang*, Wentao Zhao, Xiao Liu, Dejian Guan

解决的问题：虽然视觉不可感知性是对抗性示例的理想特性，但传统的对抗性攻击仍然会产生可追踪的对抗扰动。
代码：https://github.com/jjhuangcs/AdvINN
类型：黑盒目标攻击，

摘要：

作者利用可逆神经网络(AdvINN)方法进行对抗性攻击，生成鲁棒且难以察觉的对抗性示例。AdvINN利用INN的信息保留属性，添加目标类的指定信息、删除与原始类别不同的信息来生成对抗样本。

引言部分引出对抗攻击示例

虽然对抗样本的存在可能会阻碍深度学习在风险敏感领域的应用，但它进一步促进了对深度学习鲁棒性的研究。

现有对抗样本的类别：

在原始图像上添加扰动来生成对抗样本：FGSM系列的对抗攻击方法+混合其他类别的信息来生成对抗样本，这种方法可能会导致噪声被感知和图像存储容量的增加；
在原始图像上丢弃部分信息来生成对抗样本，这种方法可能会影响目标攻击的性能。

方法整体概述

给定一张良性图像 $x_{cln}$ ，其标签为 $c$ ，作者的目标是通过丢弃类 $c$ 的discriminant information和添加target image $x_{tgt}$ 的对抗细节，同时能够通过残差图像 $x_r$ 解析添加和丢弃的特征信息。方案整体包含Invertible Information Exchange Module (IIEM)和目标图像选择和学习（Target image selection and learning）两个模块，整体概述如下图所示：
论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks,论文阅读

IIEM模块： $\theta$ 是 ${f_\theta }({\cdot})$ 的参数，由Invertible Information Exchange Module (IIEM), Target Image Learning Module (TILM) 和loss functions三个模块组成用于优化；IIEM由损失函数驱动，通过执行 ${x_{cln }}$ 和 ${x_{tgt}}$ 的信息交换来生成对抗图像。由于IIEM的保留属性，输入图像 ${x_{cln}},{x_{tgt}})$ 和输出图像 ${x_{adv}},{x_{r}})$ 是相同的且 $({x_{adv}},{x_r})= {f_\theta }^{ - 1}({x_{cln }},{x_{tgt}})$ 。AdvINN生成对抗样本的目标函数定义如下：

$\mathcal{L_{adv}}( \cdot )$ 表示对抗损失， $\mathcal{L_{rec}}( \cdot )$ 表示重构损失， ${\lambda _{adv}}$ 表示正则参数， $\varepsilon$ 表示对抗扰动预算。

-target image选择： target image是对抗信息的来源，可以从highest confidence target image (HCT)、universal adversarial perturbation (UAP)或online learned classifier guided target image( CGT)中选择；

方法详细阐述：

Invertible Information Exchange Module (IIEM)

该模块主要包括离散小波变换和仿射偶尔两个模块，示意图如下：
论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks,论文阅读

离散小波变换：作者使用离散小波变换（正文使用的是哈儿小波变换）用以区分输入干净和目标图像分解为低频和高频成分。分解低频和高频特征有助于修改输入图像的高频成分，因而可以产生更不易察觉的对抗样本（注意：修改高频成分生成的对抗样本更不易被察觉。）离散小波变换 $\mathcal{T}(\cdot)$ 中，输入图像 $x$ 可被转换成小波域 $\mathcal{T}(x)$ ，该域上包含一个低频子带特征和3个高频子带特征。在IIEM的输出端，逆离散小波变换 ${\mathcal{T}^{-1}}( \cdot )$ 用于重构特征到图像域。
仿射耦合模块：可逆信息交换模块由 $M$ 个Affine Coupling Blocks（仿射耦合模块）组成。 $w_{cln }^i$ 和 $w_{tgt}^i$ 表示第 $i$ 个Affine Coupling Blocks的输入特征， $w_{cln }^i = T({x_{cln }})$ , $w_{tgt}^i = T({x_{tgt}})$ 。第 $i$ 个Affine Coupling Blocks的前向过程可表示为：

$\Theta$ 表示两个矩阵对应相乘， $\alpha$ 表示一个sigmod 函数乘以一个常数因子， $\psi ( \cdot ),\rho ( \cdot ),\eta ( \cdot )$ 表示dense network architecture。给定第M个仿射耦合模块的输出，利用逆小波变换可获得对抗图像和残差图像： ${x_{adv}} = {T^{ - 1}}(w_{cln }^M),{x_r} = {T^{ - 1}}(w_{tgt}^M)$
信息保留属性：由于DWI和IDWT的可逆性， $w_{cln }^M, w_{tgt}^M)$ 可以被保存在 ${x_{adv}}, {x_r})$ ， $w_{cln }^{i - 1},w_{tgt}^{i - 1})$ 可以被保存在 $w_{c\ln }^{i },w_{tgt}^{i})$

IIEM是完全可逆，输出图像 ${x_{adv}},{x_r})$ 和输入图像 ${x_{cln}},{x_tgt})$ 包含相同的信息。他们之间的联系可表示如下：

$\sigma$ 表示干净图像上丢弃的信息， $\delta$ 表示添加到干净图像上目标图像的判别信息。

目标图像选择和学习（Target image selection and learning）

选取最高置信类的图像：选取最高置信的图像作为目标图像可能包含大量目标类的无关信息，例如背景纹理和其他的类的信息。这将会影响攻击成功率和寻优过程；
通用对抗扰动：作者沿用该方法，利用优化后的通用对抗摄动作为目标图像，加快收敛速度；
目标图像学习模块：该模块学习分类器引导的目标图像，而不是使用固定的图像作为目标图像。目标图像被设置为一个可学习的变量，该变量用一个恒定的图像初始化(即所有像素设置为0.5)，然后根据攻击分类器的梯度进行更新。这样，自适应生成的目标图像可以嵌入目标类的更多判别信息，从而辅助生成对抗样例。

学习细节

整个网络的总体损失定义如下：
论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks,论文阅读
${\mathcal{L}_{adv}}$ 表示对抗损失用于定位正确的优化方向和加速收敛速度，

${\mathcal{L}_{rec}}$ 表示重构损失，用于约束对抗图像和良性图像相似，同时将修改主要应用于高频和不易察觉的内容，从而生成不易被察觉的对抗样本:
论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks,论文阅读文章来源地址https://www.toymoban.com/news/detail-656886.html