(5)步态识别论文研读——GaitDAN:基于对抗域适应的跨视角步态识别-Toy模板网

这篇具有很好参考价值的文章主要介绍了(5)步态识别论文研读——GaitDAN:基于对抗域适应的跨视角步态识别。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

GaitDAN: Cross-view Gait Recognition via Adversarial Domain Adaptation | IEEE Journals & Magazine | IEEE Xplore

GaitDAN: Cross-view Gait Recognition via Adversarial Domain Adaptation

基于对抗与适应

摘要：视角变化导致步态外观存在显着差异。因此，识别跨视角场景中的步态是非常具有挑战性的。最近的方法要么在进行识别之前将步态从原始视图转换为目标视图，要么通过蛮力学习或解耦学习提取与相机视角无关的步态特征。然而，这些方法有许多约束，例如处理未知相机视角的难度。这项工作将视角变化问题视为域变化问题，并提出通过对抗性域适应来解决这个问题。这样，不同视角的步态信息被视为来自不同子域的数据。该方法侧重于调整这种子域变化引起的步态特征差异，同时在不同人之间保持足够的可辨别性。为此，提出了一种用于判别特征提取的分层特征聚合 (HFA) 策略。通过结合 HFA，特征提取器可以很好地聚合网络不同阶段的时空特征，从而获得全面的步态特征。然后，提出了一种对抗性视图变化消除 (AVE) 模块，该模块配备了一组用于识别不同步态视角的显式模型。通过对抗性学习过程，在给定特征提取器生成的步态特征的情况下，AVE 无法识别最终步态视点。也就是说，对抗性域适应减轻了视图变化因子，并有效地提取了与所有子域兼容的判别步态特征。在CASIA-B、OULP和OUMVLP三个最流行的公共数据集上进行的大量实验有力地证明了我们方法的有效性。

introduction

这项工作提出了一种新的跨视图步态识别方法，该方法被视为域转移问题。不同视图的步态信息被视为来自不同子域的信息。视图变化引起的统计分布差异被视为子域偏移。因此，采用域适应 (DA) 作为所提出方法的管道。成功适应的关键是学习一个判别模型，以最小化源域和目标域之间的分布差异。在这项工作中，DA 不考虑针对一个目标域的一个源域 [20-22]，但打算同时对齐多个子域的步态信息。因此，步态识别的步态最终特征表示与视图变化无关。受无监督DA方法[20,23 -25]的启发，我们采用领域对抗神经网络(DANN)[25]主干网络采取Domain-adversarial Neural Network (DANN) 作为解决这一挑战的基本框架。这种选择的基本原理源于 DANN 提供了几个关键优势的事实。首先，DANN 通过修改特征表示本身来匹配特征空间分布，而不考虑不同领域背后的变化因素和复杂的解耦操作，这更适合我们的目的多个子域适应。其次，DANN 在统一的架构中执行特征学习和域适应，并且可以使用简单的反向传播算法来实现。这种工作机制能够充分探索步态中的时空信息，同时消除视图变化的影响。因此，我们提出了一种新的步态域对抗网络(记为GaitDAN)，用于跨视图步态识别。GaitDAN能够通过端到端对抗训练学习判别和子域不变的步态特征，使最终的步态表示在所有子域中都可以很好地泛化。图 1 说明了 GaitDAN 的结构，它由一个新颖的特征提取器(HFA)、对抗性视图更改消除 (AVE) 模块和度量学习 (ML) 模块组成。特征提取器是具有专门设计的分层特征聚合 (HFA) 策略的新网络，能够提取浅层局部细节信息和高层语义表示的互补时空特征。因此，在不丢失细微的视觉线索的情况下，可以获得更全面的时空步态特征。AVE模块是GaitDAN中包含多个视图鉴别器的关键适应组件。它试图挑战特征提取器生成的步态特征，并通过对抗性学习过程将它们区分在不同的子域。也就是说，特征提取器旨在生成欺骗AVE的步态表示。同时，AVE以对抗学习的方式反馈给特征提取器，生成更好的子域不变步态特征来欺骗AVE。引入了ML模块，以进一步提高步态表示在特征空间中的可区分性，通过这种方式，保证了步态识别任务的高可辨别性。

随着训练的进行，GaitDAN 可以产生子域不变和有区别的步态特征。更具体地说，我们做出了以下三个主要贡献。

•我们首次将视图变化消除转化为域适应问题，提出了一种新的用于跨视图步态识别的领域对抗网络。与之前基于转换或基于消除的方法形成鲜明对比，这使得充分利用时空信息，同时消除视图变化的影响。更令人印象深刻的是，它提高了模型在完全未知的视角进行跨视图步态识别的性能。

•我们提出了一种新的HFA策略，该策略可以利用网络各个阶段的综合时空信息，并以微妙的注意方式分层聚合它们，有效地提高了所提方法的判别能力，保证了步态序列中时空信息的充分挖掘。•我们提出了一种简单而有效的视图变化消除方法，即AVE模块。通过利用子域对抗对齐的优势，AVE模块可以简单的方式缩小多个视图级子域之间的差异，有利于整个网络的端到端训练，进一步提高步态表示的鲁棒性。本文的其余部分安排如下。第 II 节简要介绍了相关工作。第 III 节详细解释了所提出的 GaitDAN。在第四节中，介绍了GaitDAN的实现细节。同时，给出了GaitDAN的性能评价和详细的烧蚀研究。第 V 节总结了整篇论文。

整体框架

方法：：

对于有监督的跨视图步态识别，我们有一个标记的训练集 XL，它由 V 个视图级子域 Xv = {(xv i , yvi )}Nvi=1 , v ∈ {1, 2, 组成。.., V }，使得子域 Xv 中的每个样本 xv i 都有一个对应的身份标签 yvi ∈ {1, 2,..., Pv }。Nv 和 Pv 分别是子域 Xv 中的样本数和身份数。同时，测试集XT = {xT j}NTj=1包含NT步态样本，没有来自V个不同视图的标识标签。我们提出的方法的目标是通过 DA 过程学习与视图变化无关的判别步态特征。所提出的GaitDAN的总体框架如图1所示。首先将来自不同子域的步态轮廓序列输入到一个新的特征提取器GF中，提取细粒度的时空特征FF M。然后，为了获得视图不变的细粒度特征，将视图对抗学习过程合并到网络中。这是一个由特征提取器GF和AVE模块GAV E组成的两人博弈。训练AVE模块来区分输入的细粒度步态特征来自哪个子域，同时对特征提取器GF进行微调，以混淆AVE模块。具体来说，通过最大化AVE模块的损失来学习特征提取器GF的参数WF，而AVE模块的参数WAV E通过最小化AVE模块的损失来学习。同时，应用包括三元组损失和交叉熵损失的 ML 模块来增强特征空间中细粒度步态表示的区分。因此，整个框架的目标可以表示为