Bi-VAEGAN:对TF-VAEGAN提出的视觉到语义进一步改进

这篇具有很好参考价值的文章主要介绍了Bi-VAEGAN:对TF-VAEGAN提出的视觉到语义进一步改进。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文“Bi-directional Distribution Alignment for Transductive Zero-Shot Learning”提出Bi-VAEGAN,它以f-VAEGAN-D2为Baseline,进一步发展了TF-VAEGAN通过利用所见数据和反馈模块增强生成的视觉特征思路。f-VAEGAN-D2的介绍、TF-VAEGAN的介绍

引言

取决于标签是否可用,可以分为无条件分布\(p(v)\)或条件分布\(p(v|y)\)。当以辅助信息为条件时,可以学习辅助数据的联合分布。这种分布可以连接视觉空间与辅助知识,并引入生成器作为知识迁移的工具。通过适当的监督如条件鉴别器判断生成的图像是否是真实的野猫,将类内数据分布与真实数据分布保持一致。TZSL的难题在于转移可见类的分布,对未见类分布建模,实现未见类的真实生成。

实现这一问题的代表方法是f-VAEGAN:它使用了无条件判别器增强了未见类的生成,并学习未见类的数据分布。大多数现有工作在前向生成过程中使用辅助数据输出图像,即\(p(v|y)\)。这种使用条件的弱引导生成对辅助信息质量十分敏感。

为了实现视觉和辅助数据更好对其,增强与未见类的条件分布对齐,作者提出了一种新颖的双向生成过程。它将前向生成过程与后向生成过程结合起来,即通过 \(p(y|x)\) 从图像生成辅助数据。作者的工作基于f-VAEGAN,总体的改进包括:

  1. 添加转导回归器以形成反向生成,以图像视觉特征为条件,生成伪辅助特征。这与 f-VAEGAN 中使用的前向生成一起,提供了更多约束来学习未见类的条件分布,实现视觉和辅助空间的更好对齐。
  2. 引入L2特征归一化的数据预处理,帮助条件对齐。
  3. 作者注意,未见类的先验分布对于分布对齐十分重要,尤其是不平衡数据集,先验的选择不当容易导致对齐不良。为了解决这个问题,作者提出了一种简单有效的类先验估计方法,该方法基于未见类别示例中包含的聚类结构。

方法

问题定义

使用\(V^s=\{{\bm v}_i^s\}^{n_s}_{i=1}\)\(V^u=\{{\bm v}_i^u\}^{n_u}_{i=1}\)表示可见类与不可见类的示例,表示由预训练的网络提取的视觉特征。每一个可见类的label表示为:\(Y^s=\{y_i\}^{n_s}_{i=1}\)。以属性作为辅助信息,描述可见类和不可见类,用向量集表示:\(A^s=\{{\bm a}^s_i\}^{N_s}_{i=1}\)\(A^u=\{{\bm a}^u_i\}^{N_u}_{i=1}\)\(N_s\)\(N_u\)分别表示可见类和未见类的类的数量。

在TZSL设置下,训练分类器\(f({\bm v}):\mathcal{V}^u\rightarrow\mathcal{Y}^u\)对未见类的数据进行推理,\(\mathcal{V}\)表示视觉特征空间,\(\mathcal{Y}\)表示标签空间。

整体训练的信息表示为:\(D^{tr}=\{\langle V^s,Y^s\rangle,\{A^s,A^u\},V^u,\}\),这里\(\langle\cdot,\cdot\rangle\)表示配对数据。

L2特征归一化

特征归一化可以帮助模型训练收敛,一般的TZSL采用Min-Max 归一化\({\bm v}'=\frac{{\bm v}-\min({\bm v})}{\max({\bm v})-\min({\bm v})}\)。然而作者提出了L2归一化的trick认为更有利,对于视觉特征向量\({\bm v}\in V^s\cup V^u\)

\[{\bm v}'=L_2({\bm v},r)\frac{r{\bm v}}{\|{\bm v}\|_2} \tag{1} \]

其中超参数\(r>0\)为控制规划特征向量的范数。利用L2归一化层替换了生成器中伴随Min-Max方法的最后一个sigmoid层。作者在文中记录了L2与Min-Max归一化的曲线,L2归一化在早期训练中具有更高的精度和更快的收敛速度,比Min-Max表现更好。通过对比r大小设置,发现较小的r可能会导致性能更稳定,而较大的r会导致梯度增加,从而可能导致训练不稳定。

双向对齐模型

模型共有六个组成部分:

  1. 条件VAE编码器:\({\bm E}:\mathcal{V}\times\mathcal{A}\rightarrow\mathbb{R}^k\),在类别属性的条件下,将视觉特征映射到k维隐藏向量。
  2. 条件视觉生成器:\({\bm G}:\mathcal{A}\times\mathbb{R}^k\rightarrow\mathcal{V}\),在类别属性的条件下,从正态分布\(\mathcal{N}(0,1)\)中采样k维随机向量合成视觉特征。
  3. 来自WGAN的条件视觉判别器:\(D:\mathcal{V}^s\times\mathcal{A}\rightarrow\mathbb{R}\),处理可见类。
  4. 来自WGAN的视觉判别器:\(D^u:\mathcal{V}^u\rightarrow\mathbb{R}\),处理未见类。
  5. 回归器:\({\bm R}:\mathcal{V}\rightarrow\mathcal{A}\),将视觉空间映射到属性空间。
  6. 来自WGAN的属性判别器:\(D^a:\mathcal{A}\rightarrow\mathbb{R}\)

工作流分为两个Level:

  • 在Level1,回归器\({\bm R}\)使用判别器\(D^a\)进行对抗训练,让视觉特征转换而来的伪属性与真实属性对齐。
  • 在Level2,使用两个判别器\(D\)\(D^u\)对抗训练视觉生成器\({\bm G}\),让生成的视觉特征与真实的视觉特征对齐。

此外,G的训练取决于R。这鼓励用于合成视觉特征的伪属性要更好地与真实属性对齐。“双向对齐”正是得名于:在视觉和属性空间中对齐真伪数据。

Bi-VAEGAN:对TF-VAEGAN提出的视觉到语义进一步改进

Level 1:回归器R训练

回归器\({\bm R}\)的训练具有转导性和对抗性。

  • 对于可见类执行监督学习,实现视觉特征到属性特征的映射。
  • 对于未见类的视觉特征和类属性进行无监督学习来增强(这里未见类的示例与特征是不配对的),学习未见类的整体特征分布。

\({\bm R}\)的学习通过最小化视觉特征的映射与其相应属性。

\[L^s_R(\mathcal{A}^s,\mathcal{V}^s)=\mathbb{E[\lVert\mathcal{R({\bm v}^s)-{\bm a}^s}\rVert_1]} \tag{2} \]

对于未见类,通过区分未见类的真实特征的真实属性\({\bm a}^u\)和真实特征计算的伪属性\(\hat{\bm a}^u\),通过对抗学习实现。

\[L^u_{D^a-WGAN}(\mathcal{A}^u,\mathcal{V}^u)=\mathbb{E}[D^a({\bm a}^u)]-\mathbb{E}[D^a(\hat{\bm a}^u)]+\mathbb{E}[(\lVert\nabla_{\overline{\bm a}^u}D^a(\overline{\bm a}^u) \rVert_2-1)^2] \tag{3} \]

其中\(\hat{\bm a}^u={\bm R}({\bm v}^u),\ {\bm a}^u\sim p^u_{\bm G}(y),\ \overline{\bm a}^u\sim \mathcal{P}_t({\bm a}^u,\hat{\bm a}^u)\),未见类的先验分布以\(p^u_{\bm G}(y)\)表示,计算将在下文提到。原始属性从该先验分布采样的过程作者称为:先验采样过程。前两项计算了真实分布与模型分布的Earth-mover距离,等式的第三项为梯度惩罚,它实现了WGAN中的Lipschitz限制。

\(\mathcal{P}_t({\bm a},{\bm b})\)是L2超球面的插值分布。从该分布的采样计算为:\({\bm c}=L_2(t{\bm a}+(1-t){\bm b},r),\ t\sim\mathcal{U}(0,1),\ \lVert {\bm a}\rVert_2=\lVert {\bm b}\rVert_2=r\)

训练目标可定义为:

\[\min_{\boldsymbol{R}}\max_{D^a}~L_R^s+\lambda L_{D^a\text{-WGAN}}^u\tag{4} \]

其中\(\lambda\)为超参数。这使得知识分布在属性空间,未见类向可见类转移。然而特征的可辨别性受枢纽化问题的限制。但是也可以利用这一点,为后续,在视觉空间中进行分布对齐提供近似监督。

枢纽化问题(Hubness)是指在高维空间中,一些样本点成为了其他样本点的近邻枢纽,即在数据集中,存在一些数据点它们与大多数其他数据点具有更近的距离。

Level 2:生成器G和编码器E训练

回归器\({\bm G}\)的训练也具有转导性和对抗性,目的是对齐合成特征与真实特征。在属性空间上冻结\({\bm R}\),视觉空间上使用判别器\(D\)\(D^u(\hat{\bm v}^u)\)

两个判别器需要经过训练,以区分真实的视觉特征和条件生成器计算的合成视觉特征。设\(\hat{\bm v}\sim G(\boldsymbol{a},\boldsymbol{z})\),其中\({\boldsymbol{z}\sim\mathcal{N}}(\boldsymbol{0},\boldsymbol{1}), \ \boldsymbol{a}\sim{p_{\boldsymbol{G}}}(y)\)。对于可见类的先验分布定义为\(p_{\boldsymbol{G}}^{s}(y)\),该分布可以根据每个类的样本数简单估计得到。未见类的先验分布还是\(p_{\bm G}^u(y)\)。生成的视觉特征\(\hat{\bm v}\)已经通过G进行L2归一化。

  • 对于可见。判别器以类属性为条件,即\(D(\hat{\bm v},{\bm a}^s)\)
\[\begin{aligned} L_{D-WGAN}^{s}(A^{s},V^{s})=& \mathbb{E}[D({\bm v}^s,{\bm a}^s)]-\mathbb{E}[D(\hat{\bm v}^s,{\bm a}^s)]+ \\ &\mathbb{E}[(\|\nabla_{\bar{{\bm v}}^s}D(\bar{{\bm v}}^s,{\bm a}^s)\|_2-1)^2] \end{aligned}\tag{5} \]
  • 对于未见类判别器是无条件的,即\(D^u\)
\[\begin{aligned} L_{D^{u}-WGAN}^{u}(A^{u},V^{u})=& \mathbb{E}[D^u({\bm v}^u)]-\mathbb{E}[D^u(\hat{\bm v}^u)]+ \\ &\mathbb{E}[(\|\nabla_{\bar{{\bm v}}^u}D^u(\bar{{\bm v}}^u)\|_2-1)^2] \end{aligned} \tag{6} \]

这里,\(\bar{\bm v}^s,\ \bar{\bm v}^u\)由插值分布中采样得到(参见上文)。这里\(\hat{\bm v}^u\)由从\({\bm a}^u\sim p^u_{\bm G}(y)\)采样的未见类属性计算得到。公式(5)、(6)弱对齐了未见类条件分布,但缺少监督。为了提高对齐健壮性,引入了另一个训练损失:

\[L_R^u(A^u)=\mathbb{E}[\|R(G({\bm a}^u,{\bm z}))-a^u\|_1] \tag{7} \]

这里使用Level 1训练的R来执行监督约束。这可以防止模型坍塌,并作为GAN训练的补充。相似的,还对VAE进行训练,以增强可见类的对抗训练:

\[\begin{aligned}L_{VAE}^s(A^s,V^s)&=\mathbb{E}[\mathrm{KL}(E({\bm v}^s,{\bm a}^s)\|\mathcal{N}(\mathbf{0},1))]+ \\ &\mathbb{E}_{{\bm z}^s\sim{\bm E}({\bm v}^s,{\bm a}^s)}[(\|G({\bm a}^s,{\bm z}^s)-{\bm v}^s\|_2^2)]\end{aligned}\tag{8} \]

第一项为KL散度,第二项使用L2归一化特征重建均方差(Mean-squared-error, MSE)。最后,总的训练目标为:

\[\min_{{\bm E},{\bm G}}\max_{D,D^{u}}L_{{VAE}}^{s}+\alpha L_{D-{WGAN}}^{s}+\beta L_{R}^{u}+\gamma L_{D^{u}-{WGAN}}^{u} \tag{9} \]

这里,\(\alpha,\ \beta,\ \gamma\)为超参数。训练包括了已知类的成对的视觉特征和未见类的估计类分布,通过R进行监督增强,以进一步约束未见类的视觉特征生成。

提出的Bi-VAEGAN可通过移除\(V^u\),以适应归纳ZSL:

\[\begin{aligned}&\text{For level-1:}\min_{\boldsymbol{R}}L_{R}^{s}\\&\text{For level-2:}\min_{\boldsymbol{E},\boldsymbol{G}}\max_{D}L_{{VAE}}^{s}+\alpha L_{D\cdot{WGAN}}^{s}+\beta L_{R}^{u}\end{aligned}\tag{10} \]

未见类先验估计

公式(3)(6)中提到,未见类属性采样\({\bm a}^u\sim p_{{\bm G}}^u(y)\)。由于没有标签信息,无法从真实的类先验中采样\(p^u(y)\)。作者发现,由于骨干网络,未见类的样本在视觉空间中具有直观的集群结构。作者采用K-means聚类,重点设计聚类中心的初始化。估计的先验分布\(p_{{\bm G}}^u(y)\)迭代更新,并在每个epoch,根据额外的分类器\(f\)计算的伪类中心重新初始化。对于第一次初始化,使用归纳训练的生成器来转移可见类的配对知识,以便对未见类更好估计。这种估计称为聚类先验估计(the cluster prior estimation, CPR),实现过程如1-12行所示(给它翻译了下):

Bi-VAEGAN:对TF-VAEGAN提出的视觉到语义进一步改进Bi-VAEGAN:对TF-VAEGAN提出的视觉到语义进一步改进

模型预测和特征增强

完成6个模块的训练后,将训练未见类的样本分类模型\(f:\mathcal{V}^{u}(\mathrm{~or~}\hat{\mathcal{V}}^u)\times\mathcal{H}^u\times\hat{\mathcal{A}}^u\to\mathcal{Y}^{u}\)。使用的特征向量\({\bm x}^u=[{\bm v}^u,{\bm h}^u, \hat{\bm a}^u]\)由三部分组成:\({\bm v}^u ({\rm or}\ \hat{\bm v}^u)\)表示视觉特征,\(\hat{{\bm a}}^{u}=\boldsymbol{R}\left({\bm v}^{u}\right)\)表示回归器计算的伪属性,\({\bm h}^u\)由回归器第一个全连接层返回。它集成了生成器和回归器的知识,具有更强的区分性。文章来源地址https://www.toymoban.com/news/detail-779416.html

参考文献

  1. Wang, Zhicai, et al. "Bi-directional Distribution Alignment for Transductive Zero-Shot Learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

到了这里,关于Bi-VAEGAN:对TF-VAEGAN提出的视觉到语义进一步改进的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉新巅峰,微软&牛津联合提出MVSplat登顶3D重建

    3D场景重建和新视角合成是计算机视觉领域的一项基础挑战,尤其是当输入图像非常稀疏(例如,只有两张)时。尽管利用神经场景表示,例如场景表示网络(SRN)、神经辐射场(NeRF)和光场网络(LFN)等,取得了显著进展,但这些方法在实际应用中仍然不尽人意,原因包括

    2024年04月15日
    浏览(40)
  • 清华大学团队提出一种基于稳态视觉诱发反应的混合脑机接口

    更多脑机接口前沿技术,关注公众号:脑机接口社区 近日,清华大学团队提出一种基于脑电图(EEG)和磁脑电图(MEG)混合的脑机接口(BCI)系统的研究,旨在提高BCI性能并解决“BCI文盲”的问题。虽然EEG-based BCI已经实现了大脑和外部设备之间的通讯,但由于头骨会减弱和

    2024年02月12日
    浏览(29)
  • 【计算机视觉 | 语义分割】干货:语义分割常见算法介绍合集(一)

    U-Net 是一种语义分割架构。 它由收缩路径和扩张路径组成。 收缩路径遵循卷积网络的典型架构。 它由两个 3x3 卷积(未填充卷积)的重复应用组成,每个卷积后跟一个修正线性单元 (ReLU) 和一个步长为 2 的 2x2 最大池化操作,用于下采样。 在每个下采样步骤中,我们将特征通

    2024年04月22日
    浏览(37)
  • 计算机视觉:语义分割理论及实战

    语义分割(Semantic Segmentation)是指将一张图像分割成若干个区域,并对每个区域赋予语义标签的任务。它是计算机视觉中的一种重要技术,被广泛应用于自动驾驶、医学图像分析、地理信息系统等领域。 与传统的图像分割任务不同,语义分割不仅需要将图像分割成若干个区域

    2024年02月08日
    浏览(38)
  • 计算机视觉与深度学习-图像分割-视觉识别任务01-语义分割-【北邮鲁鹏】

    给每个像素分配类别标签。 不区分实例,只考虑像素类别。 滑动窗口缺点 重叠区域的特征反复被计算,效率很低。 所以针对该问题提出了新的解决方案–全卷积。 让整个网络只包含卷积层,一次性输出所有像素的类别预测。 全卷积优点 不用将图片分为一个个小区域然后再

    2024年02月07日
    浏览(63)
  • 计算机视觉框架OpenMMLab(七):语义分割实战

    👨‍💻 作者简介: 大数据专业硕士在读,CSDN人工智能领域博客专家,阿里云专家博主,专注大数据与人工智能知识分享。 公众号: GoAI的学习小屋,免费分享书籍、简历、导图等资料,更有交流群分享AI和大数据,加群方式公众号回复“加群”或➡️点击链接。 🎉 专栏推

    2024年02月02日
    浏览(33)
  • 基于视觉语义信息的建图与定位综述

    点云PCL免费知识星球,点云论文速读。 文章:Semantic Visual Simultaneous Localization and Mapping: A Survey 作者:Kaiqi Chen, Jianhua Zhang, Jialing Liu, Qiyi Tong, Ruyu Liu, Shengyong Chen 编辑:点云PCL 来源:arXiv 2022 欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有

    2023年04月18日
    浏览(33)
  • 计算机视觉基础(11)——语义分割和实例分割

    在这节课,我们将学习 语义分割和实例分割 。在语义分割中,我们需要重点掌握语义分割的 概念、常用数据集、评价指标(IoU)以及经典的语义分割方法(Deeplab系列) ;在实例分割中,需要知道实力分割可以近似看为“ 目标检测+语义分割 ”,需要知道 Mask R-CNN方法的计算

    2024年01月23日
    浏览(44)
  • 图像分割与语义分割在计算机视觉中的应用

    计算机视觉(Computer Vision)是人工智能领域的一个重要分支,它旨在让计算机理解和解释人类世界中的视觉信息。图像分割(Image Segmentation)和语义分割(Semantic Segmentation)是计算机视觉中的两个重要技术,它们涉及将图像中的不同部分分为不同的类别,以便计算机更好地理解图像的

    2024年03月12日
    浏览(53)
  • 计算机视觉三大基本任务:分类、检测(定位)、分割(语义和实例)

    刚刚接触计算机视觉时可能会对 不同的任务的区分 以及 网络架构的选择 产生迷惑,因此,在此总结了相关的基础知识。在本文中,我们试图回答两个问题: 不同任务要做的事情是什么,研究范畴是什么? 不同的任务需要选择什么类型的网络? 计算机视觉任务可以分为4大

    2024年02月05日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包