【论文阅读】StyleganV1 算法理解

这篇具有很好参考价值的文章主要介绍了【论文阅读】StyleganV1 算法理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


听过Stylegan的人都觉得他很强!目前stylegan已经发展到第三代v3了,但是为了搞清思想,我还是从v1开始了解,以下是我个人的一些理解。

为什么提出?

传统GAN采用端对端的输入输出,可以尽可能使用训练集数据的信息,但是会出现两个问题。

  1. 仅保持一种输入,纵使网络有再强的能力,也可能会出现生成信号的周期性,
  2. 输入和输出特征严重耦合,头发,胡茬,雀斑,皮肤毛孔等都是随机生成,没有办法控制,因为隐藏变量隐藏的很深
  3. 端对端会让网络更加难学,因为真实的仿射变换是很复杂的,而且维度很高,找到这种变换关系更难,同时也会耗费网络容量。

相较于传统方式,其实本篇论文是提供一个全新的思路,就是想将输入潜在空间和训练数据解耦。

什么意思呢?就是引入中间变量,让输入更加量化的控制输出,同时也便于控制整体生成情况。

具体是怎么做的?

1.解耦的思想(对应文章第四章4.Disentanglement studies)

【论文阅读】StyleganV1 算法理解,论文阅读,论文阅读,算法
如图所示,传统的GAN寻求的是(a)到(b)的学习,输入简单单一的输入样本,让网络学习到复杂的映射变换,这其实很要求网络的能力,且每个变量都是难以捉摸的,不能使用线性插值来变换生成特征。
而( c)是经过中间潜在空间的映射,可以看到让z学习到中间潜在空间w,再让w映射到特征feature,基本上就是比较线性的关系,这个时候对于一些特征,是解耦的,可编辑的状态。

1.1 感知路径长度(对应4.1Perceptual path length)

为了达到上图解耦的目的,在训练过程中需要对潜在空间向量做一定的约束(Loss),例如对潜在空间向量的插值我们需要让它产生一定的线性变化而不是非线性变化。线性变化对应上图中的图c,是一个解耦状态。所以需要测量在潜在空间中执行插值时图像经历的剧烈变化,让它尽可能平滑的过度。

文中采用的是基于感知的两两图像距离(perceptually-based pairwise image distance),基于VGG16,其中权重是拟合的,因此度量符合人类感知相似性判断。将潜在空间插值路径细分为线性段,则总感知长度就是每段上的总和。

1.2 线性可分离性(对应4.2Linear separability)

如果一个潜在空间被充分地解开,应该有可能找到一致地对应于个别变异因素的方向向量。文中提出了另一个度量,通过测量潜在空间点如何通过线性超平面划分为两个不同的集合来量化这种效应,以便每个集合对应于图像的特定二进制属性。

简而言之就是额外训练一个分类器,区分对立属性,例如男性和女性,然后输入图片有z ~ P(z)的图像,并使用辅助分类网络对它们进行分类。对于每个属性,拟合一个线性支持向量机来预测基于潜在空间点的标签。对比两者条件熵H(Y |X),就知道需要多少额外的信息来确定样本的真实类别。

2.具体网络的实现(对应2.Style-based generator)

【论文阅读】StyleganV1 算法理解,论文阅读,论文阅读,算法
该算法受到风格转移文献的启发,重新设计生成器架构,以一种新的方式来控制图像合成过程。

生成器从一个习得的常量输入开始,根据潜码在每个卷积层调整图像的“风格”,从而直接控制不同尺度下图像特征的强度。结合直接注入到网络中的噪声,可以分离生成图像的高级属性(例如,姿势,身份)
1.Mapping network 负责将潜在代码(latent code) z 生成 中间变量 w 。由w来控制生成图像的style。
2.Synthesis network 负责生成图像,引入噪声是为了生成随机细节。

首先设置每个通道数的维度是512,映射f是使用8层MLP实现的,学习后的仿射变换将w转为样式y = (ys, yb),在合成网络g的每个卷积层之后控制自适应实例归一化(AdaIN)[27,17,21,16]。AdaIN操作定义为
【论文阅读】StyleganV1 算法理解,论文阅读,论文阅读,算法
每个特征图xi分别归一化,然后使用样式y的相应标量分量进行缩放和偏置。因此y的维数是该层上特征映射数量的两倍。

最后,通过引入显式噪声输入,提供了直接生成随机细节的方法为合成网络的每一层提供一个专用的噪声图像。使用学习到的特征缩放因子将噪声图像广播到所有特征映射中,然后添加到相应卷积的输出中。

3.基于样式生成器的属性(对应3.Properties of the style-based generator)

映射网络(mapping network)和仿射变换(affine transformations)看作是一种从学习分布中为每种风格绘制样本的方法,

综合网络(synthesis network)则是一种基于风格集合生成新图像的方法。

每种样式的效果在网络中都是局部化的,也就是说,修改样式的特定子集可以预期只影响图像的某些方面。为什么是这样子的?

可以从归一化AdaIN 理解起来,将每个通道归一化为零均值和单位方差,然后才根据风格应用尺度和偏差。因此,W只是修改了通道的相对重要性,他们不依赖于原始的信息。

3.1 样式混合(Style mixing)

在文中提到这个其实就是混合正则化(mixing regularization),在训练期间使用两个随机的潜在代码生成图像,具体来说就是:通过映射网络运行两个潜码z1, z2,并由对应的w1, w2控制样式,使w1在交叉点前应用,w2在交叉点后应用。如图所示。作者还发现不同尺寸混合会产生不一样的效果,在4-8的尺度上混合,修改的是姿态,头发风格,脸部形状,在16-32尺度上混合,修改的是更小尺度的脸部特征,头发风格眼睛等,在64-1024尺度上混合修改的是颜色和微小特征。
【论文阅读】StyleganV1 算法理解,论文阅读,论文阅读,算法

3.2 随机变化(Stochastic variation)

人体肖像中有许多方面可以被认为是随机的,比如头发、胡茬、雀斑或皮肤毛孔的确切位置。这些都可以随机化而不影响我们对图像的感知,只要它们遵循正确的分布。

传统的生成器是如何实现随机变化的?网络的唯一输入是通过输入层,网络需要发明一种方法从早期的激活中来生成空间变化的伪随机数.这会消耗网络容量,并且隐藏生成信号的周期性是困难的——而且并不总是成功的,正如生成图像中常见的重复模式所证明的那样。文中架构通过在每次卷积后添加逐像素噪声,避免了这些问题。

图4显示了使用不同噪声实现的生成器生成的相同底层图像的随机实现。我们可以看到,噪声只影响随机方面,使整体组成和高级方面,如身份完好无损。
【论文阅读】StyleganV1 算法理解,论文阅读,论文阅读,算法

3.3从随机性中分离出全局效应(Separation of global effects from stochasticity)

虽然风格的变化具有全局影响(改变姿势,身份等),但噪声只影响无关紧要的随机变化(不同梳的头发,胡须等)。这一观察结果与风格迁移文献一致。

在基于样式的生成器中,样式会影响整个图像,因为完整的特征映射被缩放并带有相同的值。因此,全局效果,如姿势,照明,或背景风格可以控制连贯。同时,噪声被独立地添加到每个像素,因此非常适合于控制随机变化。如果网络试图使用噪声来控制姿势,这将导致空间不一致的决定,然后将被鉴别器惩罚。因此,在没有明确指导的情况下,网络学会了适当地全局和局部通道。这部分相当于是证明为啥噪声仅控制局部随机变化的原因

总结

styleGANV1其实主要点就是建立Z-W-Feature的生成器模型,让网络可以充分释放生成器的能力,并解耦的控制特征。文章来源地址https://www.toymoban.com/news/detail-530158.html

到了这里,关于【论文阅读】StyleganV1 算法理解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 图像生成论文阅读:GLIDE算法笔记

    标题:GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 会议:ICML2022 论文地址:https://proceedings.mlr.press/v162/nichol22a.html 官方代码:https://github.com/openai/glide-text2im 作者单位:OpenAI 扩散模型最近已被证明可以生成高质量的合成图像,特别是在与引导技术结合

    2024年02月02日
    浏览(48)
  • 强化学习论文阅读(二)SAC算法

    原文传递:SAC算法原文 作者指出深度强化学习样本效率低下的原因是:策略学习,TRPO、PPO、A3C每次策略更新都需要收集样本。学习有效的策略需要的步骤和样本数量伴随着任务的复杂性呈现增加的趋势。Off-Policy为了重复使用过去产生的经验值,但是在传统的策略公式当中不

    2024年02月06日
    浏览(46)
  • 对比学习论文阅读:CoCLR算法笔记

    标题:Self-supervised Co-training for Video Representation Learning 会议:NIPS2020 论文地址:https://dl.acm.org/doi/abs/10.5555/3495724.3496201 官方代码:https://www.robots.ox.ac.uk/~vgg/research/CoCLR/ 作者单位:牛津大学 本文的研究目标是纯视觉的自监督视频表征学习。我们做出了以下贡献:①我们研究了在

    2024年02月03日
    浏览(62)
  • 论文阅读--用于小物体检测的增强算法

    Title: Augmentation for small object detection Abstract: In the recent years, object detection has experienced impressive progress. Despite these improvements, there is still a significant gap in the performance between the detection of small and large objects. We analyze the current state-of-the-art model, Mask-RCNN, on a challenging dataset, MS COCO. We sh

    2024年02月15日
    浏览(58)
  • 《SimpleNet: A Simple Network for Image Anomaly Detection and Localization》论文阅读理解

    将预训练特征转换为面向目标的特征有助于避免图像局部偏见的出现; 在特征空间中生成合成异常更有效,因为缺陷在图像空间中可能没有太多共性存在; 一个简单的鉴别器是非常有效和实用的; 提出了一种简单且容易应用的网络(SimpleNet),用于检测和定位异常; 在MV

    2024年02月08日
    浏览(63)
  • 《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解

    对身体器官的射线扫描结果图片中展示了详细的结构化信息,充分利用这种身体各个部分之间的结构化信息,对检测出身体存在的异常非常重要; 提出了使用空间感知队列来进行图片绘制和检测图片中存在的异常的方法(称为SQUID); 在两个胸部X射线基准数据集上,本文所

    2024年02月15日
    浏览(42)
  • 超图聚类论文阅读1:Kumar算法

    《超图中模块化的新度量:有效聚类的理论见解和启示》 《A New Measure of Modularity in Hypergraphs: Theoretical Insights and Implications for Effective Clustering》 COMPLEX NETWORKS 2020, SCI 3区 具体实现源码见HyperNetX库 工作: 针对超图聚类问题 推广 了 模块度最大化 框架 引入了一个 超图空模型 ,

    2024年02月09日
    浏览(40)
  • 论文阅读笔记 | 三维目标检测——PV-RCNN++算法

    如有错误,恳请指出。 paper:《PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector Representation for 3D Object Detection》(2022 IJCV) 做点云检测的肯定知道了,这又是Shaoshuai Shi大佬的另外一篇文章,Shaoshuai Shi大佬的主页介绍:https://shishaoshuai

    2023年04月08日
    浏览(90)
  • 【论文阅读】互连网络的负载平衡路由算法 (RLB & RLBth)

    前言 Oblivious Load Balancing 不经意路由负载平衡 1. oblivious routing 不经意/无关路由的背景知识 1. oblivious routing, adaptive routing minimal/non-minimal routing algorithms 2. Balancing a 1-Dimensional ring: RLB and RLBth 一维 ring 的 RLB and RLBth 1. Motivation of Balancing load 平衡负载的动机 2. 一维 ring 的 RLB and RLB

    2024年04月25日
    浏览(40)
  • 超图聚类论文阅读2:Last-step算法

    《使用超图模块化的社区检测算法》 《Community Detection Algorithm Using Hypergraph Modularity》 COMPLEX NETWORKS 2021, SCI 3区 具体实现源码见HyperNetX库 工作:提出了一种用于超图的社区检测算法。该算法的主要特点是它可以根据一个社区中的顶点与其他社区中的顶点共享超边的频率进行调

    2024年02月09日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包