生成方向论文速览

这篇具有很好参考价值的文章主要介绍了生成方向论文速览。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

High-Resolution Image Synthesis with Latent Diffusion Models

  • 主要思想:基于像素空间的扩散模型训练需要消耗巨量资源。作者认为模型在训练的时候会经过两个阶段,前一阶段是语义的压缩和理解,是模型比较重要的,而后一阶段是感知理解和压缩,是人无法感受到的。通过提前训练一个encoder和decoder将图片转化为具有语义信息的潜空间特征,并在特征空间中进行扩散是这篇论文的主要思路。

模型大致如下:通过训练一个\(\mathcal{E}\)\(\mathcal{D}\)进行正逆映射。通过交叉注意力来引入其他的监督信号。

\[\begin{aligned} &L_{DM}=\mathbb{E}_{x,\epsilon\sim\mathcal{N}(0,1),t}\left[\|\epsilon-\epsilon_\theta(x_t,t)\|_2^2\right],&\quad(1)\\ &L_{LDM}:=\mathbb{E}_{\mathcal{E}(x),\epsilon\sim\mathcal{N}(0,1),t}\left[\|\epsilon-\epsilon_\theta(z_t,t)\|_2^2\right].&\quad(2)\\ &L_{LDM}:=\mathbb{E}_{\mathcal{E}(x),y,\epsilon\sim\mathcal{N}(0,1),t}\left[\|\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))\|_2^2\right],&\mathrm{~(3)} \end{aligned} \]

结果:

  1. 图像到潜变量的缩放因子在4-16比较好,少了无效果,多了会损失信息无法扩散。
  2. 在text2img,inpainting、super-resolution都取得了良好效果。

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

主要贡献:设计了一套数据清洗策略来清洗大规模的低质量的数据,用于训练T2V的SOTA模型,并证明了此模型具有足够强的关于动作和3D的先验知识可以用于视频相关的下游任务。

目前主要的T2V的模型都是基于T2I模型进行一些额外的修改(添加序列信息,添加condition等),因此大部分T2V模型的训练会经过以下的流程:image_pretrain ---> video_pretrain ---> video_finetune。模型会现在图片上进行训练,之后是大规模低质量数据,最后实在高质量的数据集上优化。

Data curation workflow

cut detection pipeline \(\rightarrow\) 3 caption method \(\rightarrow\) -> dense optical flow(remove static or text img) \(\rightarrow\) alcu-
late aesthetics scores and text-image similarities.

3 training stage

这几个数据集主要揭示了使用经过处理之后的vedio数据集进行预训练,即使经过了后续的finetune,最终的模型性能仍然更加优秀。上述图片是实验结果。

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

主要贡献:1. 提出了一个交换空间的交叉注意力方式。2. 收集了130M的高质量、无水印的数据集。

swap Spatiotemporal Cross Attention

主要是对于连续的UNet Blk,分别使用空间特征和时序特征作为Q来进行交叉注意力。

HD-VG-130M

没有详细介绍数据集的收集和清洗过程,使用的是PySceneDetect作为分析工具。

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Adding Conditional Control to Text-to-Image Diffusion Models

  • 为Stable diffusion加入condition,实现自定义控制
  • Stable diffusion 的网络架构不变,Encoder 被复制一份(要求完全复制权重),用于做condition的编码,采用了zero convolution 进行权重初始化(保证没有噪音在初始化时候影响模型),保证在网络训练的初期等价于原始stable diffusion.

生成方向论文速览

将ControlNet用在了SD的Encoder上:

生成方向论文速览

Improved Denoising Diffusion Probabilistic Models

提出了一些改善DDPM的方法:

\(\Sigma_\theta(x_t,t)=\exp(v\log\beta_t+(1-v)\log\tilde{\beta}_t)\)

  • 在之前论文发现使用固定的\(\beta_t ,\tilde{\beta}_t\)在最终效果是类似的,采用上述的插值来确定\(\Sigma,v\)是一个学习的变量

\(L_{\mathrm{hybrid}}=L_{\mathrm{simple}}+\lambda L_{\mathrm{vlb}}\)

  • 修改了loss函数,使得\(\Sigma\)也能够学习,同时\(\mathrm{L}{vlb}\)只被用于优化\(\Sigma(x_t,t)\),优化\(\mu_{\theta}\)的梯度被关闭。

\(\bar{\alpha}_t=\frac{f(t)}{f(0)},\quad f(t)=\cos\left(\frac{t/T+s}{1+s}\cdot\frac\pi2\right)^2\)

  • 修改了\(\alpha_t\)的变化方式,之前都是从0.9-0.999线性增长的,论文通过一种更加平稳的增长方式(加上了<0.999的限制)

生成方向论文速览

通过一系列实验证明了上述方式在生成质量和速度(通过增加stride方式)的优势。

生成方向论文速览

生成方向论文速览

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

一个可以设置多个点移动来对图像空间语意(pose、segmentation...)进行修改的GAN模型

主要分为motion supervisionpoint tracking两个部分,并且论文认为判别器的中间层特征足够丰富,因此不用使用其他方法就可以用来进行motiontracking的工作

生成方向论文速览

  • 在生成最终图片之前交替进行motion supervisionpoint tracking工作,生成新的image mid-featuremap latentcode,并且在mid feature map上使用最近邻搜索来确定新的point位置。

生成方向论文速览

损失函数:

\[\mathcal{L}=\sum_{i=0}^n\sum_{\boldsymbol{q}_i\in\Omega_1(\boldsymbol{p}_i,r_1)}\|\mathrm{F}(\boldsymbol{q}_i)-\mathrm{F}(\boldsymbol{q}_i+\boldsymbol{d}_i)\|_1+\lambda\|(\mathbf{F}-\mathbf{F}_0)\cdot(1-\mathbf{M})\|_1 \]

上述loss函数是的在\(q_i\)的点向目标点\(t\)移动,移动的距离为\(d_{i}=\frac{t_{i}-p_{i}}{\|t_{i}-p_{i}\|_{2}}\),就是要求\(q_i\)的点向更靠近\(t\)\(q_i+d_i\)点的特征靠近。文章来源地址https://www.toymoban.com/news/detail-819499.html

到了这里,关于生成方向论文速览的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • high-resolution image synthesis with latent diffusion models

    如何通俗理解扩散模型? - 知乎 泻药。实验室最近人人都在做扩散,从连续到离散,从CV到NLP,基本上都被diffusion洗了一遍。但是观察发现,里面的数学基础并不是模型应用的必须。其实大部分的研究者都不需要理解扩散模型的数学本质,更需要的是对… https://zhuanlan.zhihu.

    2023年04月19日
    浏览(68)
  • 4、High-Resolution Image Synthesis with Latent Diffusion Models

    github地址 diffusion model明显的缺点是耗费大量的时间、计算资源,为此,论文将其应用于强大的预训练自编码器的潜在空间 ,这是首次允许在复杂性降低和细节保存之间达到一个近乎最佳的点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意层,将扩散模型转化为

    2024年02月12日
    浏览(44)
  • 英伟达文本生成3D模型论文:Magic3D: High-Resolution Text-to-3D Content Creation解读

    摘要:DreamFusion 最近展示了使用预训练的文本到图像扩散模型来优化神经辐射场 (NeRF) 的实用性,实现了显着的文本到 3D 合成结果。然而,该方法有两个固有的局限性:(a)NeRF 的优化极慢和(b)NeRF 上的低分辨率图像空间监督,导致处理时间长的低质量 3D 模型。在本文中,

    2024年04月17日
    浏览(46)
  • CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    原文标题:Taming Transformers for High-Resolution Image Synthesis 主页: Taming Transformers for High-Resolution Image Synthesis 代码: https://github.com/CompVis/taming-transformers transformer比CNN缺少了归纳偏置和局部性,但是更具表现力,但对于长序列(高分辨率图像),在计算上是不可性的。作者就是解决

    2023年04月08日
    浏览(103)
  • 【图像修复】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》

    提出用于高分辨率图像修复的aggregated contextual transformations(AOT),它允许捕获信息丰富的远程上下文和丰富的感兴趣模式,以进行上下文推理。 设计了一个新的掩模预测任务来训练用于图像修复的判别器,使判别器可以区分真实patch和合成patch,从而有助于生成器合成细粒度纹

    2023年04月08日
    浏览(50)
  • 【AIGC】5、Stable Diffusion 原型 | High-Resolution Image Synthesis with Latent Diffusion Models

    论文:High-Resolution Image Synthesis with Latent Diffusion Models 代码:https://github.com/CompVis/latent-diffusion 出处:CVPR2022 | 慕尼黑大学 贡献: 提出了潜在扩散模型,通过将像素空间转换到潜在空间,能够在保持图像生成效果的同时降低计算量 相比纯粹的 transformer-based 方法,本文提出的方

    2024年02月09日
    浏览(45)
  • High-resolution image reconstruction with latent diffusion models from human brain activity

    论文地址:https://doi.org/10.1101/2022.11.18.517004 项目地址:https://sites.google.com/view/stablediffusion-with-brain/ 从人类大脑活动中重建视觉体验,为理解大脑如何代表世界,以及解释计算机视觉模型和我们的视觉系统之间的联系提供了独特的方法。虽然深度生成模型最近被用于这一任务,

    2023年04月25日
    浏览(50)
  • 论文阅读:Feature Refinement to Improve High Resolution Image Inpainting

    项目地址:https://github.com/geomagical/lama-with-refiner 论文地址:https://arxiv.org/abs/2109.07161 发表时间:2022年6月29日 项目体验地址:https://colab.research.google.com/github/advimman/lama/blob/master/colab/LaMa_inpainting.ipynb#scrollTo=-VZWySTMeGDM 解决了在高分辨率下工作的神经网络的非绘制质量的下降问题

    2024年01月17日
    浏览(45)
  • 生成方向论文速览

    主要思想:基于像素空间的扩散模型训练需要消耗巨量资源。作者认为模型在训练的时候会经过两个阶段,前一阶段是语义的压缩和理解,是模型比较重要的,而后一阶段是感知理解和压缩,是人无法感受到的。通过提前训练一个encoder和decoder将图片转化为具有语义信息的潜

    2024年01月23日
    浏览(17)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包