【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching

这篇具有很好参考价值的文章主要介绍了【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

任意风格迁移(Arbitrary style transfer)具有广阔的应用前景和重要的研究价值,是计算机视觉领域的研究热点。许多研究表明,任意风格迁移取得了显着的成功。然而,现有的方法可能会产生伪影(artifacts),有时会导致内容结构的失真(distortion)。 为此,本文提出一种新颖的模块,名为Attention-wise and Covariance-Matching Module (ACMM),可以在没有伪影的情况下更好地保存内容结构。


一、背景介绍

任意风格迁移(Arbitrary style transfer)的主要任务就是学习目标图像的风格(Style image),将其应用于源图像(Content image),同时保持源图像的内容结构。
主要贡献:
(1)ACMM模块使用全局统计来计算注意图的协方差(covariance),来提升生成图像内容结构的保留,并且消除伪影。
(2)引入histogram loss来进一步提高生成结果的颜色饱和度。
(3)和SOTA方法比较,ACMM效果甚好。

二、相关工作

(1)基于Patch的方法:难以平衡内容结构和风格模式。
(2)基于统计学(statistics)的方法:AdaIN存在扭曲内容(content)和风格细节不足;WCT存在内容失真、扭曲。
(3)继WCT后的方法:忽视了局部风格样式。
(4)基于像素点(pixel-points)均值和标准差匹配的方法:内容结构失真;仅通过一个像素点难以确定语义是否相似;弱化全局特征信息。

三、方法论

网络结构:
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能

损失函数:
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能

四、实验

训练过程在单张 NVIDIA A100 GPU 上持续 50k 次迭代。
定性评估:
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能
定量评估:
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能

五、评价指标

(1) LPIPS:LPIPS是一种用于评价图像之间的感知相似性的指标。距离越小越好。
(2)SSIM:(structural similarity)结构相似性,也是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。SSIM取值范围[0,1],值越大(↑),表示图像失真越小.
(3)MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error)。
(4)PSNR:(Peak Signal to Noise Ratio)峰值信噪比,基于对应像素点间的误差评估指标,因此会出现评价结果与人的主观感觉不一致的情况。
【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching,论文阅读,计算机视觉,人工智能
其中,MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error),H、W分别为图像的高度和宽度;n为每像素的比特数,一般取8,即像素灰阶数为256. PSNR的单位是dB,数值越大(↑)表示失真越小。
(5)FID:(Frechet Inception Distance)是计算真实图像和生成图像的特征向量之间距离的一种度量。**分数越低(↓)代表两组图像越相似,**或者说二者的统计量越相似,FID 在最佳情况下的得分为 0.0,表示两组图像相同。


总结

本文ACMM模块有效地缓解风格迁移伪影问题。虽然引入histogram loss损失增强了色彩渲染效果,但是增加了训练时间。以上就是关于这篇论文的主要内容。文章来源地址https://www.toymoban.com/news/detail-780113.html

到了这里,关于【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [oneAPI] Neural Style Transfer

    比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel® DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolkitSamples/ Neural Style Transfer是一种使用 CNN 将一幅图像的内容与另一幅图像的风格相结合的算法。给定内容图像和风格图像,目标是生成最小化与内容图像

    2024年02月12日
    浏览(39)
  • 【深度学习】【风格迁移】Visual Concept Translator,一般图像到图像的翻译与一次性图像引导,论文

    General Image-to-Image Translation with One-Shot Image Guidance 论文:https://arxiv.org/abs/2307.14352 代码:https://github.com/crystalneuro/visual-concept-translator 最近,大规模的文本到图像模型在大量文本-图像对上进行预训练,表现出了出色的图像合成性能。然而,图像可以提供比纯文本更直观的视觉概

    2024年02月13日
    浏览(40)
  • Pytorch Advanced(三) Neural Style Transfer

    神经风格迁移在之前的博客中已经用keras实现过了,比较复杂,keras版本。 这里用pytorch重新实现一次,原理图如下: 加载图像 这里用的模型是 VGG-19,所要用的是网络中的5个卷积层  模型结构如下,可以看到使用序列模型来写的VGG-NET,所以标号即层号,我们要保存的是[\\\'0

    2024年02月09日
    浏览(39)
  • CLIP论文笔记——Learning Transferable Visual Models From Natural Language Supervision

    一个强大的无监督训练模型 通过NLP来的监督信号得到迁移学习 进行图片与文字的配对实现监督的信号,解决了需要打标签进行训练的限制,增强了模型的泛化能力 CLIP的结构包含两个模型 Text Encoder 和 Image Encoder ,Text Encoder用于提取文本特征,Image Encoder用来提取图像特征 C

    2024年02月02日
    浏览(39)
  • 【论文笔记】Boros: Secure Cross-Channel Transfers via Channel Hub

    原文:https://arxiv.org/pdf/1911.12929.pdf 学习一下人家的论文怎么写的 摘要 :针对支付网络通道的主要问题——多条路由的交易需要路径上节点锁定一笔交易,来辅助完成这笔跟他无关的交易,这样的设计一方面限制了中间节点的资金流动性,一方面有时会导致死锁进而交易失败

    2024年02月11日
    浏览(37)
  • LSTD: A Low-Shot Transfer Detector for Object Detection论文阅读笔记

    提出low-shot Transfer detector,来解决标注样本数据不足的情况。利用source domain知识,来构建高效的target-domain检测器,仅需要很少的训练样本。 提出了一个高效的架构,集成了Faster-RCNN和SSD的优点。 为low-shot dection引入了一个新颖的正则化迁移学习架构。提出了tranfer knowledge(TK)和

    2024年02月12日
    浏览(52)
  • 迁移学习(Transfer Learning)

      迁移学习作为机器学习的一个分支,一直比较好奇,接着这篇文章对迁移学习做一个简单的了解(本篇只涉及外围,没有太多细节)。文章围绕以下主题产生:   1.迁移学习概要   2.迁移学习的分类   3.迁移学习的应用场景? 一、迁移学习概要   迁移学习(Trans

    2024年02月16日
    浏览(53)
  • SRM : A Style-based Recalibration Module for Convolutional Neural Networks论文笔记

    整体结构图: Style Pooling风格池部分: Style Integration风格集成部分 1.提出了一个基于风格的重新校准模块(SRM),他通过利用中间特征映射的风格来自适应地重新校准。 2.SRM首先通过样式池从特征图的每个通道中提取样式信息,然后通过独立于通道的样式集成估计每个通道的重校

    2024年02月11日
    浏览(48)
  • 深度学习|9.7迁移学习transfer learning

    迁移学习是指将针对某项任务学习到的知识应用到其他任务的问题解决中去。 可以下载别人训练好的网络,保留网络中训练好的参数(参数分两种,一种是人为设置好的超参数,另外一种是在训练过程中学习/调整到的参数) 注意的是,原先训练好的网络可能会有多个输出结

    2024年01月20日
    浏览(44)
  • Python(Conda)环境迁移(从win10到macos12.5)笔记

    背景环境 win10是以前安装的conda和py。目前需要导出的环境的版本为py3.10.4。 macos是重新安装的conda,目前有的环境是py3.11.4。 我是先进conda用刚安装好的base创建了一个py3.10.12的虚拟环境,简称310。 以前的win上的base可能年少无知有修改过,具体也记不得( 1、通过conda迁移 方法

    2024年02月17日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包