前言
任意风格迁移(Arbitrary style transfer)具有广阔的应用前景和重要的研究价值,是计算机视觉领域的研究热点。许多研究表明,任意风格迁移取得了显着的成功。然而,现有的方法可能会产生伪影(artifacts),有时会导致内容结构的失真(distortion)。 为此,本文提出一种新颖的模块,名为Attention-wise and Covariance-Matching Module (ACMM),可以在没有伪影的情况下更好地保存内容结构。
一、背景介绍
任意风格迁移(Arbitrary style transfer)的主要任务就是学习目标图像的风格(Style image),将其应用于源图像(Content image),同时保持源图像的内容结构。
主要贡献:
(1)ACMM模块使用全局统计来计算注意图的协方差(covariance),来提升生成图像内容结构的保留,并且消除伪影。
(2)引入histogram loss来进一步提高生成结果的颜色饱和度。
(3)和SOTA方法比较,ACMM效果甚好。
二、相关工作
(1)基于Patch的方法:难以平衡内容结构和风格模式。
(2)基于统计学(statistics)的方法:AdaIN存在扭曲内容(content)和风格细节不足;WCT存在内容失真、扭曲。
(3)继WCT后的方法:忽视了局部风格样式。
(4)基于像素点(pixel-points)均值和标准差匹配的方法:内容结构失真;仅通过一个像素点难以确定语义是否相似;弱化全局特征信息。
三、方法论
网络结构:
损失函数:
四、实验
训练过程在单张 NVIDIA A100 GPU 上持续 50k 次迭代。
定性评估:
定量评估:
五、评价指标
(1) LPIPS:LPIPS是一种用于评价图像之间的感知相似性的指标。距离越小越好。
(2)SSIM:(structural similarity)结构相似性,也是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。SSIM取值范围[0,1],值越大(↑),表示图像失真越小.
(3)MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error)。
(4)PSNR:(Peak Signal to Noise Ratio)峰值信噪比,基于对应像素点间的误差评估指标,因此会出现评价结果与人的主观感觉不一致的情况。
其中,MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error),H、W分别为图像的高度和宽度;n为每像素的比特数,一般取8,即像素灰阶数为256. PSNR的单位是dB,数值越大(↑)表示失真越小。
(5)FID:(Frechet Inception Distance)是计算真实图像和生成图像的特征向量之间距离的一种度量。**分数越低(↓)代表两组图像越相似,**或者说二者的统计量越相似,FID 在最佳情况下的得分为 0.0,表示两组图像相同。文章来源:https://www.toymoban.com/news/detail-780113.html
总结
本文ACMM模块有效地缓解风格迁移伪影问题。虽然引入histogram loss损失增强了色彩渲染效果,但是增加了训练时间。以上就是关于这篇论文的主要内容。文章来源地址https://www.toymoban.com/news/detail-780113.html
到了这里,关于【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!