What the DAAM: Interpreting Stable Diffusion Using Cross Attention

这篇具有很好参考价值的文章主要介绍了What the DAAM: Interpreting Stable Diffusion Using Cross Attention。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

What the DAAM: Interpreting Stable Diffusion Using Cross Attention

论文链接:https://arxiv.org/pdf/2210.04885.pdf

Background
在读本篇文章之前先来了解深度学习的可解释性,可解释性方法有类激活映射CAM、基于梯度的方法、反卷积等,在diffusion模型出来之后,本篇文章就对扩散模型中的交叉注意力做了探究,主要做的工作是用交叉注意力来解释扩散模型学习到的特征,针对的具体任务是文本生成,探究不同词性、语义的单词和图像特征之间的关系。
What the DAAM: Interpreting Stable Diffusion Using Cross Attention
不同的解释方法对应的可视化

What the DAAM: Interpreting Stable Diffusion Using Cross Attention
可以看到,不同语义的单词,对应图片的注意力区域也会有所不同。
What the DAAM: Interpreting Stable Diffusion Using Cross Attention

本篇文章的研究内容有两方面,一个是研究语法关系如何转化为视觉交互,另一个是扩散模型中的视觉语言现象。用到的研究方法是对
归一化的Cross attention分别进行定量评估: 语义分割和定性评估:归因分析。

Pipline

Stable Diffusion模型
这个模型是另一篇论文主要的工作,作者直接把这个模型拿过来用了,没有做什么改进。
在这里也简单介绍一下Stable Diffusion,这是一个生成扩散模型,可以做的任务有文本生成图像、图像生成图像、分割生成图像等等。模型分为三个部分,左侧为编码解码结构,中间为隐空间 生成扩散结构、右侧为条件指导结构。
图像X经过编码器生成离散的向量(目的是为了可以进行离散的加噪去噪),再经过一个加噪过程(可以是高斯噪声)得到一个各向同性的噪声分布,再经过去噪过程,恢复为图像编码,经过解码器就可以得到生成的图像。去噪的模型是一个由N个交叉注意力块组成的Unet模型
,模型学习到噪声的分布与条件的关系,将条件输入训练后的模型就可以生成目标图像。
作者在这里的去噪逆扩散过程中选择其稍微靠后的step,进行可解释性研究。
What the DAAM: Interpreting Stable Diffusion Using Cross Attention

Diffusion Attentive Attribution Maps
以往的归因分析通过梯度进行计算,但在扩散模型中无法进行梯度计算,因此我i们选用词汇和特征图的得分的方式进行分析。
下图中的A展示了一些词汇的注意扩散归因图,B表示双三次线性插值,用了三次插值法得到了A右面那张图,经扩展映射得到C,对各层热力图进行求和得到D,最后尺度归一化(归一化值求和保持线性尺度),将其可视化为一个软热图,较高的值具有更大的归因。经过一个阈值计算,得到E。

What the DAAM: Interpreting Stable Diffusion Using Cross Attention

结果分析
下面这张图表示了专家对图注意力与词汇匹配的一些得分判断,横坐标分别表示差 中 亮 优,可以看到名词和比例的评价较好,说明模型对这两种特征学习的很好。
What the DAAM: Interpreting Stable Diffusion Using Cross Attention

广义分析
coco数据集可解释的词(含语义分析)与其对应的热力图展示如下
What the DAAM: Interpreting Stable Diffusion Using Cross Attention
句法分析
对比了具有上下文关系 句法关系的热图表示。
What the DAAM: Interpreting Stable Diffusion Using Cross Attention
形容词分析
当改变形容词时会发现生成物体的特征也随之改变,但当关键词去掉的时候,比如汽车,会发现后面的大楼也会被识别为关键目标,说明也还是有一定的误差。
What the DAAM: Interpreting Stable Diffusion Using Cross Attention

Conclusions
本文通过解释词-像素交叉注意图,研究了扩散模型中的视觉语言学现象。通过定量语义分割任务和定性广义归因研究,证明了归因方法DAAM的正确性。作者应用DAAM来评估句法关系如何转化为视觉互动,发现某些注意力头的适当的包含了它们的从属特征。作者用这些发现来形成关于特征纠缠的假设,表明词是混杂的,形容词出现太广泛。文章来源地址https://www.toymoban.com/news/detail-490684.html

到了这里,关于What the DAAM: Interpreting Stable Diffusion Using Cross Attention的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • What are the meaning of linear_velocity and angular_velocity?

    linear_velocity and angular_velocity are commonly used concepts in robotics. linear_velocity refers to the speed of movement in a straight line. It is measured in meters/second (m/s). For a mobile robot, the linear velocity refers to the speed at which the robot as a whole is moving in a straight line. angular_velocity refers to the speed of rotation, measur

    2023年04月24日
    浏览(43)
  • pip报错:Consider using the `--user` option or check the permissions

      报错内容: 错误:由于环境错误,无法安装软件包:[WinError 5]拒绝访问。:’d: pythonjdkscriptspip。exe’ 考虑使用–user选项或检查权限。 安装时加上 --user 即可 ModuleNotFoundError: No module named \\\'pip\\\': 如何安全更新pip 1、python -m pip install --upgrade pip python的全局角度进行更新pip,

    2024年02月13日
    浏览(38)
  • 安装python库报错:Consider using the `--user` option or check the permissions.

    昨天在服务器上训练ResNet,导包出现了一些小问题: 1)安装tqdm库的时候,出现 Consider using the ‘–user’ option or check the permissions.访问python下的site-package权限不够。添加‘–user’即可,再次尝试使用以下命令 问题解决。 2)使用torch和torchvision的时候出现异常,Invoked with: typi

    2024年02月08日
    浏览(50)
  • The project is using an incompatible version of the Android Gradle plugin.

    积极主动,以终为始 The project is using an incompatible version (AGP 7.4.1) of the Android Gradle plugin. Latest supported version is AGP 7.2.0 AGP(Android Gradle Plugin) - Android Gradle 插件 在Android开发过程中,可能会遇到上面的这个Android Gradle Plugin版本不匹配的问题。网上可能告诉你了一些解决方案。但是本

    2024年02月11日
    浏览(83)
  • The Advantages of Using Containers in Devops Projects

    作者:禅与计算机程序设计艺术 DevOps (Development and Operations) refers to the collaboration between development and IT operations professionals to improve quality of software delivery, increase efficiency, reduce costs and time-to-market, automate processes, and provide continuous feedback loops with customers. In this article we will discuss

    2024年02月08日
    浏览(44)
  • 80、DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

    官网:https://dreamfusion3d.github.io/ 基础先验知识:Mip-NeRF 360、Ref-NeRF、Imagen 使用预训练的2D文本到图像扩散模型(Imagen)来执行文本到3d(Mip-NeRF 360)合成 基于概率密度蒸馏的损失,使用二维扩散模型作为参数图像生成器优化的先验,通过梯度下降优化随机初始化的3D模型(NeRF

    2024年02月11日
    浏览(40)
  • 论文阅读 | RePaint: Inpainting using Denoising Diffusion Probabilistic Models

    Lugmayr A, Danelljan M, Romero A, et al. Repaint: Inpainting using denoising diffusion probabilistic models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 11461-11471. 左图展示了masked image逐步去噪的过程;右图展示了基于扩散模型的Inpainting方法生成图片的多样性。 现有方法的问

    2024年01月21日
    浏览(38)
  • DREAMFUSION TEXT-TO-3D USING 2D DIFFUSION 论文笔记

    Recent breakthroughs in text-to-image synthesis have been driven by diffusion models trained on billions of image-text pairs. Adapting this approach to 3D synthe- sis would require large-scale datasets of labeled 3D data and efficient architectures for denoising 3D data, neither of which currently exist. In this work, we circum- vent these limitations by usi

    2024年02月07日
    浏览(53)
  • 论文阅读 - Detecting Social Bot on the Fly using Contrastive Learning

    目录  摘要:  引言 3 问题定义 4 CBD 4.1 框架概述 4.2 Model Learning 4.2.1 通过 GCL 进行模型预训练  4.2.2 通过一致性损失进行模型微调  4.3 在线检测 5 实验 5.1 实验设置 5.2 性能比较 5.5 少量检测研究  6 结论 https://dl.acm.org/doi/pdf/10.1145/3583780.3615468           社交机器人检测正

    2024年02月06日
    浏览(46)
  • gem5学习(13):使用默认配置脚本——Using the default configuration scripts

    目录 一、A tour of the directory structure 1、boot/ 2、common/ 3、dram/ 4、example/ 5、learning_gem5/ 6、network/ 7、nvm/ 8、ruby/ 9、splash2/ 10、topologies/ 二、Using se.py and fs.py 三、Some common options se.py and fs.py 在这个教程中,将探讨如何使用gem5附带的默认配置脚本。 gem5附带了许多配置脚本,使

    2024年01月16日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包