【论文阅读】ControlNet

这篇具有很好参考价值的文章主要介绍了【论文阅读】ControlNet。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

简介

  • 目标:加入额外的条件(例如边缘图像,深度图像)控制生成的图像
    【论文阅读】ControlNet

  • 现有挑战

    • 特定领域上的数据较少,而预训练模型很大,很容易出现过拟合的情况。
    • 在资源有限的情况下,只能选择pretrain- finetune的训练方式
    • 端到端的训练对于使用是很有必要的
  • idea:将预训练模型拷贝两份分别为:locked copy和trainable copy。前者保留了原始模型的能力,后者使用小样本进行微调。然后通过zero convolution将二者连接起来。
    【论文阅读】ControlNet

ps:这里的zero convolution是1*1卷积,初始化为0以保证一开始模型的输出与预训练模型一致,以实现在预训练模型的基础上进行微调。相比于从头训练的收敛速度是更快的

  • 方法:
    【论文阅读】ControlNet

    • 只copy了上采样和middle部分的block
    • 这里为了让condition匹配latent space,也使用了一个encoder(卷积)降维
  • 训练

    • 在训练的时候mask掉了50%的prompt文本,来促使controlnet通过condition map学习到更多的语义
    • 小样本训练:只在middle block有zero convolution连接,decoder部分可以去掉连接,保证训练的高效
    • 有资源的情况下:可以在训练50k步之后把stable diffusion的decoder部分的4个block参数解冻一起训练
  • 控制条件

    • Canny Edge,边缘检测图
    • Hough Line,直线检测图
    • User Scribble,用户涂鸦
    • HED Edge,边缘检测图,基于vgg的神经网络,相较于canny对语义有一定理解
    • Human Pose,人体姿态
    • Semantic Segmentation,语义分割图
    • Depth,深度图
    • Normal Maps,法线贴图,对光线方向敏感
    • Cartoon line drawing,卡通线条画
      【论文阅读】ControlNet
  • 注意

    • 如果出现突然收敛的情况(前面生成的不确,突然在某一步正确了),可能是陷入了局部最优解,这是最好不要继续优化更多的步,在算力允许的情况下增大batch size
    • 可以只在前面部分的step中加入controlnet控制,后面的step不加控制,能够让生成的图像更具多样性(webUI上操作很容易)
  • 优缺点文章来源地址https://www.toymoban.com/news/detail-479572.html

    • 优点:能够在数据量有限,计算有限(消费级显卡)的情况下fine tune一个端到端的下游模型
    • 局限:使用边缘检测的时候可能controlnet会理解错语言,不过加上正确的prompt能够在一定程度上进行纠正

到了这里,关于【论文阅读】ControlNet的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OSTrack论文阅读分享(单目标跟踪)

    PS:好久没写csdn了,有点忙,但更多的是比较懒。 今天分享的论文是 OSTrack :Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework 论文网址:https://arxiv.org/pdf/2203.11991.pdf GitHub网址:https://github.com/botaoye/OSTrack 单目标跟踪的相关背景就不详细展开。 双流两阶段架构

    2024年02月15日
    浏览(74)
  • 论文阅读--带有提示的无训练目标计数

    Title: Training-free Object Counting with Prompts  Abstract: This paper tackles the problem of object counting in images. Existing approaches rely on extensive training data with point annotations for each object, making data collection labor-intensive and time-consuming. To overcome this, we propose a training-free object counter that treats the counting t

    2024年02月15日
    浏览(36)
  • 小样本图像目标检测研究综述——张振伟论文阅读

    目前,小样本图像目标检测方法多基于经典的俩阶段目标检测算法Faster R-CNN作为主干网络,当然也有将YOLO,SSD一阶段目标检测算法作为主干网络的。 检测过程中不仅需要提取分类任务所关注的高层语义信息,还要获取低层级像素级信息实现目标的定位。 1.2.1 基于度量学习方

    2024年02月13日
    浏览(48)
  • 论文阅读笔记 | 三维目标检测——PV-RCNN++算法

    如有错误,恳请指出。 paper:《PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector Representation for 3D Object Detection》(2022 IJCV) 做点云检测的肯定知道了,这又是Shaoshuai Shi大佬的另外一篇文章,Shaoshuai Shi大佬的主页介绍:https://shishaoshuai

    2023年04月08日
    浏览(90)
  • [论文阅读]PillarNeXt——基于LiDAR点云的3D目标检测网络设计

    PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds 基于LiDAR点云的3D目标检测网络设计 论文网址:PillarNeXt 代码:PillarNeXt 这篇论文\\\"PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds\\\"重新思考了用于激光雷达点云3D目标检测的网络设计。主要的贡献

    2024年02月08日
    浏览(46)
  • 小样本目标检测综述__刘浩宇(导航与控制2021)论文阅读

    早期采用了大量标注样本回归候选框的位置,但后来 目标集和训练集数据分布不同导致检测效果下降 。 对于没有大量样本支持的小样本检测应用就需要使用 先验知识 来弥补样本的不足。 可以分为三类: 数据域 通过先验知识来做数据增强,以弥补样本不足的问题,解决模

    2024年02月12日
    浏览(51)
  • 『论文阅读|利用深度学习在热图像中实现无人机目标检测』

    论文题目: Object Detection in Thermal Images Using Deep Learning for Unmanned Aerial Vehicles 利用深度学习在热图像中实现无人机目标检测 这项研究提出了一种神经网络模型,能够识别无人驾驶飞行器采集的热图像中的微小物体。模型由三部分组成:骨干、颈部和预测头。骨干基于 YOLOv5 的结

    2024年02月20日
    浏览(40)
  • 伪装目标检测模型论文阅读之:Zoom in and out

    论文链接:https://arxiv.org/abs/2203.02688 代码;https://github.com/lartpang/zoomnet 最近提出的遮挡对象检测(COD)试图分割视觉上与其周围环境融合的对象,这在现实场景中是非常复杂和困难的。除了与它们的背景具有高度的内在相似性之外,这些对象通常在尺度上是多样的,外观上是模

    2024年01月16日
    浏览(48)
  • 【论文阅读】Untargeted Backdoor Attack Against Object Detection(针对目标检测的无目标后门攻击)

    论文题目: Untargeted Backdoor Attack Against Object Detection(针对目标检测的无目标后门攻击) 发表年份: 2023-ICASSP(CCF-B) 作者信息: Chengxiao Luo (清华大学深圳国际研究生院) Yiming Li(清华大学深圳国际研究生院) Yong Jiang(清华大学深圳国际研究生院,鹏程实验室人工智能研

    2024年02月09日
    浏览(38)
  • FSOD论文阅读 - 基于卷积和注意力机制的小样本目标检测

    标题:基于卷积和注意力机制的小样本目标检测 作者:郭永红,牛海涛,史超,郭铖 郭永红,牛海涛,史超,郭铖.基于卷积和注意力机制的小样本目标检测 [J/OL].兵工学报. https://link.cnki.net/urlid/11.2176.TJ.20231108.1418.002 典型的FSOD使用Fast R-CNN作为基本的检测框架 本文亮点:引入

    2024年01月24日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包