Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

这篇具有很好参考价值的文章主要介绍了Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文连接:
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
论文代码:
Code
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models,diffusion model,论文学习笔记,计算机视觉

摘要

Text-to-image diffusion以文本嵌入作为输入能生成高质量的图像,这表明diffusion model的表征与高级语义概念高度关联。此外,CLIP能够赋予图像准确地开集预测(即zero-shot 分类能力),因此将二者的表征空间结合,能够在语义分割领域实现高效Open-Vocabulary Panoptic Segmentation。作者实验证明了该方法的可行性,并取得了sota性能。

主要贡献

  • 首次利用diffusion model在开集分割任务中。
  • 提出了结合text-image diffusion 模型和CLIP的高效开集学习框架。
  • 相较于其他方法取得了明显的性能提升。
方法
Training

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models,diffusion model,论文学习笔记,计算机视觉

整体Training的pipline简洁高效,示意图如上,大致流程为:

  1. 使用Text-to-image Diffusion预训练模型代替传统的CNN/Transformer提取图像特征,由于该模型需要用到图像对应的文本嵌入,为了生成Input Image对应的文本嵌入,作者这里设计了一个Implicit Captioner:使用CLIP预训练模型抽取图像特征,然后通过一个可学习的MLP将其映射到text空间得到对应的文本embedding, 用于diffusion model输入。
  2. 选择 Mask2Former 用于生成 N = 100 N=100 N=100个proposal mask,然后通过pooling获取mask embedding。
  3. 对于每个proposal embedding,存在一个类别标签,因此可以优化交叉熵分类损失。(不过这里应该存在一些细节问题,proposal和真实的GT_proposal存在出入,那么类别标签的assignment?)
  4. 作者还使用了基于Image-captiongrounding损失:对于COCO数据集而言,随机选择Input-Image的一个caption提取其中的名词,用于Image的候选类别(类别单词)集合
    C word = { w k } k = 1 K word \mathbf{C}_{\text{word}}=\{w_{k}\}^{K_{\text{word}}}_{k=1} Cword={wk}k=1Kword,然后计算proposal embedding与这些类别集合(本质上作者是将图像的caption转换了实体类别标签用于度量学习)的相似度:
    g ( x ( m ) , s ( m ) ) = 1 K ∑ k = 1 K ∑ i = 1 N p ( z i , C word  ) k ⋅ ⟨ z i , T ( w k ) ⟩ , g\left(x^{(m)}, s^{(m)}\right)=\frac{1}{K} \sum_{k=1}^{K} \sum_{i=1}^{N} \mathbf{p}\left(z_{i}, \mathbf{C}_{\text {word }}\right)_{k} \cdot\left\langle z_{i}, \mathcal{T}\left(w_{k}\right)\right\rangle, g(x(m),s(m))=K1k=1Ki=1Np(zi,Cword )kzi,T(wk),
    ,那么对于输入的一批图像中,其对应的caption正样本只有一个它自己的caption,其它图像的都可以近似看作负样本,因此可以使用CLIP那样对比损失:
    L G = − 1 B ∑ m = 1 B log ⁡ exp ⁡ ( g ( x ( m ) , s ( m ) ) / τ ) ∑ n = 1 B exp ⁡ ( g ( x ( m ) , s ( n ) ) / τ ) − 1 B ∑ m = 1 B log ⁡ exp ⁡ ( g ( x ( m ) , s ( m ) ) / τ ) ∑ n = 1 B exp ⁡ ( g ( x ( n ) , s ( m ) ) / τ ) . \begin{aligned} \mathcal{L}_{\mathrm{G}}= & -\frac{1}{B} \sum_{m=1}^{B} \log \frac{\exp \left(g\left(x^{(m)}, s^{(m)}\right) / \tau\right)}{\sum_{n=1}^{B} \exp \left(g\left(x^{(m)}, s^{(n)}\right) / \tau\right)} \\ & -\frac{1}{B} \sum_{m=1}^{B} \log \frac{\exp \left(g\left(x^{(m)}, s^{(m)}\right) / \tau\right)}{\sum_{n=1}^{B} \exp \left(g\left(x^{(n)}, s^{(m)}\right) / \tau\right)}. \end{aligned} LG=B1m=1Blogn=1Bexp(g(x(m),s(n))/τ)exp(g(x(m),s(m))/τ)B1m=1Blogn=1Bexp(g(x(n),s(m))/τ)exp(g(x(m),s(m))/τ).
Inference

测试pipline示意图如下:

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models,diffusion model,论文学习笔记,计算机视觉

  • 和训练一样,没有text-embedding 的输入,Diffusion 没法提取特征,因此使用训练好的implict captioner来获取text嵌入,提取特征, 进而送入Mask-Generator获得proposal
  • 作者发现虽然internal representation of the diffusion model 能够具有不错的proposal mask分类能力,但是结合CLIP的判别器会具有更好的分类准确度,因此作者最后是结合了CLIP的特征分类结果与Diffusion特征的分类结果.
    p final  ( z i , C test  ) ∝ p ( z i , C test  ) λ p ( z i ′ , C test  ) ( 1 − λ ) . \mathbf{p}_{\text {final }}\left(z_{i}, \mathbf{C}_{\text {test }}\right) \propto \mathbf{p}\left(z_{i}, \mathbf{C}_{\text {test }}\right)^{\lambda} \mathbf{p}\left(z_{i}^{\prime}, \mathbf{C}_{\text {test }}\right)^{(1-\lambda)}. pfinal (zi,Ctest )p(zi,Ctest )λp(zi,Ctest )(1λ).
实验结果
  • Open-Vocabulary Panoptic Segmentation: Train ODISE on COCO and test on ADE20K
    Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models,diffusion model,论文学习笔记,计算机视觉

  • Open-Vocabulary Semantic Segmentation

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models,diffusion model,论文学习笔记,计算机视觉

消融实验

作者比较了internal representation of text-to-image diffusion models和其它预训练模型(全监督,自监督等等),结果表明前者的表征在分割上优于其它预训练模型。

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models,diffusion model,论文学习笔记,计算机视觉
不同的caption generators对模型结果的影响
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models,diffusion model,论文学习笔记,计算机视觉文章来源地址https://www.toymoban.com/news/detail-605604.html

到了这里,关于Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [深度学习]Open Vocabulary Object Detection 部署开放域目标检测模型使用感受

    Open Vocabulary Object Detection (OpenVOD) 是一种新型的目标检测方法,它使用开放词汇的概念来识别和检测图像中的对象。与传统的目标检测方法相比,OpenVOD具有更高的灵活性和可扩展性,因为它允许用户自定义对象类别和词汇,从而能够适应各种不同的应用场景和需求。 OpenVOD的核

    2024年01月22日
    浏览(53)
  • 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV、NLP 论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 论文链接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    浏览(56)
  • Text-to-Image with Diffusion models的巅峰之作:深入解读​ DALL·E 2​

    Diffusion Models专栏文章汇总:入门与实战   前言: DALL·E 2、imagen、GLIDE是最著名的三个text-to-image的扩散模型,是diffusion models第一个火出圈的任务。这篇博客将会详细解读DALL·E 2《Hierarchical Text-Conditional Image Generation with CLIP Latents》的原理。 目录 背景知识:CLIP简介 方法概述

    2024年02月13日
    浏览(32)
  • (CVPR 2018) 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks

    卷积网络是分析图像、视频和3D形状等时空数据的事实标准。虽然其中一些数据自然密集(例如照片),但许多其他数据源本质上是稀疏的。示例包括使用LiDAR扫描仪或RGB-D相机获得的3D点云。当应用于此类稀疏数据时,卷积网络的标准“密集”实现非常低效。我们引入了新的

    2023年04月08日
    浏览(49)
  • 【论文阅读】Deep Instance Segmentation With Automotive Radar Detection Points

    基于汽车雷达检测点的深度 实例分割 一个区别: automotive radar  汽车雷达 : 分辨率低,点云稀疏,语义上模糊,不适合直接使用用于密集LiDAR点开发的方法  ; 返回的物体图像不如LIDAR精确,可以在雨,雪,雨夹雪,冰雹,雾,泥和尘土中返回; 在夜间和阴天条件下也比激

    2024年02月13日
    浏览(52)
  • OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

    地址:https://arxiv.org/pdf/2207.02255.pdf 1. 摘要     OSFormer为基于transformer的伪装实例分割(CIS)框架,有两个关键设计,首先是位置敏感transformer(LST),通过【位置引导查询】和【混合卷积前向传播网络】获得定位标签和实例级参数;第二,开发粗糙到精细融合模块(CFF)合并来

    2024年02月12日
    浏览(61)
  • 论文阅读:Polyp-PVT: Polyp Segmentation with PyramidVision Transformers

    这篇论文提出了一种名为Polyp-PVT的新型息肉分割框架,该框架采用金字塔视觉变换器(Pyramid Vision Transformer, PVT)作为编码器,以显式提取更强大的特征。本模型中使用到的关键技术有三个:渐进式特征融合、通道和空间注意力、自注意力。 Polyp-PVT通过引入三个简单的组件—

    2024年04月13日
    浏览(43)
  • On Moving Object Segmentation from Monocular Video with Transformers 论文阅读

    标题 :On Moving Object Segmentation from Monocular Video with Transformers 作者 : 来源 :ICCV 时间 :2023 代码地址 :暂无 通过单个移动摄像机进行移动对象检测和分割是一项具有挑战性的任务,需要了解识别、运动和 3D 几何。将识别和重建结合起来可以归结为融合问题,其中需要结合外

    2024年02月08日
    浏览(51)
  • SegDiff: Image Segmentation with Diffusion Probabilistic Models 基于扩散模型的图像语义分割模型

    目录 Diffusion models是生成模型的一种,同样的还有GAN,VAE,Flow模型等 Abstract 2、related work 3、背景 前向扩散表达: 反向生成过程: 4、理论 5、实验   论文地址:https://arxiv.org/pdf/2112.00390.pdf 代码:截至今天还未公开。 随着人工智能在图像生成,文本生成以及多模态生成等领域

    2024年02月02日
    浏览(56)
  • 弱监督实例分割 Box-supervised Instance Segmentation with Level Set Evolution 论文笔记

    写在前面   这是一篇基于 Box 的弱监督实例分割文章,之前也分享过几篇(主页有,欢迎关注一下呗~),采用旧纸堆里面翻出来的能量函数来做弱监督。 论文地址:Box-supervised Instance Segmentation with Level Set Evolution 代码地址:https://github.com/LiWentomng/boxlevelset 收录于:ECCV 202

    2023年04月18日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包