论文阅读——X-Decoder

这篇具有很好参考价值的文章主要介绍了论文阅读——X-Decoder。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Generalized Decoding for Pixel, Image, and Language

Towards a Generalized Multi-Modal Foundation Model

1、概述

X-Decoder没有为视觉和VL任务开发统一的接口,而是建立了一个通用的解码范式,该范式可以通过采用共同的(例如语义)但尊重自然差异(例如空间掩码与序列语言)来无缝连接任务,从而全面显著改进不同的分割和VL工作。

输入:两个查询,(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation,(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks

输出:两种类型,像素级别和token级别。

2、X-Decoder

2.1 Formulation

论文阅读——X-Decoder,论文,人工智能

图片:论文阅读——X-Decoder,论文,人工智能经过image encoder 论文阅读——X-Decoder,论文,人工智能得到特征论文阅读——X-Decoder,论文,人工智能,文本T经过text encoder 论文阅读——X-Decoder,论文,人工智能编码为论文阅读——X-Decoder,论文,人工智能,长度为n,非语义查询或者潜在查询论文阅读——X-Decoder,论文,人工智能,输入X-Decoder输出:

论文阅读——X-Decoder,论文,人工智能

论文阅读——X-Decoder,论文,人工智能分别是像素级别masks和token级别语义.

在许多以前的统一编码器-解码器模型中,图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决,而且使生成预训练也难以解决。相反,通过完全解耦图像和文本编码器,并将输出全部用作查询,X-Decoder可以从图像内监督和图像间监督中学习,这对于学习更强的像素级表示和支持不同粒度的任务至关重要。

2.2 Unification of Tasks

论文阅读——X-Decoder,论文,人工智能

Generic Segmentation:论文阅读——X-Decoder,论文,人工智能

Referring Segmentation:论文阅读——X-Decoder,论文,人工智能,与一般分割类似,只使用与潜在查询相对应的前m个解码输出。

Image-Text Retrieval:论文阅读——X-Decoder,论文,人工智能

Image Captioning and VQA:论文阅读——X-Decoder,论文,人工智能,这两个任务有两个不同:Captioning遵循因果掩mask策略,而VQA则不遵循。其次,使用Os中的所有输出作为字幕,但仅使用最后一个输出来预测VQA的答案。

之前的一系列工作探索了序列解码接口进行统一。然而,在这项工作中,我们提倡通过功能而不是接口来实现统一,即我们最大限度地共享不同任务的共同部分,同时保持单个任务的其余部分不变。

2.3 Unified Architecture

论文阅读——X-Decoder,论文,人工智能,不同level的特征

在每一层:先和视觉特征做交叉注意力,然后潜在查询和文本查询做自注意力:

论文阅读——X-Decoder,论文,人工智能

其中,对第一个公式,所有查询和视觉特征做交叉注意力,对于潜在查询,使用masked cross-attention mechanism,对文本查询使用全部注意力。

对第二个公式,(i) 我们使用最后一个潜在查询来提取全局图像表示,剩余的用于一般分割;(ii)对于图像Caption,每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力;(iii)对于参考分割,潜在查询与所有文本查询做注意力。

论文阅读——X-Decoder,论文,人工智能

对,m个潜在查询输出mask,对于语义输出,为潜在查询和文本查询预测输出,

2.4  End-to-End Pre-training

两种类型的损失函数:Semantic Loss,Mask Loss

1)Semantic Loss:

三个任务对应三个损失函数:

对image-text retrieval,计算语言图片相对损失。最后一个有效的token feature 论文阅读——X-Decoder,论文,人工智能代表文本,记作论文阅读——X-Decoder,论文,人工智能,用潜在特征的表示全局图片的特征表示图片,记作论文阅读——X-Decoder,论文,人工智能,对minibatch  B获得B对特征对:论文阅读——X-Decoder,论文,人工智能,然后计算点乘得到论文阅读——X-Decoder,论文,人工智能,然后计算双向交叉熵:

论文阅读——X-Decoder,论文,人工智能

y是class labels。

对于mask classification,包括“background”在内C个类别编码为C个文本查询,提取每个查询最后一个有效特征作为概念表示,然后取对应前(m-1)个潜在查询的decoder输出,计算这些输出和概念表示的点乘,得到论文阅读——X-Decoder,论文,人工智能,最后计算交叉熵损失:论文阅读——X-Decoder,论文,人工智能

对于image captioning,提取所有词汇向量,大小为V,X-Decoder最后n个语义输出,计算点乘得到论文阅读——X-Decoder,论文,人工智能,和GT的写一个token的id  论文阅读——X-Decoder,论文,人工智能计算交叉熵论文阅读——X-Decoder,论文,人工智能

2)Mask Loss

用Hungarian matching找到和前(m − 1)个输出匹配的GT,使用BCE和DICE计算损失。

3  实验

100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。

Focal-T and DaViT-B/L  as the vision encoder文章来源地址https://www.toymoban.com/news/detail-767630.html

到了这里,关于论文阅读——X-Decoder的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 毕业论文如何生成目录?人工智能毕业论文选题

    AIPaperPass是一款专为AI论文写作而设计的创新平台。作为一名研究人员或学生,写作一篇高质量的AI论文可能是一项繁琐而耗时的任务。然而,借助AIPaperPass论文写作生成器,您可以轻松地生成高质量的AI论文,节省宝贵的时间和精力。 ——应用优点—— 1、高效论文生成 AIPa

    2024年02月20日
    浏览(40)
  • 【SciSpace】人工智能太强大了!文献阅读版ChatGPT,一站式科研文献阅读工具 - 知识点目录

    首先需要上传PDF 网站支持中文问答 Explain math table - 可以询问表格或者公式信息

    2024年02月16日
    浏览(47)
  • 物联网,人工智能专业毕业论文选题推荐

    实现一个智能家居系统需要以下内容: 感知子系统:感知子系统是智能家居系统的核心,它能够感知环境中的温度、湿度、光线、声音、人体活动等信息,并将这些信息转换成数字信号传输到控制中心。常用的感知设备包括温湿度传感器、光线传感器、声音传感器、红外传感

    2024年02月08日
    浏览(50)
  • 最全攻略之人工智能顶会论文发表

    人工智能领域的顶级会议是学术界最重要和备受关注的论坛,聚集了来自世界各地的顶尖研究人员、工程师和学生,共同交流和展示他们在人工智能领域的最新研究成果和创新想法。 这些人工智能顶级会议不仅提供了一个学术交流的平台,还扮演着推动人工智能领域发展的重

    2024年02月12日
    浏览(42)
  • 论文怎么降低AIGC(人工智能生成内容)的影响?

    大家好,小发猫降重今天来聊聊论文怎么降低AIGC(人工智能生成内容)的影响?,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 论文怎么降低AIGC(人工智能生成内容)的影响? 在学术界,随着人工智能技术

    2024年03月16日
    浏览(68)
  • gpt人工智能写论文怎么样-chatGTP如何写论文

    使用 GPT 写论文具体的操作方法因人而异,但可以提供一些建议: 充分理解论文的题目、主题和结构,并确定论文所需的内容和方向。 针对论文的不同部分,使用 GPT 模型进行自动化生成或补充,例如摘要、介绍、正文、结论、参考文献等。 对 GPT 生成的文本进行筛选和修改

    2024年02月08日
    浏览(54)
  • 人工智能研究的未来:20 年机器学习和深度学习的论文创意!

    “机器学习的美妙之处在于,它可以应用于你想要解决的任何问题,只要你能为计算机提供足够的例子。”         该文章列出了 20 年机器学习和深度学习本科课程的 2023 个潜在论文想法。每个论文的想法都包括一个 介绍 ,简要概述了主题和 研究目标 。所提供的想法与

    2024年02月09日
    浏览(50)
  • 近期微软重大论文----《通用人工智能的火花:GPT-4的早期实验》

      这篇论文是最近讨论度极高的一篇论文,推特上几乎被这篇论文刷屏,作者Sebastien Bubeck是微软机器学习基础组的研究经理。他本人之前的研究主要集中在机器学习理论,凸优化,对抗鲁棒性方法,下面是该大佬的个人主页: 虽然作者是做理论ML出身,但是这篇论文中却没有

    2024年02月05日
    浏览(61)
  • 【必看】揭秘AI革命背后的力量!550篇人工智能核心论文深度解析

    大家好,我是你们的知识探索者,今天我带来了一个前所未有的宝藏分享——一份涵盖了550篇人工智能领域核心论文的终极指南!这不仅仅是一份文档,而是一扇通往人工智能世界深处的大门。 ** ** 🌟 为什么这550篇论文至关重要? 在人工智能的浪潮中,无数的研究和实验层

    2024年02月21日
    浏览(65)
  • 论文解析-基于 Unity3D 游戏人工智能的研究与应用

    这段代码是一个重写了 AgentAction 方法的方法。以下是对每行代码解释: ①public override void AgentAction(float[] vectorAction) 这行代码声明了一个公共的、重写了父类的 AgentAction 方法的方法。它 接受一个 float 类型的数组作为参数。 ② float newAction0 = Mathf.Clamp(vectorAction[0], -1, 1); 这行代

    2024年02月03日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包