Pixel Aligned Language Models 论文阅读笔记(PixelLLM)

这篇具有很好参考价值的文章主要介绍了Pixel Aligned Language Models 论文阅读笔记(PixelLLM)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Pixel Aligned Language Models (PixelLLM)

发表于2023.12, Google Research & UC San Diego

Part 1 概述

PixelLLM:像素对齐大语言模型

  • a vision-language model with fine-grained localization ability by densely aligning each output word to a pixel location
  • can take an image and any combination of location or text as input or output.
  • generates captions, and aligns each output word to a pixel location
  • 能够将locations(点或框的集合)作为输入或输出;
    位置作为输入时,生成与指定区域相关的描述文本;
    位置作为输出时,模型可以为每个词语生成像素坐标,即密集的词语定位。
  • 在带有定位的图片注释数据集(Localized Narratives Dataset)上做预训练,该数据集为每个词指出了对应像素

测试任务:1)referring localization on RefCOCO ,2)location conditioned captioning on RefCOCO and Visual Genome ,3)dense object captioning on Visual Genome。均取得SOTA。

模型示意:

Pixel Aligned Language Models 论文阅读笔记(PixelLLM),论文笔记,语言模型,论文阅读,笔记

效果展示:

Pixel Aligned Language Models 论文阅读笔记(PixelLLM),论文笔记,语言模型,论文阅读,笔记

目前大模型在局部定位任务(localization tasks,如word grounding , referring localization)较差,缺乏对特定区域/对象及其确切位置的详细理解。

大多数工作都专注于仅语言的输出:Flamingo 的门控函数;BLIP2 的可学习查询;LLAVa 的指导性图像-文本对…

提出问题:

Can large language models achieve spatial understanding and reasoning from the visual world? If so, how? 大型语言模型能否从视觉世界实现空间理解和推理。如果能,如何?

Part 2 模型

前提:将每个词(word)视为一个token

之前的工作大多只对名词做ground,这里则不强制模型忽略非实体词汇,以便模型学习关系术语,例如“holding”。

如何输出每个词的对应像素:在LM输出的单词特征上添加一个小的 MLP ,对每个单词回归出其像素位置。

模型输入:图像(image)、位置提示(location prompt,可选),文本提示(text prompt,可选)

模型输出:图像描述(caption)、各个词语对应的像素位置(per-word localization,一个与句子长度相同的点轨迹序列)

PixelLLM主要包括三部分:图像编码器、提示编码器、提示特征提取器。

模型架构:Pixel Aligned Language Models 论文阅读笔记(PixelLLM),论文笔记,语言模型,论文阅读,笔记

  • 视觉编码器V(Image Encoder)
    由两个并行主干组成:使用 SAM 初始化的 ViT-H 和使用 EVA02初始化的 ViT-L。
    两个目的:
    1)首先,使用 SAM 主干并保持冻结,使我们能够继承 SAM 的强分割能力,并提供强大的定位特征
    2)其次,使用另一个可调主干来学习语义特征
    当输入至提示特征提取器时,我们在通道维度上连接这两个特征。
  • 位置提示编码器P(Prompt Encoder)
    对点或框坐标进行编码,
    consists of a sine-cosine position embedding followed by linear layers
  • 提示特征提取器 E (Prompt Feature Extractor)
    将prompt-conditioned image features映射到text embedding space
    之后将输出与前缀文本的嵌入特征一同送到语言模型L。
    该提取器使用具有一组可学习tokens 的two-way transformer,灵感来自 QFormer。
    two-way transformer在每一层交替使用 [P(b)、q] 和 f 作为查询或键/值。
    (b是位置提示,P(b)是位置提示编码器输出,q是learnable token,f是图像编码器输出)
    此结构具有与ROIAlign相似的函数,但它是可学习的,不需要特征插值和采样。
  • 语言模型 L(LLM)
    LM的权重可以保持冻结,或者通过Low-rank finetuning (LoRA) 进行更新。
    作者使用 the instruction finetuned T5-XL (following BLIP2)。
    作者将LoRA应用于自注意力块的查询和值投影层,以将T5-XL 适应视觉任务。
    T5-XL 的其他参数在训练期间被冻结。
  • 输出层 (Vocabulary Mapping Layer + MLP):
    LM的最后一个线性层是一个词汇映射层,从语言特征空间映射到 one-hot 词汇索引。
    为了使用相同的语言特征进行定位,只需并行地添加一个小的 MLP,它将语言特征映射到二维位置输出(单点预测)。
    位置预测与语言解码一起动态运行,仅添加少量计算开销。
  • 注意
    位置输出不参与自回归解码的反馈传播,以避免影响原始文本解码过程。
  • 备注:
    输入主要左侧的是图像 I 和可选的位置提示 b。模型将专注于提示所指示的位置给出对应的文本输出以及点序列。
    如果没有提供位置提示,则使用整个图像的全局框提示,即 b = (0, 0, H, W ),其中 H 和 W 是图像大小。

Part3 训练与测试

数据集:Localized Narratives Dataset(LN,2019),包含人工注释以及注释者在叙述过程中的鼠标轨迹。

三元组形式(I, s, p),即:图片,叙述文本,鼠标轨迹位置

这给出了注释中所有单词的同步位置。虽然并非所有word-location pairs 在视觉上有意义或准确,但作者认为它们是有价值的,因为它们来自实际的人类注意力。

损失函数:

caption的损失函数:standard label-smoothed cross-entropy loss

localization的损失函数:L1 regression loss

PixelLLM可以将文本/位置的任何组合作为输入或输出,可分别用于以下下游任务:

  • Location-conditioned captioning:输入图像和某一位置,输出该位置的描述。
  • Referring localization and segmentation:输入图像和查询语句,输出与查询语句对应的边界框。
    输入:图像 + 全局的位置提示 + 查询语句提示
    输出:生成点序列(默认结果)、框序列(替换MLP为四输出通道)、分割区域序列(插入SAM的掩码解码器来进一步获得分割掩码)
  • Dense object captioning:先检测出图像所有物体,再一一描述。
    需要在图像编码器后加一个检测头,将得到的目标框作为位置提示。Pixel Aligned Language Models 论文阅读笔记(PixelLLM),论文笔记,语言模型,论文阅读,笔记

对比实验:

A key difference between our architecture and GRiT is the region feature extractor,

GRiT uses ROIAlign to explicitly extract image features within the bounding boxes.

PixelLLM employs a prompt encoder and prompt feature extractor which don't require the image feature sampling and interpolation like ROIAlign.

消融实验:

  • dense per-pixel localization formulation 是关键

    两种替代方案:(1)将边界框坐标编码为原始字符串,直接使用原始 LLM 输出头。(2) 将边界框坐标离散化为bin,并将 bin 编号编码为 LLM 词汇表中的额外标记 。这两个想法都用于稀疏编码位置,即编码名词的位置。

    经对比发现,模型效果提升来自于更好的定位解码过程: 1)替代方案混合解码常规词和定位,这两个任务可以相互干扰。 2)在pixelLLM模型中,words 与 localizations是并行解码的。且此结构能够利用密集注释数据集进行训练,进一步提高了性能。
  • LoRA可以帮助冻结的语言模型更好地适应定位任务

Part 4 总结

  1. PixelLLM,一种视觉语言模型,可输出图像的文字说明以及每个单词的定位。输入还可以附带一些定位prompt和文字prompt。
  2. 利用带有定位每个单词的图像说明和鼠标轨迹的数据集(Localized Narratives dataset),用于训练每个单词的定位理解。
  3. 模型灵活,可以适应各种视觉语言任务,包括referring localization and segmentation, location-conditioned captioning, and dense captioning,具有最先进的性能。
  4. 与之前定位模型的主要不同在于localization representation。之前的工作试图将位置建模为语言模型词汇表中的一个词,但本文使用回归表示,且使用了直接来自人工标注的数据集。
  5. 注意力轨迹建模是种新任务,旨在将长而详细的图像说明文本与人类注意力的轨迹对齐。评估此任务的唯一现有工作是 MITR(2021) ,它在冻结区域特征上训练线性层,但学习到的知识无法转移到其他任务。作者首次为这项任务提出端到端训练框架并大规模对其进行训练。
  6. 作者强调,定位跟踪输出是由语言模型特征产生的,而不是像MITR那样是由视觉特征产生的。

Part 5 补充

组会中师兄指出,在LM生成点轨迹序列时,最后的语文特征向量竟然会包含位置信息,尤其是LM在完全冻结时依然能行,可能还有待进一步分析研究。下面是原文5.4节的相关内容:

It is also worth noting that even without LoRA, the frozen T5-XL performs on par with models that fine-tune the text encoder jointly [8, 45]. It is evidence that the frozen large language model like T5 encompasses strong localization ability, which could be revealed by our PixelLLM.文章来源地址https://www.toymoban.com/news/detail-804878.html

到了这里,关于Pixel Aligned Language Models 论文阅读笔记(PixelLLM)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】Jailbreak and Guard Aligned Language Modelswith Only Few In-Context Demonstrations

     对齐语言模型的通用和可迁移对抗攻击  论文地址:https://arxiv.org/abs/2310.06387 1.Motivation 之前的越狱攻击方法可以通过对有害请求添加对抗前缀或后缀来破解对齐的LLM,以产生有害的答案。然而,由于这些前/后缀的不自然性,这些对抗性prompt可以通过简单的困惑检测器轻松防

    2024年02月01日
    浏览(38)
  • VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 论文阅读笔记

    写在前面   又是一周周末,在家的时间感觉过得很快呀,下周就能回学校啦~ 论文地址:Open-Set Domain Adaptation with Visual-Language Foundation Models 代码地址:当前版本暂未提供代码地址 预计提交于:CVPR 2024 Ps:2023 年每周一篇博文阅读笔记,主页 更多干货,欢迎关注呀,期待 5

    2024年02月14日
    浏览(43)
  • 【论文阅读】Scaling Laws for Neural Language Models

    本文简要介绍 Scaling law 的主要结论 原文地址:Scaling Laws for Neural Language Models 个人认为不需要特别关注公式内各种符号的具体数值,而更应该关注不同因素之间的关系,比例等 Performance depends strongly on scale, weakly on model shape scale: 参数量 N N N , 数据量 D D D , 计算量 C C C shape: 模

    2024年02月16日
    浏览(45)
  • 论文阅读 A Survey of Large Language Models 3

    为了检验LLM的有效性和优越性,大量的任务和基准被用来进行实证评估和分析。我们首先介绍了LLM语言生成和理解的三种基本评估任务,然后介绍了LLM具有更复杂设置或目标的几个高级任务,最后讨论了现有的基准和实证分析。 在这一部分中,我们主要关注LLM的三种评估任务

    2024年02月13日
    浏览(45)
  • 【论文阅读】Can Large Language Models Empower Molecular Property Prediction?

    作者:Chen Qian, Huayi Tang, Zhirui Yang 文章链接:Can Large Language Models Empower Molecular Property Prediction? 代码链接:Can Large Language Models Empower Molecular Property Prediction?  分子属性预测得到巨大的关注,分子图能够被描述为图结构的数据或SMILES (Simplified Molecular-Input Line-Entry System)文本。L

    2024年01月20日
    浏览(54)
  • 【论文阅读】Language Models are Few-Shot Learners(GPT-3)

    本文简要介绍了GPT-3的背景,模型架构,训练数据以及训练方式部分。具体训练细节,实验结果很多,可以在用到的时候再看 本文剖析了pretrain-finetune架构存在的问题: 对于每个新的任务,都需要大量的标注数据 将表达能力更强的模型(预训练阶段要求用大模型)在比较窄的

    2024年02月14日
    浏览(51)
  • (GPT3)Language Models are Few-Shot Learners论文阅读

    论文地址:https://arxiv.org/pdf/2005.14165v4.pdf         最近的工作表明, 通过对大量文本语料库进行预训练,然后对特定任务进行微调,许多 NLP 任务和基准测试取得了实质性进展 。 虽然在体系结构中通常与任务无关,但此方法仍然需要特定于任务的微调数据集,其中包含数

    2024年02月08日
    浏览(60)
  • 论文《LoRA: Low-Rank Adaptation of Large Language Models》阅读

    今天带来的是由微软Edward Hu等人完成并发表在ICLR 2022上的论文《LoRA: Low-Rank Adaptation of Large Language Models》,论文提出了大模型 tuning 框架 LoRA ( Lo w- R ank A daptation)。 论文地址:https://openreview.net/pdf?id=nZeVKeeFYf9 附录下载地址:https://openreview.net/attachment?id=nZeVKeeFYf9name=supplementa

    2024年02月11日
    浏览(52)
  • 【论文阅读】LoRA: Low-Rank Adaptation of Large Language Models

    code:GitHub - microsoft/LoRA: Code for loralib, an implementation of \\\"LoRA: Low-Rank Adaptation of Large Language Models\\\" 做法: 把预训练LLMs里面的参数权重给 冻结 ; 向transformer架构中的每一层, 注入 可训练的 rank decomposition matrices-(低)秩分解矩阵,从而可以显著地减少下游任务所需要的可训练参

    2024年02月03日
    浏览(47)
  • 【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models

    原文地址:REPLUG: Retrieval-Augmented Black-Box Language Models 本文提出 REPLUG ,一个将语言模型视为黑盒检索增强的语言模型架构。在 REPLUG 中,仅将检索得到的文档拼接到原有输入前面即可,不需要像以前一样更新语言模型参数。该架构中可以通过更新检索器进一步提升性能。 给一

    2024年02月11日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包