论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS

这篇具有很好参考价值的文章主要介绍了论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

iclr 2024 spotlight  reviewer 评分 6668

1 intro

  • 在CV领域,很多Vision-language Model 会把来自图像的Embedding输入给LLM,并让LLM作为Decoder输出文字、类别、检测框等
    • 但是在这些模型中,LLM并不会直接处理来自图像的Token,需要和语言进行交互才可以
    • ——>论文探索的是:LLMs能否有效地直接处理完全基于视觉的任务,而不依赖于语言?(即LLM直接作为Encoder
  • 和现有Vision-language Models的区别
    • 现有vision-language model研究如何把视觉embedding输入给LLM(把视觉表征在语言空间对齐)
    • 论文研究聚焦如何提供更好的embedding
  • LLM中的冻结Transformer块在许多不同模态、任务的Encoder上都有用

    • 2D语义:图像分类 (image classification)
    • 点云:点云分类 (point cloud classification)
    • 视频:动作识别 (action recognition)
    • 无语义,回归任务:轨迹预测 (motion forecasting)
    • 2D多模态:2D VQA和图像搜索 (2D VQA and Retrieval)
    • 3D多模态:3D VQA

2 方法

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

2.1 与视觉语言模型的比较 

  • 论文提出的方法乍一看似乎与最近的视觉语言模型(VLMs)相似,其中线性层直接将视觉特征投影到LLMs的输入空间中。
    • 然而,论文提出的方法是不同的,因为线性层不一定将视觉表示z对齐到语言空间中。(也不是将视觉embedding输入给LLM)
    • 具体而言,这体现在三个方面:
      • (1)视觉预训练的独立性。论文提出的方法支持从头开始训练,不依赖于像CLIP这样的预训练视觉编码器。
      • (2)语言的独立性。论文提出的方法可以在没有基于语言的输入或提示的情况下运行,并且它适用于一般的视觉表示学习,而不仅仅是视觉语言任务。
      • (3)转换块的独立性。以前的VM将LLM视为一个连贯的模块,而我们的框架将每个Transformer块分离为一个独立的视觉编码层

2.2 与LLMs的比较

  • 由于视觉和文本数据之间的不同格式,论文大大改变了LLM Transformer的行为。
    • (1)注意力掩码。LLMs通常利用自回归掩码来模拟文本生成的顺序。
      • 然而,视觉数据中的标记一次性出现,例如猫的图像标记。
      • ——>论文放弃自回归注意力掩码,仅使用注意力掩码来指示填充标记。
    • (2)位置嵌入。LLMs中的位置嵌入,例如LLaMA中的旋转位置嵌入,不是视觉编码器的常见选项。
      • ——>为简单起见和与原始视觉骨干的一致性而删除LLMs的位置嵌入。
  • 该改进对视觉任务仍然产生了积极影响。

3 实验

3.1 图像分类

ViT模型的准确性在合并冻结的LLaMA Transformer块后持续提高

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.2 点云识别

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.3 动作识别

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.4 姿势预测

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.5 2D VQA & 3D VQA

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.6 LLM transformer 层 的影响

  • 层的类型显着改变了性能。
  • 这些实验还验证了我们的框架适用于各种LLM和Transformer层,并强调选择适当的Transformer层的重要性。
  • 尽管它们可能不是最佳的,但最后的LLM层始终改善了性能

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.7 只有足够大的LLM才有提升Visual Encoding的效果

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

4 信息过滤假设

作者认为:“如果把加了LLM的提升都归结于"LLM包含了可以泛化的知识",其实比较偷懒而且不一定正确”

  • 预训练的LLM Transformer 作为“过滤器”发挥作用
    • 区分信息标记并放大它们对预测的贡献
    • 放大激活特征的幅度或频率的形式
    • LLM Transformer模块能够在训练的过程中筛选和目标任务相关的Visual Tokens并且放大他们的贡献。】

4.1 定性推导

4.1.1 有意义信息标记的显著集中 

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

  • 假设源于在增加预训练LLM Transformer后特征激活高亮展示了有意义的信息标记
    • 提取每个层后的特征激活信息
    • 特征激活是根据幅度(中心化后的L2范数)和频率(傅里叶变换后的角度的L2范数)计算的
  • ——>在添加LLM transformer后,标记激活更好地捕捉到目标对象的区域

4.1.2 嘈杂的注意力分数

  • 与特征激活相比,注意力分数很难捕捉到预测所需的相关视觉标记
    • 调查了CLS标记(classification)和最后一个transformer块中视觉标记之间的注意力分数
    • 有监督的 ViT 模型通常具有嘈杂的注意力分数
    • 尽管 ViT-LLaMA 展示了一些注意力头中偶尔有分割能力,但大多数注意力分数也受到散射和嘈杂的影响
  • ——>LLM transformer 的好处不能简单地归因于注意力分数,因为注意力分数无法可靠地贡献正确的视觉标记

4.2 定量证据

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

参考内容:[ICLR 2024 (Spotlight)] LLM里的Transformer还可以这么用? - 知乎 【作者自己的sharing】文章来源地址https://www.toymoban.com/news/detail-850119.html

到了这里,关于论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models

    TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models arXiv2023 复旦大学 Benchmark、Continual Learing、LLMs 已经对齐过的大模型 (Aligned LLMs )能力很强,但持续学习能力缺乏关注; 目前CL的benchmark对于顶尖的LLMs来说过于简单,并且在指令微调存在model的potential exposure。(这里的

    2024年01月18日
    浏览(61)
  • 【论文笔记】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

    将LLMs应用于医学,以协助医生和病人护理,成为人工智能和临床医学领域的一个有前景的研究方向。为此, 本综述提供了医学中LLMs当前进展、应用和面临挑战的全面概述 。 具体来说,旨在回答以下问题: 1)什么是LLMs,如何构建医学LLMs? 2)医学LLMs的下游表现如何? 3)

    2024年02月03日
    浏览(46)
  • 【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然语言处理(Natural Language Processing,NLP)领域内的 预训练语言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。

    2024年02月14日
    浏览(78)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP这一类方法只能进行图片级别的视觉和文本对齐; 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联; 本文致力于进行多粒度(

    2024年02月09日
    浏览(43)
  • 论文阅读之Multimodal Chain-of-Thought Reasoning in Language Models

    本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。 大型语言模型(LLM)通过利用思想链(CoT)提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出了令人印象深刻的性能。然而,现有的CoT研究主要集中在语言模态上。

    2024年03月14日
    浏览(51)
  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    原文链接: Making Large Language Models Perform Better in Knowledge Graph Completion 基于大语言模型(LLM)的知识图补全(KGC) 旨在利用 LLM 预测知识图谱中缺失的三元组 ,并丰富知识图谱,使其成为更好的网络基础设施,这可以使许多基于网络的自动化服务受益。然而,基于LLM的KGC研究有

    2024年01月23日
    浏览(48)
  • 论文解读: 2023-Lost in the Middle: How Language Models Use Long Contexts

    大模型使用的关键在于Prompt,然而大模型存在幻觉现象,如何减少这种现象的发生成为迫切解决的问题。外部知识库+LLM的方法可以缓解大模型幻觉,但是如何撰写Prompt才能发挥LLM的性能。下面介绍这篇论文说明上下文信息出现在Prompt什么位置使模型表现最佳,以及上下文文本

    2024年02月17日
    浏览(47)
  • REC 系列 Visual Grounding with Transformers 论文阅读笔记

    写在前面   Hello,马上又是一周过去了,快要开学了,不知道小伙伴们状态都调整过来了吗?加油噢~   这同样是一篇关于 REC 的文章,文章时间比较早了,但也是属于那种入门必看的文章。 论文地址:VISUAL GROUNDING WITH TRANSFORMERS 代码地址:https://github.com/usr922/vgtr 收录于

    2024年02月12日
    浏览(36)
  • 论文笔记:ViTGAN: Training GANs with Vision Transformers

    2021 论文研究的问题是:ViT是否可以在不使用卷积或池化的情况下完成图像生成任务 即不用CNN,而使用ViT来完成图像生成任务 将ViT架构集成到GAN中,发现现有的GAN正则化方法与self-attention机制的交互很差,导致训练过程中严重的不稳定 ——引入了新的正则化技术来训练带有

    2024年02月07日
    浏览(45)
  • (论文阅读)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    论文地址 https://openreview.net/pdf?id=_VjQlMeSB_J         我们探索如何生成一个思维链——一系列中间推理步骤——如何显著提高大型语言模型执行复杂推理的能力。 特别是,我们展示了这种推理能力如何通过一种称为思维链提示的简单方法自然地出现在足够大的语言模型中,

    2024年02月08日
    浏览(101)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包