论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS-Toy模板网

这篇具有很好参考价值的文章主要介绍了论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

iclr 2024 spotlight reviewer 评分 6668

1 intro

在CV领域，很多Vision-language Model 会把来自图像的Embedding输入给LLM，并让LLM作为Decoder输出文字、类别、检测框等
- 但是在这些模型中，LLM并不会直接处理来自图像的Token，需要和语言进行交互才可以
- ——>论文探索的是：LLMs能否有效地直接处理完全基于视觉的任务，而不依赖于语言？（即LLM直接作为Encoder）
和现有Vision-language Models的区别
- 现有vision-language model研究如何把视觉embedding输入给LLM（把视觉表征在语言空间对齐）
- 论文研究聚焦如何提供更好的embedding
LLM中的冻结Transformer块在许多不同模态、任务的Encoder上都有用
- 2D语义：图像分类 (image classification)
- 点云：点云分类 (point cloud classification)
- 视频：动作识别 (action recognition)
- 无语义，回归任务：轨迹预测 (motion forecasting)
- 2D多模态：2D VQA和图像搜索 (2D VQA and Retrieval)
- 3D多模态：3D VQA

2 方法

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

2.1 与视觉语言模型的比较

论文提出的方法乍一看似乎与最近的视觉语言模型（VLMs）相似，其中线性层直接将视觉特征投影到LLMs的输入空间中。
- 然而，论文提出的方法是不同的，因为线性层不一定将视觉表示z对齐到语言空间中。（也不是将视觉embedding输入给LLM）
- 具体而言，这体现在三个方面：
  - （1）视觉预训练的独立性。论文提出的方法支持从头开始训练，不依赖于像CLIP这样的预训练视觉编码器。
  - （2）语言的独立性。论文提出的方法可以在没有基于语言的输入或提示的情况下运行，并且它适用于一般的视觉表示学习，而不仅仅是视觉语言任务。
  - （3）转换块的独立性。以前的VM将LLM视为一个连贯的模块，而我们的框架将每个Transformer块分离为一个独立的视觉编码层

2.2 与LLMs的比较。

由于视觉和文本数据之间的不同格式，论文大大改变了LLM Transformer的行为。
- （1）注意力掩码。LLMs通常利用自回归掩码来模拟文本生成的顺序。
  - 然而，视觉数据中的标记一次性出现，例如猫的图像标记。
  - ——>论文放弃自回归注意力掩码，仅使用注意力掩码来指示填充标记。
- （2）位置嵌入。LLMs中的位置嵌入，例如LLaMA中的旋转位置嵌入，不是视觉编码器的常见选项。
  - ——>为简单起见和与原始视觉骨干的一致性而删除LLMs的位置嵌入。
该改进对视觉任务仍然产生了积极影响。

3 实验

3.1 图像分类

ViT模型的准确性在合并冻结的LLaMA Transformer块后持续提高

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.2 点云识别

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.3 动作识别

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.4 姿势预测

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.5 2D VQA & 3D VQA

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.6 LLM transformer 层的影响

层的类型显着改变了性能。
这些实验还验证了我们的框架适用于各种LLM和Transformer层，并强调选择适当的Transformer层的重要性。
尽管它们可能不是最佳的，但最后的LLM层始终改善了性能

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

3.7 只有足够大的LLM才有提升Visual Encoding的效果

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

4 信息过滤假设

作者认为：“如果把加了LLM的提升都归结于"LLM包含了可以泛化的知识"，其实比较偷懒而且不一定正确”

预训练的LLM Transformer 作为“过滤器”发挥作用
- 区分信息标记并放大它们对预测的贡献
- 放大激活特征的幅度或频率的形式
- 【LLM Transformer模块能够在训练的过程中筛选和目标任务相关的Visual Tokens并且放大他们的贡献。】

4.1 定性推导

4.1.1 有意义信息标记的显著集中

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

假设源于在增加预训练LLM Transformer后特征激活高亮展示了有意义的信息标记
- 提取每个层后的特征激活信息
- 特征激活是根据幅度（中心化后的L2范数）和频率（傅里叶变换后的角度的L2范数）计算的
——>在添加LLM transformer后，标记激活更好地捕捉到目标对象的区域

4.1.2 嘈杂的注意力分数

与特征激活相比，注意力分数很难捕捉到预测所需的相关视觉标记
- 调查了CLS标记（classification）和最后一个transformer块中视觉标记之间的注意力分数
- 有监督的 ViT 模型通常具有嘈杂的注意力分数
- 尽管 ViT-LLaMA 展示了一些注意力头中偶尔有分割能力，但大多数注意力分数也受到散射和嘈杂的影响
——>LLM transformer 的好处不能简单地归因于注意力分数，因为注意力分数无法可靠地贡献正确的视觉标记

4.2 定量证据

论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS,论文笔记,论文阅读,语言模型,人工智能

参考内容：[ICLR 2024 (Spotlight)] LLM里的Transformer还可以这么用？ - 知乎【作者自己的sharing】文章来源地址https://www.toymoban.com/news/detail-850119.html

到了这里，关于论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！