论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）

1年前作者：完美屁桃分类：Toy博客阅读(7)违法举报

这篇具有很好参考价值的文章主要介绍了论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Paper：Grounded Language-Image Pre-training

Code：https://github.com/microsoft/GLIP

简介：

定位任务与图像检测任务非常类似，都是去图中找目标物体的位置，目标检测为给出一张图片找出bounding box，定位为给出一个图片和文本，根据文本找出物体。GLIP 模型统一了目标检测（object detection）和定位（grounding）两个任务，构建了一个统一的训练框架，从而将两个任务的数据集都利用起来。再配合伪标签的技术来扩增数据，使得训练的数据量达到了前所未有的规模。在训练完成之后，直接以 zero-shot 的方式在 COCO 数据集上进行测试，达到了 49.8 AP。
GLIP 进行 zero-shot 测试的结果如下图所示，不管是给定几个类别（如 person、pistol、apple等）还是给定一段话（如 ‘there are some holes on the road’）作为文本编码器的输入，GLIP 模型都能从图像中找到对应物体的位置。

论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）

如何统一两个任务：

detection 和 grouding 任务的目标函数都是由两部分损失组成，即分类损失和定位损失。定位损失不必多说，直接去计算与标注中的 GT 框的距离即可。

论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）

1、而对于分类损失，则有所不同。对于 detection 任务来说，分类的标签是一个类别单词，在计算分类损失时，每个区域框特征与分类头计算得到 logits，输出 logits 经过 nms 筛选之后，与 GT 计算交叉熵损失即可。

论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）

对于目标检测，给定一个图片Img，通过图像的backbone得到region embedding，O是N*d的一个region embedding，即如果有n个bounding box 每个bounding box embedding的维度就是d。之后再接一个分类头，判断bounding box里的物体是哪个类，分类头W是一个矩阵，维度为c*d，c是有多少个类别，将region embedding与W相乘得最后分类的logits S，之后用mns把bounding box筛选一下再跟groundtruth算交叉熵得到最终的loss。

2、对于 vision grounding 任务来说，标签是一个句子，不是用分类头，而是通过文本编码器得到文本特征，计算文本特征与区域框特征的相似度，得到匹配分数，想看看图像区域和句子里的单词是怎么匹配的。

论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）

给定一个图片Img，通过图像的backbone得到region embedding，接下来输入一个句子至文本编码器得到文本embedding，之后文本embedding与图像的region embedding算相似性。

3、作者提出，只要判断一下两个任务中什么时候是 positive match，什么时候是 negative match，就能将两个任务统一起来了。理论分析后，作者使用统一过后的框架验证了在 COCO 数据集上的指标，与之前的目标检测框架持平，因此从实验上也验证了自己的想法。

数据集：

既然统一了 detection 和 grounding 两个任务，最直接的一个利好就是两边的数据集都可以拿来训练这个统一的框架。即下图中所示的 O365 和 GoldG 两个数据集。这些数据集都是有标注的，规模还不够大。想要进一步获得更大量的数据，必须像 CLIP 那样借助无标注的图像文本对数据。但是，目标检测任务的训练必须要 GT 框，单独的图文对数据没法直接用。作者这里使用了 self-training 中伪标签的方式，使用 O365 和 GoldG 上训练好的 GLIP-T（c）去在图文对数据 Cap4M/ Cap24M 上生成伪标签，直接当做 GT 框给 GLIP-T/L 进行训练。生成的伪标签肯定有错误，但是实验表明，经过扩充大量伪标签数据训练得到的 GLIP-L 模型仍然会有性能提高。

论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）

模型结构:

1、GLIP 模型结构及训练目标如下图所示，模型是以有监督的方式进行训练，计算得到文本特征和图像特征的相似度之后，直接与 GT 计算对齐损失（alignment loss）即可，定位损失（Localization loss）也是直接与GT 框计算。

2、模型中间的融合层（fusion）是为了增加图像编码器和文本编码器之间的特征交互，使得最终的图像-文本联合特征空间训练得更好。

论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）

定量实验结果：

GLIP 的定量实验结果如下图所示，GLIP 模型可以做 zero-shot 的目标检测，并且能够达到 49.8 AP。如果再在 COCO 上进行微调，GLIP 的 AP 能够超过当前最好的一些有监督方法。

论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）

GLIPv2

Paper：GLIPv2: Unifying Localization and Vision-Language Understanding

Code：https://github.com/microsoft/GLIP

GLIP 的进一步拓展工作 GLIPv2 融合了更多定位相关的任务（如检测、实例分割）和更多的多模态相关的任务（如问答、字幕生成）。文章来源地址https://www.toymoban.com/news/detail-445601.html

到了这里，关于论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

[BLIP]-多模态Language-Image预训练模型
论文：https://arxiv.org/pdf/2201.12086.pdf 代码：GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation demo：BLIP - a Hugging Face Space by akhaliq motivation：从模型角度来看，大多数方法要么采用基于编码器的模型，要么采用编码器
2024年02月05日
浏览(8)
跨模态检索论文阅读：(PTP)Position-guided Text Prompt for Vision-Language Pre-training
(PTP)Position-guided Text Prompt for Vision-Language Pre-training 视觉语言预训练的位置引导文本提示视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力，促进了各种跨模态的学习任务。然而，我们注意到，VLP模型往往缺乏视觉基础/定位能力，这对许多下游任务如视觉推理至
2024年02月11日
浏览(13)
论文阅读【自然语言处理-预训练模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART：用于自然语言生成、翻译和理解的去噪序列对序列预训练【机构】：Facebook AI 【作者】：Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoye
2024年02月03日
浏览(11)
【论文笔记】Improving Language Understanding by Generative Pre-Training
背景：自然语言理解包括广泛的不同任务，如文本蕴涵、QA问答、语义相似性评估和文档分类。问题：尽管大型未标记文本语料库（corpora）非常丰富；但用于学习特定任务的标记数据却很少，这使得采用传统的有监督深度学习方法训练得到的模型表现较差。解决：通过
2024年03月24日
浏览(15)
【NLP经典论文精读】Improving Language Understanding by Generative Pre-Training
chatGPT的初代工作，可以说没有GPT，就没有现在的大模型百家争鸣，本篇文章回顾这篇经典论文，思考作者是如何根据前者的工作在思想上进行创新，从而得到通用的模型架构。 Paper: https://www.mikecaptain.com/resources/pdf/GPT-1.pdf Code: https://github.com/huggingface/transformersGPT 自然语言理解
2024年02月15日
浏览(71)
【论文笔记】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS
GitHub 视觉转换器的输入单元，即图像补丁，没有预先存在的词汇。预测遮罩面片的原始像素往往会在预训练短程依赖性和高频细节上浪费建模能力输入编码：通过tokenizer将输入的文本中的每个单词转换为固定维度的向量表示输入Transformer 编码器：使用多层的 Transformer 编码
2024年02月11日
浏览(12)
BEiT: BERT Pre-Training of Image Transformers 论文笔记
论文名称： BEiT: BERT Pre-Training of Image Transformers 论文地址：2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org) 代码地址：unilm/beit at master · microsoft/unilm (github.com) 作者讲解：BiLiBiLi 作者PPT：文章资源首先展示的是我基于这个算法搭建的网页 demo ，欢迎体验。https://wangqvq-be
2024年02月11日
浏览(10)
ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》
以下是我阅读完整篇论文做的个人总结，基本包含了ChatGPT1设计的完整框架思路，可以仅看【论文总结】章节。在GPT1实现的核心架构中，包含两个阶段。第一阶段在第一阶段基于一个包含 7000本书籍内容的海量未标注文本数据集进行无监督预训练，该阶段引入了一种 T
2024年02月05日
浏览(13)
Re58：读论文 REALM: Retrieval-Augmented Language Model Pre-Training
诸神缄默不语-个人CSDN博文目录诸神缄默不语的论文阅读笔记和分类论文名称：REALM: Retrieval-Augmented Language Model Pre-Training 模型名称：Retrieval-Augmented Language Model pre-training (REALM) 本文是2020年ICML论文，作者来自谷歌，关注RAG+LLM。目标是解决纯用LM参数储存知识就得让LM尺寸越来
2024年02月04日
浏览(9)
论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
标题：ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者：Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期：2020 期刊：AAAI 文章给出了一种新的NLP预训练模型的训练方法，并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE
2024年02月09日
浏览(9)