(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

这篇具有很好参考价值的文章主要介绍了(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Haoran Wei1∗, Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1
1MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology
arXiv 2023.12.11
背景:
随着大规模视觉-语言模型(LVLMs)的兴起,它们在多个领域展现出了卓越的性能。LVLMs通常使用一个通用的视觉词汇(如CLIP)来覆盖大部分常见的视觉任务。
研究动机:
目前的多模态大模型几乎都是用CLIP作为vision encoder,虽然CLIP有很强的视觉文本对齐能力并且能覆盖大多数日常任务,但是对于密集和细粒度感知的任务,例如高分辨率感知、非英语OCR以及文档/图表理解等,CLIP表现出了编码低效和out of vocabulary的问题。
主要贡献:
Vary方法为LVLMs的视觉感知能力提供了一个更高效和准确的视觉词汇扩展方案。通过生成新的视觉词汇并与原始词汇融合,该方法在特定视觉任务上表现出色,并在性能评估中取得了良好的结果。

(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型
这篇论文的灵感是来源于大型语言模型中的文本词汇扩展方式,不同于其他使用现成视觉词汇的模型,Vary的过程可以分为视觉词汇的生成和融合两个阶段。在第一阶段,我们使用一个“词汇网络”和一个微小的解码器网络,通过自动回归产生一个强大的新视觉词汇。在第二阶段,我们将视觉词汇表与原始词汇表融合,为lvlm有效地提供新的特征。

(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型
这个是Vary的训练方法和模型结构图,跟现有方法直接用现成的CLIP词表不同的是,Vary 分两个阶段:第一阶段先用一个很小的 Decoder-only 网络用自回归方式帮助产生一个强大的新视觉词表,此阶段为 Vary-tiny;具体来说,Vary-tiny主要由一个词汇网络和一个微小的 OPT-125M 组成。在两个模块之间,使用一个线性层来对齐通道尺寸。在Vary-tiny 中没有文本输入分支,因为它主要关注细粒度感知。希望新的视觉词汇网络能够在处理人工图像,即文档和图表方面表现出色,以弥补CLIP的不足。同时,也期望在输入自然图像时,它不会成为CLIP的噪声。因此,在生成过程中,本文将人工文档和图表数据作为正样本,将自然图像作为负样本来训练 Vary-tiny。然后,第二阶段,冻结新旧视觉词汇网络的权值,解冻其他模块的权值。融合新词表和 CLIP 词表,从而高效的训练多模大模型拥有新 feature,此阶段为 Vary-base。

数据集:
自制中英文文档数据集。
文档数据:开源论文
图表数据:matplotlib、pyecharts渲染工具
负的自然图像:COCO数据集中提取
(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型
论文的数据集是作者自己创建的,提取了部分开放获取的论文收集pdf格式文档作为英文部分,然后经过多种处理成为文本数据集。图表数据主要借助matplotlib和pyecharts作为渲染工具进行构建的。负的自然图像数据是从COCO数据集中提取的。
本文使用 SAM 预训练的 ViTDet 图像编码器作为 Vary 新词汇网络的主要部分。由于 SAM-base 的输入分辨率为(1024×1024),而输出步幅为 16,所以最后一层的特征维度的为(64×64×256),无法与 CLIP-L 的输出(N×C为256×1024)对齐。因此,本文在SAM 初始化网络的最后一层后面添加了两个卷积层,如下图所示。第一个卷积层的核大小为 3,目的是将特征变为 32×32×512。第二个卷积层的设置与第一个相同,可以进一步将输出变为 16×16×1024。之后,再将输出特征展平为 256×1024,以对齐 CLIP-VIT的图像 token 的维度。

(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型

在完成词汇网络的训练后,将它用于 Vary -base中。具体来说,将新的视觉词汇表与原始的 CLIP-VIT 并行。这两个视觉词汇表都有一个单独的输入嵌入层,即一个简单的线性。线性的输入通道为 1024,输出通道为 2048,保证了拼接后的图像 token 通道为4096,这与LLM (Qwen-7B 或 Vicuna-7B )的输入完全一致。
(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型
与Nougat相比,Vary具有细粒度的文本感知能力,他的edit distance、F1score和prediction都有所提升,但是召回率出现了下降,但是降得也并不是很低。
(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型
在下游任务中,与DocVQA和ChartQA上流行的方法的比较。Vary-base(以Qwen-7B为LLM)可以在DocVQA上实现78.2%(测试)和76.3%(验证)的ANLS,基于LLaVA-80k的SFT数据。使用LLaVA-665k数据进行SFT,Vary-base可以在ChartQA上达到66.1%的平均性能。这两个具有挑战性的下游任务的性能与Qwen-VL相当,甚至更好,这表明我们提出的视觉词汇扩大方法对下游也有前景。

通过MMVet基准测试监控Vary的一般性能。使用相同的LLM(Vicuna-7B)和SFT数据(LLaVA-CC665k),Vary比LLaVA-1.5提高了2.4%(32.9% vs. 30.5%)的总指标,证明我们的数据和训练策略不会损害模型的一般能力。此外,Vary配合Qwen-7B和LLaVA-80k可以实现36.2%的性能,进一步证明了我们的视觉词汇扩大方式的有效性。
(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型
(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型

(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型
(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models,每日论文,语言模型,人工智能,自然语言处理,计算机视觉,大模型
本文强调了扩展LVLM视觉分支的词汇量是非常重要的,并成功地设计了一个简单的方法来证明这一说法。实验表明,所提供的模型Vary在多任务中取得了不错的成绩,这主要得益于我们生成的新词汇。尽管Vary的表现令人满意,但我们认为如何有效地扩大视觉词汇量仍有很大的改进空间,特别是与成熟且相对简单的扩展文本词汇量的方法相比。我们希望Vary有用而高效的设计能够吸引更多的研究关注这一方向。

问题: 实际场景中的业务图片OCR效果一般,原因可能是模型训练过程中使用的数据大多数是论文或者是简单的文字图片等。文章来源地址https://www.toymoban.com/news/detail-788509.html

到了这里,关于(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【视频异常检测】VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection 论文阅读

    文章信息: 发表于:AAAI(CCF A) 原文链接:https://arxiv.org/abs/2308.11681 源码链接:https://github.com/nwpu-zxr/VadCLIP 最近,对比语言-图像预训练(CLIP)模型在各种图像级任务中取得了巨大成功,展现了学习丰富语义的强大视觉表示能力。一个开放且值得探讨的问题是如何高效地将这样一

    2024年03月19日
    浏览(41)
  • 跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 视觉语言预训练的位置引导文本提示 视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力,促进了各种跨模态的学习任务。 然而,我们注意到,VLP模型往往缺乏视觉基础/定位能力,这对许多下游任务如视觉推理至

    2024年02月11日
    浏览(34)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP这一类方法只能进行图片级别的视觉和文本对齐; 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联; 本文致力于进行多粒度(

    2024年02月09日
    浏览(32)
  • Multitask Vision-Language Prompt Tuning

    本文是LLM系列文章,针对《Multitask Vision-Language Prompt Tuning》的翻译。 提示调整以任务特定的学习提示向量为条件,已成为一种数据高效和参数高效的方法,用于将大型预训练视觉语言模型适应多个下游任务。然而,现有的方法通常考虑从头开始独立地为每个任务学习提示向量

    2024年02月10日
    浏览(25)
  • 历尽艰辛的问题:Waiting for the kubelet to boot up the control plane......This can take up to 4m0s

    只是初始化一个集群,没想到如此艰辛。 初始化集群使用如下命令: sudo kubeadm init --kubernetes-version=v1.26.1 --ignore-preflight-errors=all 结果出现如题所示问题: waiting for the kubelet to boot up the control plane as Static Pods from directory “/etc/kubernetes/manifests” this might take a minute or longer if the

    2024年02月06日
    浏览(37)
  • 【多模态】13、Vision-Language 模型在视觉任务中的调研

    近来,一种新的学习范式 pre-training → Finetuning → Prediction 取得了很大的进步,并且在视觉识别任务中取得了很好的效果。 使用 pretrained 模型来学习丰富的知识,可以加速模型对下游任务的收敛速度并且提高效果 但是,这种学习范式在下游任务仍然需要很多带标注的数据,如

    2024年02月17日
    浏览(27)
  • 【AIGC】16、Vision-Language 模型在视觉任务中的调研

    近来,一种新的学习范式 pre-training → Finetuning → Prediction 取得了很大的进步,并且在视觉识别任务中取得了很好的效果。 使用 pretrained 模型来学习丰富的知识,可以加速模型对下游任务的收敛速度并且提高效果 但是,这种学习范式在下游任务仍然需要很多带标注的数据,如

    2024年02月11日
    浏览(73)
  • VLT:Vision-Language Transformer用于引用的视觉语言转换和查询生成分割

    在这项工作中,我们解决了引用分割的挑战性任务。引用分割中的查询表达式通常通过描述目标对象与其他对象的关系来表示目标对象。因此,为了在图像中的所有实例中找到目标实例,模型必须对整个图像有一个整体的理解。为了实现这一点,我们 将引用分割重新定义为直

    2024年02月14日
    浏览(32)
  • 论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模态 论文,利用对比学习和动量来进行图片与文本信息的上游预训练。 作者提出问题 简单的跨模态比对模型无法确保来自同一模态的相似输入保持相似。(模态内部语义信息损失) 全局互信息最大化的操作没有考虑局部信息和结构信息。 对于上

    2024年04月13日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包