AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?

这篇具有很好参考价值的文章主要介绍了AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?

文章链接:https://arxiv.org/abs/2207.01328

项目地址:https://github.com/zjukg/DUET

该论文设计了一种新的零样本学习范式,通过迁移语言模型中的先验语义知识,与视觉模型的特征感知能力进行对齐,以增强后者对于未见过图像的识别能力。

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?
标图1:属性级对比学习题

引言

零样本学习(Zero-shot learning, ZSL)旨在预测在训练期间从未出现过样本的未知类别。对于零样本图像分类来说,最有效且广泛使用的语义信息是属性,它们用于描述类别级别视觉特征。然而当前的方法难以区分图像间的微妙视觉差异,这不仅来源于细粒度属性注释的不足,还由于属性间的不平衡和共现现象。

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?
标图2-1:属性间的不平衡和共现现象题

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?
图2-2:属性间的不平衡和共现现象

在本文中,作者提出了一种基于Transformer的端到端零样本学习方法(DUET),它通过自监督的多模态学习范式将来自预训练语言模型的潜在语义知识进行整合。贡献如下:

(1)开发了一个跨模态语义基准网络,以研究模型从图像中分离语义属性的能力;

(2)应用了基于属性级对比学习的策略,进一步增强模型对细粒度视觉特征的区分能力,克服属性的共现和不平衡问题;

(3)提出了多任务学习策略,考虑多模型目标。该方法可以同时在连续型的属性向量和离散型/结构化属性特征场景下工作,具有比较好的迁移泛化能力。

传统的零样本学习范式v.s. DUET学习范式

传统的零样本学习模式主要强调利用更多外部类别知识、进行数据增强,或研究更好的视觉编码器。相比而言,该框架强调跨模态模型的知识迁移(图3所示)。利用预训练语言模型(PLMs)的知识,以自监督的方式将知识转移到视觉转换器编码器中,从而实现对细粒度语义的有效定位

具体来说,其利用基于提示(prompt)的特征序列转换(FST),将不同类型的属性转换为文本序列。通过跨模态的语义定位网络(Cross-modal Semantic Grounding)和属性级对比学习(attribute-level contrastive learning)机制,利用跨模态的掩码复原(cross-modal mask reconstruction)训练目标从PLM中传递语义知识,同时缓解属性不平衡和共现问题,提高模型对细粒度视觉特征的区分能力。

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?
图3:学习范式对比标题

方法概览

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?
标图4:DUET 模型总览题

本文引入了一个巧妙的属性级别对比学习的模式,让模型来重点关注那些整体相似的图像中,容易造成困扰的细粒度特征差异。

  • 第一步是属性值序列化,文章从nlp社区中广泛运用的prompt中获得启发,借鉴表格预训练中的序列化模式,将图片属性值以key: [value,…]的形式进行文本序列化。这样做的好处是可以兼容多种不同的属性格式,包括知识图谱(KG)形式,向量形式,离散格式。当然,为了增加属性分布的多样性(diversity),作者对属性列表进行了基于概率的剪枝(attributes pruning),目的是为了防止模型因为属性的频繁共现而陷入懒惰学习。

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?

  • 跨模态的掩码复原。想法其实很直接,图像和文本同时输入,文本掩码,让模型强制从图像信息中获得相关属性来恢复掩码。这种方法其实在早期的多模态预训练模型中非常见,目的是让模型对齐视觉/语言的理解。而本文用一种巧妙的方法,让视觉模型的零样本学习能力得到了强化:

  • 使用预训练的语言模型(Bert)+预训练视觉模型(ViT,Swin,DeiT等),通过添加跨模态注意力层(cross-attention layer)进行桥接,而不是直接用多模态预训练模型。这样的好处是可以最大程度利用语言模型的语义信息和视觉模型的理解能力

  • 在视觉模型选择上,规避掉了使用ImageNet-21K进行预训练的模型,避免零样本测试过程中样本泄露。(测试集的图片不应该在预训练过程见过)

  • 属性级别的对比学习(Attribute-level Contrastive Learning)。本文的核心贡献点,可以用图1表示:对于一个目标样本,选择与其整体特征相似度高的作为负样本,与其整体特性相似度低的作为正样本。对于一个正负样本对,其需要与目标样本有公共的属性key(比如“羽毛图案”),在这种情况下,对负样本的要求是,其他属性尽可能相似,而“羽毛图案”不同; 对正样本的要求是,其他属性尽可能不同,而“羽毛图案”相同;最后,在属性的掩码-恢复过程中,模型被迫找到两个差异悬殊图片中细粒度的属性交集,两个非常相似图片中细粒度的属性差异,从而实现属性感知的解耦。

当然,论文在实现上还有许多其他的细节内容,比如多任务学习,以及概率采样,感兴趣的同学可以阅读原文。

实验效果

本文作为语言模型在零样本学习上的第一次尝试,在不同数据集上取得了优越甚至sota的效果。其中较为明显地看到,在 标准ZSL数据集(AWA2,CUB,SUN)上,相比于传统ResNet-based的方法,视觉预训练模型对于可见类的预测效果有明显提升(Seen class)。而在 K-ZSL数据集 上,模型也可以达到SOTA效果。此外,模型还获得了细粒度属性预测的附带能力,这是相比传统模型的额外优势。

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?

总结

随着最近大语言模型(large language model,LLM),和多模态LLM的发展与兴起,每个领域的众多子任务,就平均水平而言都被提高到了一个新的层次。然而,如何利用一种更有效的方法来开发/唤醒模型对于细节的认知,依然存在着挑战。拥有更好的特征组合能力,对于零样本/长尾对象的识别,是很重要的一个发展方向。虽然大模型的一个特点就是天然的零样本能力,但这是由训练语料的庞大所带来的。而传统方向的研究中,作为长尾现象的衍生,零样本学习依旧是一个重要的问题,在LLM时代重新思考这个方向,是后续研究者需要重点关注的问题。文章来源地址https://www.toymoban.com/news/detail-503261.html

到了这里,关于AAAI 2023 | 语言模型如何增强视觉模型的零样本能力 ?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据增强:让计算机视觉模型更加智能和有效

    作者:禅与计算机程序设计艺术 引言 1.1. 背景介绍 随着计算机视觉技术的快速发展,各种数据增强技术也应运而生。数据增强技术可以有效地提高计算机视觉模型的智能和有效性,从而在众多应用场景中取得更好的表现。 1.2. 文章目的 本文旨在阐述数据增强技术在计算机视

    2024年02月08日
    浏览(45)
  • 微前沿 | 第1期:强可控视频生成;定制化样本检索器;用脑电重建视觉感知;大模型鲁棒性评测

    欢迎阅读我们的新栏目——“科研上新”! “科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。 本期内容速览 01. 强可控视频生成模型 DragNUWA 02. LLM

    2024年02月11日
    浏览(50)
  • 越来越多的企业将LLM大语言模型和AI人工智能整合到他们的业务系统中,以增强用户体验或生产力 —— 人工智能和语言模型如何改变能源行业?

    目录 Artiifical Intelligence 人工智能 Language Models 语言模型 Large Language Models 大型语言模型

    2024年02月10日
    浏览(66)
  • 计算机视觉会议(CVPR,ECCV,ICCV,NIPS,AAAI,ICLR等)

    大家都知道,计算机视觉和人工智能领域发展非常迅速,大部分最新的工作都首先发表在顶级会议上,这些顶级会议反映了当前的最新研究方向和最新方法。本文主要介绍一下CVPR,ECCV,ICCV,NIPS,AAAI,ICLR等(后面有空再更新几个) 不需要看 投稿日期 和 会议介绍 的可以直接跳

    2024年01月16日
    浏览(32)
  • 时空数据挖掘精选23篇论文解析【AAAI 2023】

    今天和大家分享 时空数据挖掘 方向的资料。 时空数据挖掘是人工智能技术的重要分支,是一种采用人工智能和大数据技术对城市时空数据进行分析与挖掘的方法,旨在挖掘时空数据,理解城市本质,解决城市问题。 目前,时空数据挖掘广泛应用于交通运输、地质灾害监测与

    2024年02月11日
    浏览(40)
  • 论文阅读_增强语言模型综述

    name_en: Augmented Language Models: a Survey name_ch: 增强语言模型综述 paper_addr: http://arxiv.org/abs/2302.07842 date_read: 2023-05-20 date_publish: 2023-02-15 tags: [‘深度学习’,‘自然语言处理’,‘大模型’] author: Grégoire Mialon,Meta 文章是一篇增强语言模型(Augmented Language Models,ALMs)综述,这里的增

    2024年02月15日
    浏览(58)
  • 论文阅读 (94):Substructure Aware Graph Neural Networks (SAGNN, AAAI2023)

    题目 : 子结构感知图神经网络 (Substructure aware graph neural networks, SAGNN) 背景 :尽管图神经网络 (GNN) 在图学习方面取得了巨大成就,但由于GNN的传播范式与一阶Weisfeiler-Leman图同构测试算法 (1-WL) 的一致性,导致其难以突破1-WL表达能力的上限。 思路 :通过子图更容易区分原始图

    2024年02月12日
    浏览(58)
  • 计算机视觉领域经典模型汇总(2023.09.08

    一、RCNN系列 1、RCNN RCNN是用于目标检测的经典方法,其核心思想是将目标检测任务分解为两个主要步骤:候选区域生成和目标分类。 候选区域生成:RCNN的第一步是生成可能包含目标的候选区域,RCNN使用传统的计算机视觉技术,特别是 选择性搜索(Selective Search)算法 ,这是一

    2024年02月09日
    浏览(52)
  • 论文阅读-Neighbor Contrastive Learning on Learnable Graph Augmentation(AAAI2023)

            人为设计的图增强,可能会破坏原始图的拓扑结构,同时相邻节点被视为负节点,因此被推离锚点很远。然而,这与网络的同质性假设是矛盾的,即连接的节点通常属于同一类,并且应该彼此接近。本文提出了一种端到端的自动GCL方法,称为NCLA,将 邻居对比学习

    2024年02月14日
    浏览(39)
  • 大型语言模型RAG(检索增强生成):检索技术的应用与挑战

    检索增强生成(RAG)系统通过结合传统的语言模型生成能力和结构化数据检索,为复杂的问题提供精确的答案。本文深入探讨了RAG系统中检索技术的工作原理、实现方式以及面临的挑战,并对未来的发展方向提出了展望。 随着大型预训练语言模型(LLMs)如GPT-3和BERT的出现,

    2024年03月14日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包