【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES

这篇具有很好参考价值的文章主要介绍了【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

用困难负样本进行对比性学习
【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES

摘要

如何才能为对比性学习提供好的负面例子?我们认为,就像度量学习一样,表征的对比性学习得益于硬性负面样本(即难以与锚点区分的点)。使用硬阴性样本的关键挑战是,对比性方法必须保持无监督状态,这使得采用现有的使用真实相似性信息的阴性采样策略变得不可行。作为回应,我们开发了一个新的无监督抽样方法系列,用于选择用户可以控制硬度的困难负样本。这种抽样的一个限制性案例导致了对每个类的紧密聚类,并将不同的类尽可能地推开的表现。所提出的方法改善了多种模式下的下游性能,只需要几行额外的代码来实现,并且没有引入计算开销。

1.介绍

由于他们在经验上的成功,对比学习方法(Chopra等人,2005;Hadsell等人,2006)已经成为学习表征的最流行的自我监督方法之一(Oord等人,2018;田等,2019;陈等,2020a)。在计算机视觉中,对于对象检测和分割任务,无监督的对比学习方法甚至优于有监督的预训练(Misra & Maaten,2020;何等,2020)。

对比学习依赖于两个关键因素:相似(正)(x,x+)和不相似(负)(x,x-)数据点对的概念。训练目标,通常是噪声对比估计(Gutmann & Hyvä rinen,2010年),指导学习到的表示f将正对映射到附近的位置,将负对映射到较远的位置;还考虑了其他目标(Chen等人,2020a)。相关方法的成功依赖于正对和负对信息的设计,由于没有监督,它们不能利用真实的相似性信息。

许多研究致力于解决积极配对的抽样策略,并已成为多视角和对比学习的最新进展的关键驱动力(Blum & Mitchell,1998;徐等,2013;巴赫曼等人,2019;陈等,2020a田等,2020)。对于图像数据,正采样策略通常应用保留语义内容的变换,例如抖动、随机裁剪、分离颜色通道等。(陈等,2020ac;田等,2019)。这种变换在从原始像素数据中学习控制策略方面也是有效的(Srinivas等人,2020)。还提出了针对句子、音频和视频数据的积极采样技术(Logeswaran & Lee,2018;Oord等人,2018;Purushwalkam & Gupta,2020;Sermanet等人,2018)。

令人惊讶的是,在对比学习中,否定配对的选择很少受到关注。通常,给定一个“锚”点x,一个“负”x只是从训练数据中统一采样,而不管它对学习的表示有多有用。在监督和度量学习设置中,“硬”(真负)例子可以帮助指导学习方法更快地纠正其错误(Schroff等人,2015;宋等,2016)。对于表征学习来说,信息性的反面例子直观上是那些映射在附近但应该相距很远的对。这一思想被成功地应用于度量学习中,在度量学习中,不同点的真实对是可用的,这与无监督的对比学习相反。

有了这个动机,我们解决了为对比表征学习选择信息性否定的挑战。作为回应,我们提出了一个解决方案,它构建了一个可调的采样分布,该分布优先选择当前表示非常相似的负对。这种解决方案面临两个挑战:(1)我们无法获得任何真实的相似性或不相似性信息;(2)对于这种可调分布,我们需要一种有效的采样策略。我们克服了(1)建立在积极的无标签学习的想法上(Elkan & Noto,2008;杜普莱西等人,2014年),以及(2)通过设计一个有效的,易于实施的重要性采样技术,不招致任何计算开销。

我们的理论分析表明,作为调谐参数的函数,我们的新方法的最佳表示将相似的输入放置在紧密的簇中,同时将簇尽可能地分开。从经验上看,我们的硬负采样策略提高了图像、图形和文本数据的下游任务性能,支持了这一点,事实上,我们的负样本提供了更多的信息。
总之,我们做出了以下贡献:
1.我们提出了一个简单的困难负对分布用于对比表征学习,并推导了一个实用的零计算开销的重要性抽样策略,该策略考虑了真实相异信息的缺乏;
2.我们从理论上分析了困难负样本和最优表示,表明它们获得了理想的推广性质;
3.我们根据经验观察到,所提出的采样方法提高了图像、图形和文本数据上的下游任务性能。
1.1相关工作
对比表征学习。人们提出了许多视觉表征对比学习的框架,包括SimCLR (Chen et al .,2020ab),使用迷你批次中其他项目的增强视图作为负面样本,以及(何等人,2020;Chen等人,2020c),其使用旧阴性表示的动量更新记忆库,以使得能够使用非常大批量的阴性样本。大多数对比方法是无监督的,但是存在一些使用标签信息的方法(Sylvain等人,2020;科斯拉等人,2020年)。许多作品研究了正对的作用,例如,提出对图像应用大的扰动陈等人(2020ac),或者主张除了最终预测任务的相关信息之外,最小化正对中的互信息(田等人,2020)。除了视觉数据,对比方法还被用于句子嵌入(Logeswaran & Lee,2018年),顺序数据(Oord等人,2018年;海纳夫等,2020),图(孙等,2020;哈萨尼&哈萨马迪,2020;李等人,2019年)和节点表示学习(V elickovic等人,2019年),以及从原始图像中学习表示以进行非策略控制(Srinivas等人,2020年)。负对的作用研究得很少。Chuang等人(2020)提出了一种“去偏置”的方法,即校正并非所有的否定对都是真否定的事实。它通过采用正的无标签学习的观点来做到这一点,并利用了真正的负分布的分解。Kalantidis等(2020)考虑应用Mixup(张等,2018)生成潜在空间的硬底片,Jin等(2018)利用视频特定的时间结构生成底片用于物体检测。
深度度量学习中的负挖掘。与对比表征学习文献相反,负面样本的选择策略已经在(深度)度量学习中进行了彻底的研究(Schroff等人,2015;宋等,2016;哈伍德等人,2017;吴等,2017;葛,2018;Suh等人,2019)。这些工作中的大多数观察到,使用当前嵌入难以辨别的负样本是有帮助的。Schroff等人(2015)对此进行了限定,观察到一些例子太硬,并建议选择“半硬”阴性样本。负样本在度量学习中的重要性是众所周知的,在度量学习中(部分)真实相异度信息是可用的,这提出了对比学习中的负样本问题,这是本文的主题。

2.对比学习设置

我们从对比表征学习的设置和概念开始。我们希望学习一个嵌入f:X→sd-1/t,它将观测值X映射到半径为1/t的Rd中的超球面sd-1/t上的一个点,其中t是“温度”标度超参数。根据Arora等人(2019)的设置,我们假设一组表示语义内容的离散潜在类C,因此相似的对(x,x+)具有相同的潜在类。

对于c ∈ C的ρ©在潜类上的分布,我们定义了联合分布px,c(x,c) = p(x|c)ρ(c ),其边际p(x)我们简称为p,并假设supp§ = X,为简单起见,我们假设ρ© = τ +是一致的,并假设τ-= 1-τ+是另一个类的概率。由于类先验τ+在实践中是未知的,因此它必须被视为超参数,或者被估计(克里斯托费尔等人,2016;Jain等人,2016)。

设h : X → C是将类别标签分配给输入的真实潜在假设。我们写x~x’来表示标签等价关系h(x) = h(x’)。我们用p+x (x’) = p(x’|h(x’) = h(x))表示与x具有相同标号的点上的分布,用p-x(x’)= p(x’ | h(x’)≠ h(x))表示与x具有不同标号的点上的分布。当上下文清楚时,我们去掉下标x。按照通常的约定,我们重载’波浪线’并且也写x波浪线p来表示从p采样的点。

对于每个数据点x波浪线p,用于学习表示式f的噪声对比估计(NCE)目标(Gutmann & Hyvä rinen,2010年)使用正例x+和负例{ Xi -} N~i = 1~,正例x+具有与x相同的标签,负例{ Xi- } N i = 1具有(假定)不同的标签,h(Xi)≠ h(x ),从q:
【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES
为了分析的目的,引入了加权参数Q。当N是有限的时,我们取Q = N,产生对比宾语的通常形式。负样本分布q经常被选择为边际分布p,或者在实践中,它的经验近似(田等,2019;陈等,2020ac;何等,2020;陈等,2020cOord等人,2018;海纳夫等人,2020年)。在本文中,我们问:是否有更好的方法来选择q?

3.困难负样本采样

在这一节中,我们将描述硬负采样的方法。我们首先问什么是好的负样本?为了回答这个问题,我们采用以下两个指导原则:
原则1。q应只对标签不同于锚x的“真负”Xi-进行采样。
原则2.最有用的负样本是当前的嵌入表示认为与锚最相似的样本。

简而言之,具有与锚不同的标签,但是嵌入在附近的负样本可能是最有用的,并且在训练期间提供重要的梯度信息。在度量学习中,可以获得真正的否定对,自动实现第一个原则。在无监督的对比学习中没有监督,所以坚持原则1是不可能的。在本文中,我们提出了一种方法,该方法大致支持原则1,同时将这一思想与“硬度”这一关键的附加概念成分(封装在原则2中)相结合。我们的方法中的“硬度”水平可以被平滑地调整,允许用户选择硬度,该硬度在来自硬否定的改进的学习信号和由于错误否定的校正而导致的损害之间进行最佳权衡,该损害仅仅是近似的。这一点很重要,因为最难的点是那些最接近锚的点,并且被认为具有相同标签的高倾向。因此,对于较硬的样品,近似法不能消除所有假阴性的损害变得更大,从而产生折衷。作为我们的方法的一个特例,当硬度水平完全下调时,我们获得(Chuang等人,2020)中提出的方法,该方法仅(近似地)支持原则1,而不支持原则2。最后,在原则1和2之外,我们希望设计一种有效的采样方法,在训练期间不增加额外的计算开销。
3.1提议的硬采样方法
我们的第一个目标是在X上设计一个分布q,它可以依赖于嵌入f和锚X。根据上述原则,我们从q中抽取一批负值{ Xi -} N i =1。我们建议对分布qβ-进行负采样,定义如下:
【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES
对于β ≥ 0。注意,qβ-和qβ都依赖于x,但我们从符号中取消了相关性。qβ中的指数项是具有平均方向f(x)和“浓度参数”β的非标准化von Mises–Fisher分布(马迪亚和尤普,2000)。qβ有两个关键部分,对应于每个原则:1)以事件{ h(x)≠h(😆}为条件,保证(x,x-)对应于不同的潜在类别(原则1);2)浓度参数β项控制qβ对与锚点x具有大内积(相似性)的点x进行加权的程度(原则2)。因为f位于半径为1/t的超球面的表面上,所以我们有||f(x)-f(x’)||2 = 2/t2-2f(x)Tf(x‘),所以偏好具有大内积的点等价于偏好具有小平方欧几里得距离的点。

虽然我们设计的qβ-具有所有所需的元件,但不清楚如何有效地从中采样。为了找到一种实用的方法,请注意,我们可以通过采用PU学习的观点来重写这种分布(Elkan & Noto,2008;杜等,2014;庄等,2020)。也就是说,通过以事件{ h(x)= h(😆}为条件,我们可以将qβ(x-)分解为:
【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES
【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES。重新排列公式2,得出公式【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES对于负采样分布qβ-,根据两个易于处理的分布,因为我们有来自p的样本,并且可以使用一组语义保持变换来近似来自p+的样本,这在对比学习方法中是典型的。

利用抑制采样,可以从qβ和(近似)qβ+产生样本。然而,拒绝抽样涉及算法的复杂性,因为抽样批次的程序必须修改。为了避免这种情况,我们采用重要性抽样方法。为了获得这一点,首先注意固定数量Q并在目标(1)中取极限N → ∞,得到:
【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES
…推理

强调我们提出的方法的实现的简单性是很重要的。因为我们建议重新加权目标而不是修改采样过程,所以只需要两行额外的代码来实现我们的方法,而没有额外的计算开销。附录d中的图13给出了该目标的PyTorch式伪代码。

4.硬负采样分析

4.1硬采样在边际和最坏情况负值之间插值
直观地说,我们提出的负样本分布qβ中的浓度参数β控制着负样本的“硬度”水平。如前所述,Chuang等人(2020)的去偏置方法可以恢复为一种特殊情况:取β = 0以获得分布q0-。这种情况相当于对从p采样的负批次中的一些样本将具有与锚相同的标签的事实进行校正。但是大β承认什么解释呢?具体来说,分布qβ在极限β → ∞时收敛到什么程度,如果有的话?我们证明,在极限qβ近似于下面零总和的两人对策的内部解。

4.2最坏负样本下超球面上的最优嵌入
一个最优对比嵌入(L的全局极小值)具有什么期望的性质使表示可推广?为了研究这个问题,我们首先分析了当负样本来自敌对的最坏情况分布时,最优嵌入f *在超球面上的分布。我们考虑目标(1)的不同极限观点,即负样本数N → ∞。根据Wang & Isola (2020)的公式,我们在(1)中取Q = N,并减去log N。这既不改变极小值集,也不改变损失面的几何形状。取负样本的数量N → ∞产生极限目标,

5.实证结果

接下来,我们根据经验评估我们的硬负采样方法,并将其作为对图像、图形和文本数据的最新对比方法的修改。对于所有实验,β被视为超参数(参见图2中的消融,了解如何选择β)。还必须确定M和τ +的值。对于所有实验,我们固定M = 1,因为取M > 1将增加向前-向后传递的输入数量。附录中的引理11给出了选择M = 1的理论依据。选择类先验τ +可以通过两种方式完成:从数据中估计(克里斯托费尔等人,2016;Jain等人,2016),或者将其视为超参数。第一种选择要求在对比训练之前拥有标记数据。

6.近距离观察硬采样

7.结论

我们论证了硬否定在无监督对比表征学习中的价值,并介绍了一种简单的硬否定采样方法。我们的工作连接了两条主线:对比学习和度量学习中的负挖掘。这样做需要克服一个明显的障碍:度量学习中的负挖掘使用成对相似性信息作为核心组件,而对比学习是无监督的。我们的方法有几个很好的方面:具有理想的理论性质,实现非常简单,只需要修改几行代码,不改变数据采样管道的任何内容,引入零额外计算开销,以及以有原则的方式处理假负样本。文章来源地址https://www.toymoban.com/news/detail-401634.html

到了这里,关于【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模态 论文,利用对比学习和动量来进行图片与文本信息的上游预训练。 作者提出问题 简单的跨模态比对模型无法确保来自同一模态的相似输入保持相似。(模态内部语义信息损失) 全局互信息最大化的操作没有考虑局部信息和结构信息。 对于上

    2024年04月13日
    浏览(36)
  • 【论文笔记】SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking

    论文地址:https://arxiv.org/pdf/2210.17168.pdf 论文提出了一种token-level的自蒸馏对比学习(self-distillation contrastive learning)方法。 传统方法使用BERT后,会对confusion chars进行聚类,但使用作者提出的方法,会让其变得分布更均匀。 confusion chars: 指的应该是易出错的字。 作者提取特征的方

    2024年02月02日
    浏览(46)
  • 【论文笔记】Triplet attention and dual-pool contrastive learning for clinic-driven multi-label medical...

    多标签分类Multi-label classification (MLC)可在单张图像上附加多个标签,在医学图像上取得了可喜的成果。但现有的多标签分类方法在实际应用中仍面临着严峻的临床现实挑战,例如: 错误分类带来的医疗风险, 不同疾病之间的样本不平衡问题 无法对未预先定义的疾病(未见疾

    2024年02月03日
    浏览(35)
  • 【论文阅读】Deep Graph Contrastive Representation Learning

    作者:Yanqiao Zhu Yichen Xu 文章链接:Deep Graph Contrastive Representation Learning 代码链接:Deep Graph Contrastive Representation Learning 现实世界中,图的标签数量较少,尽管GNNs蓬勃发展,但是训练模型时标签的可用性问题也越来越受到关心。 传统的无监督图表征学习方法,例如DeepWalk和nod

    2024年01月18日
    浏览(43)
  • 【论文阅读】Equivariant Contrastive Learning for Sequential Recommendation

    2023-RecSys https://github.com/Tokkiu/ECL 对比学习(CL)有利于对具有信息性自我监督信号的顺序推荐模型的训练。 现有的解决方案应用一般的顺序数据增强策略来生成正对,并鼓励它们的表示是不变的。 然而,由于用户行为序列的固有属性,一些增强策略,如项目替代,可能会导致

    2024年01月18日
    浏览(36)
  • 【论文阅读】Self-supervised Learning: Generative or Contrastive

    研究了在计算机视觉、自然语言处理和图形学习中用于表示的新的自监督学习方法。全面回顾了现有的实证方法,并根据其目的将其归纳为三大类:生成性、对比性和生成性对比(对抗性)。进一步收集了关于自我监督学习的相关理论分析,以对自我监督学习为什么有效提供

    2024年01月18日
    浏览(41)
  • 论文阅读:Heterogeneous Graph Contrastive Learning for Recommendation(WSDM ’23)

    论文链接 在推荐系统中,图神经网络在建模图结构数据上已经变成一个强有力的工具。但是现实生活的推荐语义通常涉及异质关系(像用户的社交关系,物品知识关系的依赖),这些都包含丰富的语义信息去提升表征能力的学习。同时,对比自监督学习在推荐系统中也取得了

    2024年02月08日
    浏览(38)
  • 论文阅读-Neighbor Contrastive Learning on Learnable Graph Augmentation(AAAI2023)

            人为设计的图增强,可能会破坏原始图的拓扑结构,同时相邻节点被视为负节点,因此被推离锚点很远。然而,这与网络的同质性假设是矛盾的,即连接的节点通常属于同一类,并且应该彼此接近。本文提出了一种端到端的自动GCL方法,称为NCLA,将 邻居对比学习

    2024年02月14日
    浏览(25)
  • 论文笔记 | Learning from Noisy Labels with Decoupled Meta Label Purifier(DMLP)

    深度学习识别任务依赖于大量可靠标记的数据集,但通过爬虫等收集到的数据不可避免地会有噪声标签。这些标签不适合直接用来训练,因为复杂的模型容易记住噪声标签,导致泛化能力下降 1.经典的LNL方法 识别噪声样本,减小它们对参数更新的影响(舍弃或者降低权重或半

    2024年02月05日
    浏览(26)
  • 论文阅读 - Detecting Social Bot on the Fly using Contrastive Learning

    目录  摘要:  引言 3 问题定义 4 CBD 4.1 框架概述 4.2 Model Learning 4.2.1 通过 GCL 进行模型预训练  4.2.2 通过一致性损失进行模型微调  4.3 在线检测 5 实验 5.1 实验设置 5.2 性能比较 5.5 少量检测研究  6 结论 https://dl.acm.org/doi/pdf/10.1145/3583780.3615468           社交机器人检测正

    2024年02月06日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包