【论文笔记】数据增强系列.1

这篇具有很好参考价值的文章主要介绍了【论文笔记】数据增强系列.1。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文介绍简单数据增强、好处以及常见的增强方式,也介绍几篇关于数据增强的工作:

CutMix(ICCV2019),ContrastMask(CVPR2022),BCP(CVPR2023)。

数据增强简介&好处

什么是数据增强?

数据增强是深度学习中的一种技术,它通过从现有数据生成新的训练数据来扩展原数据集。数据增强工具通过操作现有数据的参数,将数据转换为新的、独特的样本。可以对图像、文本、音频和视频输入执行数据增强。有两种类型的数据增强:离线(增强图像存储在驱动器上,然后在训练模型之前与真实数据相结合)和在线(数据增强应用于随机选择的图像并用于训练原始数据)。

数据增强有什么好处?

正确使用数据增强能够带来如下好处:

  • 降低数据采集和数据标记的成本。
  • 通过赋予模型更多的多样性和灵活性来改进模型泛化。
  • 提高模型在预测中的准确性,因为它使用更多数据来训练模型。
  • 减少数据的过拟合。
  • 通过增加少数类中的样本来处理数据集中的不平衡。

常见的数据增强方式:

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

想了解更多关于数据增强的方式,可参考博客:

深度学习中的各种数据增强_m0_61899108的博客-CSDN博客

自动数据增强方法(附代码)_数据增强代码_m0_61899108的博客-CSDN博客

数据增强方式很多,算法不难,困难在于,如何理解,方法提出的原因与目的(动机),方式是否简单有效,如何与任务关联,如何讲好故事。

CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features, ICCV 2019

论文:https://arxiv.org/abs/1905.04899

代码:https://github.com/clovaai/CutMix-PyTorch

几种常见的数据增强的比较:

  • Mixup:将随机的两张样本按比例混合,分类的结果按比例分配;
  • Cutout:随机的将样本中的部分区域cut掉,并且填充0像素值,分类的结果不变;
  • CutMix:就是将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配。

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 上述三种数据增强的区别:

  • cutout和cutmix就是填充区域像素值的区别;
  • mixup和cutmix是混合两种样本方式上的区别:
  • mixup是将两张图按比例进行插值来混合样本,cutmix是采用cut部分区域再补丁的形式去混合图像,不会有图像混合后不自然的情形。

CutMix优点:

  • 在训练过程中不会出现非信息像素,从而能够提高训练效率;
  • 保留了regional dropout的优势,能够关注目标的non-discriminative parts;
  • 通过要求模型从局部视图识别对象,对cut区域中添加其他样本的信息,能够进一步增强模型的定位能力;
  • 不会有图像混合后不自然的情形,能够提升模型分类的表现;
  • 训练和推理代价保持不变。

算法:

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

伪代码: 

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

实验:

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

ContrastMask: Contrastive Learning to Segment Every Thing, CVPR2022

论文:https://arxiv.org/abs/2203.09775

代码:https://github.com/huiserwang/ContrastMask

部分监督实例分割是一项任务,要求通过在带有注释掩码的有限基本类别上学习,从新类别中分割对象,从而消除繁重的注释负担。解决这一任务的关键是建立一个有效的类不可知掩码分割模型。与以前只在基本类别上学习此类模型的方法不同,本文提出了一种新的方法,称为ContrastMask,该方法在统一的像素级对比学习框架下,在基本类别和新类别上学习掩码分割模型。在该框架中,基本类别的注释掩码和新类别的伪掩码用作对比学习的先验,其中来自掩码区域(前景)的特征被拉到一起,并与来自背景的特征进行对比,反之亦然。(在实例前景与背景的像素之间采样query与keys,进而拉远前景-背景之间的距离,拉近前景-前景或者背景-背景的距离)通过该框架,大大提高了前景和背景之间的特征区分,促进了类不可知掩码分割模型的学习。在COCO数据集上取得好结果。

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

本文提出了ContrastMask,一种新的部分监督实例分割方法,它在统一的像素级对比学习框架下,在基本类别和新类别上学习类不可知的掩码分割模型。在这个框架中,设计了一种新的查询共享像素级对比损失,以充分利用所有类别的数据。为此,通过类激活映射(CAM)计算的基本类别的注释掩码或新类别的伪掩码用作区域先验,这不仅指示前景和背景分离,还指示共享查询、正密钥和负密钥。相反,给定一个包含基本类别和新类别的训练图像批,建立了两个共享查询:前台查询和后台查询,这两个查询是通过对掩码区域内外的特征进行平均来获得的,分别包括注释掩码和伪掩码。然后,执行一种特殊的采样策略来选择合适的密钥。通过引入所提出的损失,我们期望将掩码区域内/外的键拉向前台/后台共享查询,并将其与掩码区域外/内的键进行对比。最后,通过我们的像素级对比学习框架学习的特征被融合到类不可知的掩码头中,以执行掩码分割。

与以前的方法相比,ContrastMask有几个好处:

  • 它充分利用了训练数据,使来自新类别的训练数据也有助于分割模型的优化过程;
  • 更重要的是,它通过统一的像素级对比学习框架,特别是对基本类别和新类别的共享查询,搭建了一座桥梁,将基本类别的分割能力转移到新类别,从而不断提高基本类别和新颖类别的前地和背景之间的特征区分。

框架:ContrastMask建立在经典的两阶段Mask R-CNN架构上,具有一个额外的“对比学习”头,称为CL Head,它在基本类别和新类别上执行统一的像素级对比学习。CL Head采用RoI特征图和Box Head生成的CAM作为输入。它由像素级对比损失监督,并输出Mask Head的增强特征图。最后,Mask Head预测了一个类别通过将融合的特征图作为输入的不可知分割图。

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

Contrastive Learning Head (CL Head):CL Head的目标是增加前景和背景之间的特征区分,并减少基本类别和新类别的每个区域(背景或前景)内的特征差异,从而有助于Mask Head学习。通过学习新的像素级对比损失来实现这一点。

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习
图3.对比学习头(CL head)的流程图由编码器和投影仪组成,由像素级对比损失监督。使用真实标签掩码(如果是基本掩码)或从CAM转换的伪掩码(如果新颖掩码)来计算对比损失

Query-sharing Pixel-level Contrastive Loss:新的像素级损失,它能够在统一的对比学习框架下学习基本类别和新类别的掩码分割模型。这种损失函数的核心设计理念是基本类别和新类别共享两个与类别无关的查询,一个用于前台q+,另一个用于后台q−,这样就形成了一个桥梁,将基本类别的细分能力转移到新类别。

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习
图4.用于说明如何获取查询和示例密钥的示意图。对于基本类别,我们使用真实标签掩码来进行划分并提取边来指导采样硬键。对于新的类别,我们首先通过阈值δ对CAM进行二值化,然后进行分区,并基于分区随机采样易密钥和硬密钥。前台查询q+和后台查询q−是通过对一批对象建议的相应分区的特征进行平均来获得的。

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 Class-agnostic mask head:掩码头的架构和对应的损失函数与mask R-CNN中的架构和相应的损失函数相同,除了三个修改:1)将最后一个卷积层的输出通道从80更改为1,从而产生类不可知的掩码头。2) 将CL头的输出特征图与掩模头的输入特征图连接起来,这使得掩模头输入特征更加独特,并有助于其学习。3) 使用CAM来告诉掩模头应该关注哪个区域。这可以通过将CAM添加到输入特征图中来轻松实现.

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习
图5。类不可知掩码头的输入由增强的featuer映射Y、RoI特征映射X和CAM A组成

 实验:

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation, CVPR2023

论文:https://arxiv.org/abs/2305.00673

代码:https://github.com/DeepMed-Lab-ECNU/BCP

在半监督医学图像分割中,标记和未标记的数据分布之间存在经验不匹配问题。如果单独或以不一致的方式处理标记数据和未标记数据,则从标记数据中学到的知识可能会被大量丢弃。

本文提出了一种简单的方法来缓解这个问题——在一个简单的Mean Teacher架构中双向复制粘贴标记和未标记的数据。该方法鼓励未标记的数据从标记的数据中学习向内和向外的全面通用语义。更重要的是,标记和未标记数据的一致学习过程可以在很大程度上缩小经验分布差距。

详细地说,分别将随机裁剪从标记图像(前景)复制粘贴到未标记图像(背景)和未标记图像上。这两个混合图像被馈送到学生网络中,并由伪标签和真实标签的混合监督信号进行监督。论文发现,在标记和未标记数据之间双向复制粘贴的简单机制足够好,并且与各种半监督医学图像分割数据集上的其他现有技术相比,实验收益明显)。

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习
图1。半监督学习设置下的mismatch问题说明。假设训练集是从(a)中的潜在分布中提取的。但少量标记数据和大量未标记数据的经验分布分别为(b)和(c)。很难使用很少的标记数据来构造整个数据集的精确分布。(d)通过使用本文的BCP,标记和未标记特征的经验分布是一致的。(e)其他方法,如SSNet[35]或交叉未标记数据复制粘贴,无法解决经验分布不匹配问题。所有分布都是ACDC中属于心肌类的体素的核密度估计。 

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

在半监督医学图像分割中,标记和未标记的数据来自相同的分布(图第1(a)段)。但在现实世界中,很难从标记数据中估计精确的分布,因为它们的数量很少。因此,在大量未标记数据和极少量标记数据之间总是存在经验分布不匹配(图第1(b)和(c)段)。半监督分割方法总是试图以一致的方式对称地训练标记和未标记的数据。但大多数现有的半监督方法在不同的学习范式下使用标记和未标记的数据。因此,它经常导致丢弃从标记数据中学习的大量知识,以及标记数据和未标记数据之间的经验分布不匹配(图第1(e)段)。

为了缓解标记数据和未标记数据之间的经验不匹配问题,一个成功的设计是鼓励未标记数据从标记数据中学习全面的共性,同时通过标记数据和非标记数据的一致学习策略来进一步实现分布对齐。本文通过提出一种简单但非常有效的双向复制粘贴(BCP)方法来实现这一点,该方法在Mean Teacher框架中实例化。具体来说,为了训练学生网络,通过将随机裁剪从标记图像(前景)复制粘贴到未标记图像(背景)上来增加输入,反之,将随机裁剪从不标记图像(前台)复制粘贴在标记图像上(背景)。学生网络由生成的监督信号通过来自教师网络的未标记图像的伪标签和标记图像的标签图之间的双向复制粘贴来监督。这两个混合图像有助于网络双向对称地学习标记数据和未标记数据之间的公共语义。

框架:

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习
图3。Mean Teacher架构中的双向复制粘贴框架概述,使用2D输入图像,以实现更好的可视化。学生网络的输入是通过以所提出的双向复制粘贴方式混合两个标记和两个未标记的图像来生成的。然后,为了向学生网络提供监督信号,我们通过相同的双向复制粘贴将教师网络生成的真实标签和伪标签组合为一个监督信号,以实现来自真实标签的强监督,帮助来自伪标签的弱监督。

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

流程描述: 

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

算法:

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

 数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

实验:

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习

数据增强,知识学习系列,论文笔记,半监督学习,学习,人工智能,深度学习文章来源地址https://www.toymoban.com/news/detail-690994.html

到了这里,关于【论文笔记】数据增强系列.1的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • css知识学习系列(11)-每天10个知识点

    👍 点赞,你的认可是我创作的动力! ⭐️ 收藏,你的青睐是我努力的方向! ✏️ 评论,你的意见是我进步的财富! 使用 position 属性可以定义元素的定位方式,如 position: relative; 、 position: absolute; 等。 使用 z-index 属性可以定义元素在层叠上下文中的层级关系,值较大的元

    2024年02月07日
    浏览(38)
  • css知识学习系列(15)-每天10个知识点

    👍 点赞,你的认可是我创作的动力! ⭐️ 收藏,你的青睐是我努力的方向! ✏️ 评论,你的意见是我进步的财富! transition 属性用于创建元素状态变化的平滑过渡效果。您可以指定要过渡的属性、持续时间和过渡类型。 示例: transition: width 0.5s ease; 会使元素的宽度在0.

    2024年02月07日
    浏览(49)
  • 区块链知识系列 - 系统学习EVM(四)-zkEVM

    区块链知识系列 - 系统学习EVM(一) 区块链知识系列 - 系统学习EVM(二) 区块链知识系列 - 系统学习EVM(三) 今天我们来聊聊 zkEVM、EVM 兼容性 和 Rollup 是什么? rollup顾名思义,就是把一堆交易卷(rollup)起来变成一个rollup交易,所有节点接收到这个rollup交易之后,不去执行被卷起

    2023年04月09日
    浏览(43)
  • 深度学习基础知识笔记

    怎么样提特征 (1)无人驾驶, 计算机视觉 (2)人脸识别 移动端-计算量太大,速度慢,卡。 参数:成千上百万的。 (3)医学 (4)变脸 (5)图像自动上色 有监督的问题, 1 分类: 挑战:照射角度,形状改变,部分遮挡,背景混入 套路:收集数据给定标签,训练分类器

    2024年02月13日
    浏览(65)
  • 区块链知识系列 - 系统学习EVM(二)-存储与安全

    区块链知识系列 - 系统学习EVM(一) EVM出于所谓运算速度和效率方面考虑,采用了非主流的256bit整数。 不支持浮点数 缺乏标准库支持,例如字符串拼接、切割、查找等等都需要开发者自己实现 给合约打补丁或是部分升级合约代码在EVM中是完全不可能的 Code code 部署合约时储存

    2024年02月02日
    浏览(51)
  • (学习笔记)TCP基础知识

    TCP 是 面向连接的、可靠的、基于字节流 的传输层通信协议。 面向连接:一定是[一对一]才能连接,不能像UDP协议可以一个主机同时向多个主机发送消息,也就是一对多是无法做到的; 可靠的:无论网络链路中出现了怎样的链路变化,TCP都可以保证一个报文一定能够到达接收

    2024年02月16日
    浏览(59)
  • 模电基础知识学习笔记

    文章目录: 一:基本元器件介绍  1.二极管 1.1 普通二极管特性测试  1.2 稳压二极管测试 1.3 整流二极管 1.4 开关二极管 2.电容 3.三极管(电流控制) 3.1 介绍  3.2 类型(PNP、NPN)  3.3 三种工作状态:放大状态、截止状态、饱和状态 4.场效应管(电压控制) 4.1 介绍  4.2 类型(耗尽

    2024年02月15日
    浏览(69)
  • 【TypeScript】基础知识学习笔记

    TypeScript的特点: JavaScript的超集,满足所有的JS语法 含有面向对象的静态类型 起步安装:1、npm i typescript -g 2、tsc 文件名 一、TS的基本数据类型 基本数据类型:number、boolean、string、undefined、null、symbol、bigint、void 当中的类型有大小写的区分:大写的类型是给对象使用,小写

    2024年02月09日
    浏览(56)
  • 区块链知识系列 - 系统学习EVM(一)-架构与执行流程

    EVM有一个基于栈的架构,在一个栈中保存了所有内存数值。EVM的数据处理单位被定义为256位的“字”( 这主要是为了方便处理哈希运算和椭圆曲线运算操作 ) 这里所说的内存数值是指那些EVM字节码运行所需要的输入、输出参数数据和智能合约程序运行中所需要的局部变量等

    2024年02月02日
    浏览(40)
  • Zookeeper学习笔记(1)—— 基础知识

    Zookeeper 是一个开源的分布式的, 为分布式框架提供协调服务 的 Apache 项目 Zookeeper从设计模式角度来理解:是一个基于 观察者模式 设计的 分布式服务管理框架 ,它 负责存储和管理大家都关心的数据 ,然后 接受观察者的注 册 ,一旦这些数据的状态发生变化,Zookeeper就 将负

    2024年02月05日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包