Maintaining Performance with Less Data(待补)

这篇具有很好参考价值的文章主要介绍了Maintaining Performance with Less Data(待补)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测


hh

Abstract

为了降低神经网络模型的训练成本,我们提出了一种用于图像分类的神经网络训练的新方法,动态地减少输入数据。随着深度学习任务变得越来越流行,它们的计算复杂性也在增加,从而导致更复杂的算法和模型,这些算法和模型的运行时间更长,需要更多的输入数据。其结果是时间、硬件和环境资源的成本更高。通过使用数据缩减技术,我们减少了工作量,从而减少了人工智能技术对环境的影响。通过动态数据缩减,我们可以在保持准确性的同时,将运行时间减少多达50%,并按比例减少碳排放。

Introduction

在创建深度学习解决方案时,有两个主要因素决定其成功:首先是使用的模型,其次是用于训练的数据

在本文中,我们分析了三种新的方法来动态分配用于训练神经网络模型的数据,用于图像分类任务。

Previous Work

Increasing data use

众所周知,如果提供更多的训练数据,深度学习模型将具有更高的性能。表1显示了跨六个数据集的图像分类模型的当前状态。每个模型都使用某种形式的数据增强来人为地增加可用于训练的数据的数量和种类,这使模型的准确性得到提高,从而使模型在排行榜上名列前茅。Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

Reducing data use

虽然使用增加数据的方法很流行,但也有数据缩减技术的用途。这种做法并不常见,因为基本的线性随机数据排除会导致系统性能呈指数级下降[14]。不仅平均准确率下降,而且准确率的标准差增加,说明训练输出不一致,难以验证[14]。与此相反,数据约简技术的某些使用可以提高神经网络模型的性能。在标记数据稀疏的领域,例如医学成像,数据经常遭受类别不平衡的困扰。在这种情况下,可以采用欠采样技术来减少大多数类的数据量,减轻类不平衡的影响[15]。随机排除的成功率较低,但聚类质心[16]和Tomek Links[17]等方法选择最合适的数据进行去除;它们通常与过采样技术一起使用,以提高模型性能[18]。欠采样是一种主要用于解决类不平衡的技术,因此不适合均匀平衡的数据集

Variable data use

不同数据的使用是在整个训练过程中使用不同数据的过程。这是一个新颖的概念,在某些情况下,使用它可以提高性能,如下所述。实时或在线增强在每个epoch创建独特的数据。与离线增强相比,离线增强只对数据进行一次增强(在模型运行之前),在线增强在训练期间的每个epoch之前执行增强[21]。增强通常用于解决过拟合和数据短缺等问题[22]。
迁移学习的独特之处在于,当一个模型被引入到新的训练数据中时,旧的训练数据也不会被使用。这通常会导致灾难性的遗忘[26]。在训练开始时使用较少的数据,并随着训练的进行而增加数据,目前还没有调查**。与迁移学习不同的是,我们在训练开始时就有了所需的所有数据,但在执行训练时,我们选择保留一些数据。这是为了显示以受控方式使用不同数据的效果**。

Contribution

•描述了三种动态引入数据到模型的新方法,每种方法都减少了执行的评估量:-
– Data Step
– Data Increment
– Data Cut
•在三个数据集上进行了测试,展示了这些新方法对网络精度和运行时间的影响
•有证据表明,这些方法可以减少训练所需的资源,同时保持或提高训练输出的性能,运行时间减少50%以上。
第一个是理论贡献,后两个是实验贡献,其实压根没必要写,实验本就是为了支撑理论的

Methods

传统上,深度学习任务有三个阶段:数据收集[2]、数据处理[27][28]和网络模型的训练。这些步骤通常是按顺序执行的,但有时是相互关联的;例如,数据收集可能是实时图像或文本捕获,或者模型可能使用在线增强,其中数据在每个训练循环中以不同的方式增强。图1显示了带有在线增强的图像分类模型的数据流。在每个训练循环之后,模型返回到增强阶段。图2显示了本文提出的模型结构,其中有一个数据选择阶段。这允许模型在每个训练循环中动态地选择数据。这反过来又使本文进一步描述的各种数据缩减技术成为可能。Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

数据收集–>数据增强–>训练–>数据增强–>训练…–>训练完成–>输出

Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

数据收集–>数据选择–>数据增强–>训练–>数据选择–>数据增强–>训练…–>训练完成–>输出

本文介绍并研究了三组实验,在数据选择阶段,每个epoch都选择数据进行训练。其结果是每个epoch都没有使用模型的所有数据

Datasets

我们进行了多种不同的实验,以观察不同数量的数据约简对模型性能的影响。因此,具有小图像尺寸的数据集是理想的,因为它们需要更少的时间来训练
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

Hardware

使用多种硬件来执行训练,以充分利用本研究可用的资源。每个数据集的训练只在一台机器上进行,以确保单个数据集的指标一致。还给出了每个GPU的平均CO2排放量,用于减排计算[32]。Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

Performance Metrics

这些实验是为了观察每个训练epoch使用的数据减少的效果。为了量化这一点,实验结果显示了执行的评估总数;每个评估都是用于训练的单个图像。每个实验的运行时间也被记录下来。模型的量化是成功的,达到了top1精度。每个实验的运行时间和精度直接与每个数据集的基线进行比较,以显示精度和运行时间性能的增加或减少。由于模型在使用数据约简技术运行时没有变化,因此每个实验的CO2减少量与运行时直接相关。因此,CO2的减少等于运行时间的减少。

Network Architecture

用于测试的模型是一个具有简单单片结构的卷积神经网络。它使用9个卷积层,以及一个主胶囊层和一个辅助胶囊层。胶囊层使用均匀向量胶囊,它取代了完全连接的层。该模型基于23)尽管其网络层数较少,但表现出相对较高的性能。测试运行了300次epoch,批大小为120。使用Adam优化器进行优化,初始学习率为0.999,每个epoch的指数衰减率为0.005。这些值为所有数据集的所有实验提供一致的初始设置。
每种方法要排除的数据点是随机选择的。采用最简单的数据排除方法,即随机数据排除,通过实验来了解动态数据约简方法的效果。

Experimentation

Benchmark

Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

Data step

动态选择数据的最简单方法是在训练期间的给定点上“加强”数据的使用。数据集的一部分用于给定数量的训练循环,之后使用整个数据集进行训练。这将训练过程分成两个部分;第1节(S1)使用较少的数据,第2节(S2)使用完整的数据集。以下是这两个部分的定义:Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测
这种数据分割会导致数据使用量的“上升”,并且模型在一段时间内只会使用一小部分数据进行训练。图3、图4和图5显示了如何在这些部分之间应用这种分割。假设是,由于在section S1中处理的数据较少,运行时将会减少。该步骤完成后,使用完整数据集;这是为了确保所有的特征在训练的某个时刻可用,尽管不是在每个时期。这是为了帮助减少过度拟合,当使用的数据太少时,这种情况很常见。Data Step方法的实验分为三个部分,每个部分有三个实验。
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

数据步骤实验从25%的数据开始,epoch在训练中占比(a)25%,(b)50%,©75%

Starting with 25% of the dataset
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

Starting with 50% of the dataset
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

Starting with 75% of the dataset
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

observe

测试的最后阶段使用最少的数据缩减,因此,运行时和平均准确性的减少是最小的
•使用MNIST数据集,所有实验的精度都有所提高:E7、E8和E9的平均精度分别提高了0.018%、0.016%和0.012%。实验E7显示,与基准相比,准确度的标准偏差有所降低。
•使用CIFAR-10数据集,结果遵循与最后一组实验结果相同的模式-准确性下降与使用数据的减少直接相关,尽管这种相关性是非线性的。E7、E8和E9的平均精度分别下降0.072%、0.324%和0.507%
•对于smallNorb数据集,E7的平均准确率提高了0.081%,E8和E9的平均准确率分别下降了0.062%和0.250%。实验E7的性能有所提高;这是在smallNorb数据集上唯一一个性能提高的实验。实验E8和E9的平均精度降低了,这表明在执行的评估数量上如此微小的差异对模型的影响有多大。

Data Increment

Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

Data Cut

Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测
Maintaining Performance with Less Data(待补),论文笔记,深度学习,计算机视觉,目标检测

Discussion

实验的运行时间与执行的评估总数直接相关。这与预期的一样,因为执行的评估越少,神经网络执行的计算就越少。
对于Data Step方法,最显著的结果是MNIST数据集的结果,以及smallNorb的E7、E8和E9的结果,因为尽管执行的评估次数较少,但它们显示出准确性的提高。未来的研究方向将是调查为什么在这些情况下会有性能提高,以及如何纠正对稳定性的有害影响。此外,还可以进一步研究CIFAR-10为什么没有显示出任何增加。
与Data Step方法一样,Data Increment方法表明,减少执行的计算次数会减少运行时。然而,尽管这两种方法都完成了相同的数据简化基本任务,但对于执行的评估次数大致相同,它们产生的结果却不同。例如,将数据步进法的E2实验与25%的数据增量进行比较,我们可以观察到在进行大致相同次数的评估时的准确性。

在所有情况下,数据增量法都显示出较差的精度。虽然数据增量法确实执行了更少的评估,但数据的差异(所有数据集的差异小于1%)相当于少于3次训练。这个量是可以忽略不计的,因为模型的最高精度是在更早的时代确定的。实验结果表明,用增量法减少评价次数对模型的精度影响较大。

所有观测数据切割实验的精度都比数据增量法差。我们可以得出结论,由于数据增量法不如data step法,数据切割法在保持精度方面效果最差。但是,如果需要在不影响准确性的情况下尽可能地减少运行时,那么将数据分割为9段似乎是运行时和准确性之间的最佳折衷。

Conclusion

本文的结果表明,与常规相反,减少用于训练的数据在某些情况下提高了模型的性能。这证明了并不是所有的数据都是训练所必需的,事实上有些数据可能会阻碍训练。使用的方法有些野蛮,随机排除数据而不考虑删除的数据点的值,引用的其他作品已经展示了算法方法来选择要删除哪些数据以提高性能,这是变化数据使用的下一步。尽管如此,即使随机排除也能改善结果,似乎不同的数据使用还有待进一步的详细探讨。文章来源地址https://www.toymoban.com/news/detail-820688.html

到了这里,关于Maintaining Performance with Less Data(待补)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用八叉树模拟水和烟雾 Simulating Water and Smoke with an Octree Data Structure 论文阅读笔记

    原文: Losasso, Frank, Frédéric Gibou, and Ron Fedkiw. “Simulating water and smoke with an octree data structure.” Acm siggraph 2004 papers. 2004. 457-462. 这篇文章扩展了 [Popinet 2003] 的工作,拓展到表面自由流,并且使得八叉树不受限制 自适应网格划分的一个缺点是,它的模板不是均匀的,进而导致泊

    2024年02月19日
    浏览(41)
  • 论文笔记:Evaluating the Performance of Large Language Models on GAOKAO Benchmark

    采用zero-shot prompting的方式,将试题转化为ChatGPT的输入 对于数学题,将公式转化为latex输入  主观题由专业教师打分 2010~2022年,一共13年间的全国A卷和全国B卷

    2024年03月15日
    浏览(52)
  • [论文笔记] Gunrock: A High-Performance Graph Processing Library on the GPU

    Gunrock: GPU 上的高性能图处理库 [Paper] [Code] PPoPP’16 Gunrock, 针对 GPU 的高层次批量同步图处理系统. 采用了一种新方法抽象 GPU 图分析: 实现了以数据为中心(data-centric)的抽象, 以在结 点或边的边界(frontier)上的操作 为中心. 将高性能 GPU 计算原语和优化策略与高级编程模型相结合

    2024年02月08日
    浏览(40)
  • 论文笔记--LIMA: Less Is More for Alignment

    标题:LIMA: Less Is More for Alignment 作者:Zhou, Chunting, et al. 日期:2023 期刊:arxiv preprint   文章基于表面对齐假设(superfacial alignment hypothesis)展开了一系列的数值实验,证明了大模型的能力是在与训练过程中学习得到,而对齐过程只是为了教会大模型一种符合人类偏好的风格/格

    2024年02月09日
    浏览(36)
  • NILM非侵入式负荷识别(papers with code、data)带代码的论文整理——(论文及实现代码篇) 全网最全

            研究生三年快毕业了,毕业前整理一下该领域的研究工作。正所谓,我栽树,后人乘凉。研究NILM的时候,个人觉得最快的方法是直接复现别人的论文,或者甚至用别人论文的代码直接跑出来体会整个流程(数据集导入-数据预处理-运行模型-输出结果)。研究生三

    2024年02月05日
    浏览(46)
  • 论文阅读:AugGAN: Cross Domain Adaptation with GAN-based Data Augmentation

    基于GAN的图像转换方法存在两个缺陷: 保留图像目标 和 保持图像转换前后的一致性 ,这导致不能用它生成大量不同域的训练数据。 论文提出了一种 结构感知 (Structure-aware)的 图像转换网络 (image-to-image translation network)。 为了将图像正确地转换,我们需要编码信息包含:1)

    2024年02月07日
    浏览(38)
  • 吴恩达ChatGPT《LangChain Chat with Your Data》笔记

    课程地址:https://learn.deeplearning.ai/langchain-chat-with-your-data/lesson/1/introduction 像ChatGPT这样的LLM可以回答很多类型的问题,但是如果仅仅依靠LLM,它只知道训练过的内容,而不知道其他内容,比如个人数据,互联网实时信息等。如果个人用户可以利用LLM与自己的文档进行对话,并

    2024年02月16日
    浏览(43)
  • NILM非侵入式负荷识别(papers with code、data)带代码的论文整理——(公开数据集、工具、和性能指标篇) 全网最全

    Q1:文章里面没有附上代码链接的文章是不是没有源码? Q2:xxx数据集找不到,xxx代码网址打不开了,博主能不能发我一份? 这篇文章主要介绍用于非侵入式负荷识别领域目前的公开数据集、工具和其它等,如果需要看论文及具体代码实现,看我上一篇的文章。 其外, 不是

    2023年04月20日
    浏览(43)
  • 论文笔记:AugGPT: Leveraging ChatGPT for Text Data Augmentation

    文本数据增强是克服许多自然语言处理(NLP)任务中样本量有限的挑战的有效策略。这一挑战在小样本学习场景中尤为突出,其中目标域中的数据通常更加稀缺且质量较低。缓解此类挑战的一种自然且广泛使用的策略是执行数据增强,以更好地捕获数据不变性并增加样本量。

    2024年02月11日
    浏览(40)
  • ImageNet Classification with Deep Convolutional 论文笔记

    ✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 ImageNet Classification with Deep Convolutional Neural N

    2024年01月18日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包