基于Diffusion Model的数据增强方法应用——毕业设计 其一

这篇具有很好参考价值的文章主要介绍了基于Diffusion Model的数据增强方法应用——毕业设计 其一。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

题目简介

笔者个人的毕业设计课题如下:

简介:使用预训练的Diffusion Model图像生成模型生成图像,将这些生成的图像作为扩充训练集加入到2D目标检测器、2D图像分类器的训练过程。深度学习是数据驱动的,随着数据量的扩充,能够提高检测器、分类器的鲁棒性、准确性。
建议的baseline:
分类:ResNet
检测:YOLO

可以看到,给的题目难度还是比较轻松的;本次毕设的全过程会以周为单位采用博客的形式记录下来。

什么是数据增强

对机器学习尤其是深度学习有一定了解的朋友都会听过类似的说法【DL的首要驱动力是数据】。

也即不管是CV还是NLP,所有的深度学习方法都因其原理从而对数据有着强依赖性,按照笔者个人跑过的模型来看,数据本身的多少和好坏很多时候基本直接决定结果的好坏;在模型上提出方法和改进固然重要,但是大数据训练权值的神经网络思想决定了深度学习的模型一定对数据本身保有高要求。

此时另一个问题就会应运而生,假如在我们某项实际运用的项目中,我们并没有足够的数据量支撑模型的训练该怎么办?实际上,对于数据量来说,永远是不够的;所谓多多益善在这里是再合适不过的形容。

那么我们需要某种方法扩充数据量,但是对于深度学习来说,与其大费周章的寻找新的数据,不如充分利用已有的数据进行数据增强。以图片为例,由于数据化,对于算法来说,以下两张图片实际上是截然不同的样本。
基于Diffusion Model的数据增强方法应用——毕业设计 其一
所以这里可以就可以理解什么是数据增强,为什么需要数据增强。

数据增强有一些简单常用的方法,碍于篇幅不在这里展开解释

  • 翻转
  • 旋转
  • 位移
  • 裁剪
  • 缩放
  • 变形
  • 噪声
  • 模糊
  • 擦除
  • 填充

这里补充一点,在21-22年间各大顶刊热门的GAN对抗网络在数据增强上也有广泛应用

数据增强的主要效果有如下三点

  • 避免过拟合
  • 提升模型鲁棒性,降低模型对图像的敏感度
  • 增加训练数据,提高模型泛化能力

在有些时候,数据增强同样可以被称作“上采样”,这时的上采样指的是针对数据集整体而言。

什么是Diffusion Model

Diffusion model是Encoder-Decoder架构的生成模型,分为扩散阶段和逆扩散阶段。 在扩散阶段,通过不断对原始数据添加噪声,使数据从原始分布变为我们期望的分布,例如通过不断添加高斯噪声将原始数据分布变为正态分布。 在逆扩散阶段,使用神经网络将数据从正态分布恢复到原始数据分布。 它的优点是正态分布上的每个点都是真实数据的映射,模型具有更好的可解释性。 缺点是迭代采样速度慢,导致模型训练和预测效率低。
基于Diffusion Model的数据增强方法应用——毕业设计 其一
基于Diffusion Model的数据增强方法应用——毕业设计 其一
上面展示的就是Diffusion Model的一些应用方面。事实上,从15年提出到现在,Diffusion Model的进展已经又不少了,那么如何将其应用在数据增强上呢?

让我们回到Diffusion Model本身来,Diffusion Model (扩散模型) 是一类生成模型, 和 VAE (Variational Autoencoder, 变分自动编码器), GAN (Generative Adversarial Network, 生成对抗网络) 等生成网络不同的是, 扩散模型在前向阶段对图像逐步施加噪声, 直至图像被破坏变成完全的高斯噪声, 然后在逆向阶段学习从高斯噪声还原为原始图像的过程

具体来说, 前向阶段在原始图像 x0上逐步增加噪声, 每一步得到的图像 xt只和上一步的结果 xt-1相关, 直至第t步的图像xt变为纯高斯噪声. 前向阶段图示如下:
基于Diffusion Model的数据增强方法应用——毕业设计 其一

而逆向阶段则是不断去除噪声的过程, 首先给定高斯噪声xt通过逐步去噪, 直至最终将原图像x0给恢复出来, 逆向阶段图示如下:
基于Diffusion Model的数据增强方法应用——毕业设计 其一
模型训练完成后, 只要给定高斯随机噪声, 就可以生成一张从未见过的图像。基于次,我们可以用Diffusion Model的方法进行数据增强。

这部分的数学推导比较繁杂,笔者因为个人原因暂时没有办法在这里展开推到,后续会进行相关内容的补全,这里推荐一篇同站博客,在笔者阅读论文时该篇论文清晰的论述给与了本人极大的帮助。

https://blog.csdn.net/sunningzhzh/article/details/125118688

简单谈谈yolo和ResNet

题目的要求中有提到可以分别使用扩散模型对图像的分类和检测任务各自进行数据增强来进行效果的对比。

而这两者都是老熟人了,本篇博客就不花大篇幅进行从头到尾的介绍。

yolo

首先是yolo,yolo是图像的目标检测算法模型,目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力。目标检测不仅要用算法判断图片中物品的分类, 还要在图片中标记出它的位置, 用边框或红色方框把物品圈起来, 这就是目标检测问题,如下图所示
基于Diffusion Model的数据增强方法应用——毕业设计 其一
yolo则是目标检测中singlestage类型的泰山北斗,从v1问世后经过版本的迭代改进,在算法的运行速度上已经是二维目标检测中最快的一批了;也正是印证了它的名称那样,你只需要看一眼;充分发挥了单阶段算法丢弃精修阶段而轻便的优势,而现版本的yolo本身也具有极好的工业集成性;本身已经具备了大量的完善方法。
基于Diffusion Model的数据增强方法应用——毕业设计 其一
上图展示的是经典的v1结构
基于Diffusion Model的数据增强方法应用——毕业设计 其一
上图展示的是较新的v5版本s形的网络结构。

ResNet

接着是更入门的ResNet,先来简单聊聊什么是图像分类,最简单的CV任务之一。图像分类是计算机视觉中最基础的一个任务,也是几乎所有的基准模型进行比较的任务。图像分类顾名思义就是一个模式分类问题,它的目标是将不同的图像,划分到不同的类别,实现最小的分类误差。总体来说,对于单标签的图像分类问题,它可以分为跨物种语义级别的图像分类,子类细粒度图像分类,以及实例级图像分类三大类别,下图就是一个简单的图像分类示例。
基于Diffusion Model的数据增强方法应用——毕业设计 其一
ResNet 网络则是在 2015年 由微软实验室中的何凯明等人提出,获当年ImageNet竞赛中分类任务第一名,目标检测第一名。获得COCO数据集中目标检测第一名,图像分割第一名,也是图像分类任务的集大成者,从今天去看,也是某种程度上给图像分类这个任务画上了一个漂亮的终止符的模型。其精髓在于在当时看来极深的网络结构,残差的应用以解决梯度爆炸和dropout加速训练
基于Diffusion Model的数据增强方法应用——毕业设计 其一
经典的resnet网络结构,相信也是很多人接触CV时第一个学习的完整网络结构。

总结兼拆解

在上面简要的介绍后,本次毕设的理论部分所需要具备的东西就已经搭建完毕了;我们需要做的其实是很简单的实验对比,先跑通训练完Diffusion Model的模型,并在resnet和yolo中分别接上数据集读取部分的接口,各两次训练以上对比生成模型的精度,即可验证本次毕设的题意。文章来源地址https://www.toymoban.com/news/detail-466540.html

到了这里,关于基于Diffusion Model的数据增强方法应用——毕业设计 其一的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于双分支残差结构的低光照图像增强研究与应用实现

             在低光条件下拍摄的照片会因曝光不足而产生一系列的视觉问题,如亮度低、信息丢失、噪声和颜色失真等。为了解决上述问题,提出一个结合注意力的双分支残差低光照图像增强网络。首先,采用改进InceptionV2提取浅层特征;其次,使用残差特征提取块(RFB)

    2024年02月07日
    浏览(82)
  • 【读点论文】A Survey on Generative Diffusion Model,AIGC时代的新宠儿,从原理推导到工程应用,在视觉,自然语言,语音等领域大展拳脚

    由于深度潜在表示,深度学习在生成任务中显示出良好的潜力。 生成模型是一类可以根据某些隐含参数随机生成观测值的模型 。近年来,扩散模型以其强大的生成能力成为生成模型的一个新兴类别。如今,已经取得了巨大的成就。除了计算机视觉、语音生成、生物信息学和

    2024年02月09日
    浏览(43)
  • 吴恩达gradio课程:基于开源LLM(large language model)的聊天应用

    内容简介 Falcon 40B 是当前最好的开源语言模型之一。 使用 text-generation 库调用 Falcon 40B 的问答 API 接口。 首先仅仅在代码中与模型聊天,后续通过Gradio构建聊天界面。 Gradio 聊天界面可以保存对话历史上下文。 在聊天过程中,需要将之前对话记录与新消息一起发送给模型,才能进

    2024年02月09日
    浏览(51)
  • 用大模型增强数据分析应用

    大模型出道即巅峰,它广受欢迎并在很多领域中成为有力的工具,当然包括数据分析领域。你可能不确定如何把大模型整合到你的工作中,如帮助你用数据驱动决策。本文介绍一些思路带你在不同应用场景下使用数据分析提示词。当然不仅局限与ChatGPT,其他国内大模型也一样

    2024年01月25日
    浏览(35)
  • 基于卷积神经网络的立体视频编码质量增强方法_余伟杰

    提出的网络包含两个模块:特征提取模块和重建模块。 为了从低质量合成视点中提取局部和全局信息,特征提取模块中提出了两条信息流,分别为 局部信息提取流和全局信息提取流 。 随着网络层数的增长,提取的特征在传输的过程中可能消失,这会降低网络模型的表达能力

    2024年02月01日
    浏览(34)
  • PointNet++详解(一):数据增强方法

    如有错误,恳请指出。 下面是pointnet++项目实现的点云数据增强方法,主要包括随机旋转、随机缩放、随机丢弃、随机平移、随机扰动等等。 github项目链接:https://github.com/yanx27/Pointnet_Pointnet2_pytorch 这里贴上的是沿3个轴随机旋转 ps:在PointNet++分组采样k个邻域点时,如果符合

    2024年02月04日
    浏览(34)
  • YOLOv5数据增强方法

    YOLOv5的数据增强方法包括以下几种: 随机剪裁:随机从输入图像中剪裁出一块区域并将其作为新的输入。 随机翻转:随机将输入图像左右或上下翻转。 随机颜色变化:随机调整输入图像的对比度、亮度和饱和度。 随机加噪:在输入图像上随机添加噪声。 随机模糊:使用高

    2024年02月11日
    浏览(46)
  • 【论文阅读笔记】序列数据的数据增强方法综述

     这篇论文探讨了在深度学习模型中由于对精度的要求不断提高导致模型框架结构变得更加复杂和深层的趋势。随着模型参数量的增加,训练模型需要更多的数据,但人工标注数据的成本高昂,且由于客观原因,获取特定领域的数据可能变得困难。为了缓解数据不足的问题,

    2024年02月05日
    浏览(43)
  • diffusion model(五)stable diffusion底层原理(latent diffusion model, LDM)

    [论文地址] High-Resolution Image Synthesis with Latent Diffusion Models [github] https://github.com/compvis/latent-diffusion diffusion model(一)DDPM技术小结 (denoising diffusion probabilistic) diffusion model(二)—— DDIM技术小结 diffusion model(三)—— classifier guided diffusion model diffusion model(四)文生图diffusio

    2024年02月15日
    浏览(41)
  • 毕业设计--智能环境监测系统基于harmonyOS的移动端应用开发

    目录 第一章 绪论 1.1 引言 1.2 智能环境监测APP概述 1.3 课题设计思路 第二章 项目开发环境 2.1 鸿蒙介绍 2.1.1 鸿蒙的发展史 2.1.2 鸿蒙应用开发的意义 2.1.3 HUAWEI DevEco Studio 介绍 2.1.4 HUAWEI DevEco Studio 环境安装 2.1.5 HarmonyOS系统技术架构 2.1.6 HUAWEI dececo studio 使用 2.1.7 Harmony编程语言

    2024年02月15日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包