计算机视觉基础(10)——深度学习与图像分类

这篇具有很好参考价值的文章主要介绍了计算机视觉基础(10)——深度学习与图像分类。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

传统视觉算法采用手工设计特征与浅层模型,而手工设计特征依赖于专业知识,且泛化能力差。深度学习的出现改变了这一状况,为视觉问题提供了端到端的解决方案。在之前的课程中,我们已经学习了图像分类的传统知识。在本节课中,我们将学习到图像分类融合深度学习的方法

一、视觉算法设计流程的演化

下面是传统视觉算法和深度学习算法的区别:

传统视觉算法采用手工设计特征与浅层模型

手工设计特征依赖专业知识(Domain knowledge),且泛化性能差

深度学习的出现改变了这一状况,为视觉问题提供了端到端的解决方案

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

接下来,我们以人脸识别任务为例,对传统方法和深度学习方法进行一个比较:

传统方法的思路如下:

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

深度学习方法的思路如下:

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

下面是深度学习方法的一些优点:

  • 深度模型更适合处理大数据,随着训练数据规模增大,性能不断提升。
  • 而浅层模型随训练数据的增加,性能提升不明显。

如下图所示:

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

并且,通过数据驱动的方式学出的深度特征,具有更强的泛化性能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

二、分层级深度特征

在了解了深度学习视觉算法的设计流程之后,我们还需要学习一下分层级的深度特征。

不同层级的卷积层所学习到的图像特征具有分层的特性

浅层: 学习到图像的低级(Low-level)特征,如颜色、边缘、纹理

深层: 学到图像的高级(High-level)特征,如物体位置、语义类别

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

我们以AlexNet为例,对每一层卷积层进行说明:

1)AlexNet中第一层卷积的滤波器96x[11x11x3] 学到edge, color, blob 等底层特征,与手工设计滤波器组相似。

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

2)第二层对继续对角点和其他的边缘/颜色信息进行相应

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3)第三层具有更复杂的不变性,捕获相似的纹理

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4)第四层显示了显著的变化,并且更加类别具体化。而第五层显示了具有显著姿态变化的整个对象。
计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

三、常见的深度神经网络类型

我们将依次介绍如下4种常见的深度神经网络类型,这在之前的深度学习课程上面也学习过,在此仅作为复习使用:

全连接网络 (Fully Connected Net)

卷积网络 (Convolution Net)

递归网络 (Recurrent Net)

Transformer

3.1  全连接网络

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2  卷积网络

对于卷积神经网络,我们需要知道参数量的计算、卷积层的3个主要特点、卷积的过程和空洞卷积的概念和意义、上采样的概念和计算,批量归一化的定义和优缺点

3.2.1  卷积层参数量的计算

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.2  卷积层的特点(重要)

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.3  卷积的过程

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.4  卷积步幅

下图中的步幅 stride = 2

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.5  空洞卷积

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.6  池化层

池化的意义和作用如下:

使用某一位置相邻区域的总体统计特性来代替网络在该位置的输出

在尽量保留有用信息的同时,实现特征图降采样,提升感受野

1)最大值池化

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

2)平均值池化

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.7  上采样(反卷积)

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.8  批量归一化(重点)

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

参考文献:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, ICML 2015

BN的优缺点如下:

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

需要掌握Batch Norm、Layer Norm、Instance Norm和Group Norm这四个对应的表示形式:

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.3  递归网络

不是考查的重点,请感兴趣的读者移步参考下方链接:

【神经网络】递归神经网络 - 知乎 (zhihu.com)

3.4  Transformer

Transformer最早针对NLP任务设计,随后推广至视觉领域 (分类、检测、分割、跟踪)

Transformer最核心的模块是自注意力机制模块,该模块通过将输入特征间的相关性作为权重,对输入特征进行加权,实现管局关系建模

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.4.1  自注意力机制

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

参考链接:https://jalammar.github.io/illustrated-transformer/

3.4.2  多头注意力模块

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.4.3  常见的损失函数与优化器

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

四、图像分类

接下来我们将介绍最经典的一些图像分类模型:

4.1  ImageNet数据集

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

细粒度(Fine-Grained)图像分类是对图像种类进行更精细的划分:

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

随着旧模型的不断改进,新模型的不断提出,图像分类模型推陈出新,ImageNet精度逐年提升:

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.2  AlexNet

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.3  VGG

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.4  GoogleNet

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.5  ResNet

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.6  DenseNet

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.7  Vision Transformer

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.8  Swing Transformer

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

Swing Transformer 提出Window based Self-Attention:将输入图像分成互不重叠的Window,自注意机制在每一个Window中独立计算

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

计算机视觉基础(10)——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

总结

本文从视觉算法设计流程的演变入手,对比传统视觉算法和深度学习算法的优劣,引出深度学习算法,并依次介绍了深度特征、深度神经网络类型和图像分类的经典模型文章来源地址https://www.toymoban.com/news/detail-765620.html

到了这里,关于计算机视觉基础(10)——深度学习与图像分类的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习:图像分割指南】计算机视觉中的图像分割指南:最佳实践

    图像分割是计算机视觉中的一项关键任务,其目标是将图像划分为不同的有意义且可区分的区域或对象。这是物体识别、跟踪和检测、医学成像和机器人等各种应用中的一项基本任务。 许多技术可用于图像分割,从传统方法到基于深度学习的方法。随着深度学习的出现,图像

    2024年01月23日
    浏览(72)
  • 计算机视觉与深度学习-图像分割-视觉识别任务01-语义分割-【北邮鲁鹏】

    给每个像素分配类别标签。 不区分实例,只考虑像素类别。 滑动窗口缺点 重叠区域的特征反复被计算,效率很低。 所以针对该问题提出了新的解决方案–全卷积。 让整个网络只包含卷积层,一次性输出所有像素的类别预测。 全卷积优点 不用将图片分为一个个小区域然后再

    2024年02月07日
    浏览(63)
  • 计算机视觉与深度学习-图像分割-视觉识别任务03-实例分割-【北邮鲁鹏】

    论文题目:Mask R-CNN 论文链接:论文下载 论文代码:Facebook代码链接;Tensorflow版本代码链接; Keras and TensorFlow版本代码链接;MxNet版本代码链接 参考:Mask R-CNN详解 将图像中的每个像素与其所属的目标实例进行关联,并为每个像素分配一个特定的标签,以实现像素级别的目标

    2024年02月07日
    浏览(44)
  • 计算机视觉——飞桨深度学习实战-图像分类算法原理与实战

    图像分类是深度学习在视觉领域第一个取得突破性成果的任务。本章首先介绍了图像分类任务的发展历程与评价指标。然后分为三个角度分别介绍了在图像分类领域具有重要地位的三种模型。第一种是基于残差网络的模型,本章重点介绍了ResNet、DenseNet和DPN。第二种是基于T

    2024年02月02日
    浏览(40)
  • 计算机视觉学习笔记(图像的灰度与灰度级 图像的深度 图像噪声 图像处理)

    如果把白色和黑色之间按对数关系分为若干等级,称为灰度,灰度分为256阶,0为黑色,灰度就是没有色彩,RGB色彩分量全部相等(150,150,150)就代表灰度为150. 一幅图像中不同位置的亮度是不一样的,可用f(x,y)来表示(x,y)上的亮度。由于光是一种能量形式,因此亮度是非负

    2024年02月01日
    浏览(36)
  • 计算机竞赛 深度学习 opencv python 公式识别(图像识别 机器视觉)

    🔥 优质竞赛项目系列,今天要分享的是 🚩 基于深度学习的数学公式识别算法实现 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:4分 创新点:4分 🧿 更多资料, 项目分享: https://gitee.com/d

    2024年02月07日
    浏览(44)
  • PyTorch深度学习实战(5)——计算机视觉基础

    计算机视觉是指通过计算机系统对图像和视频进行处理和分析,利用计算机算法和方法,使计算机能够模拟和理解人类的视觉系统。通过计算机视觉技术,计算机可以从图像和视频中提取有用的信息,实现对环境的感知和理解,从而帮助人们解决各种问题和提高效率。本节中

    2024年02月16日
    浏览(29)
  • 计算机视觉与深度学习 | 视觉惯性SLAM的基础理论

    ===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== 计算机视觉与深度学习 | SLAM国内外研究现状

    2024年02月07日
    浏览(37)
  • 计算机竞赛 基于深度学习的动物识别 - 卷积神经网络 机器视觉 图像识别

    🔥 优质竞赛项目系列,今天要分享的是 基于深度学习的动物识别算法研究与实现 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng-senior/postgraduate 目前,由于计算机能力和相关理论的发展获得了重大突破,基于深度学

    2024年02月09日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包