计算机视觉基础（10）——深度学习与图像分类

这篇具有很好参考价值的文章主要介绍了计算机视觉基础（10）——深度学习与图像分类。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

传统视觉算法采用手工设计特征与浅层模型，而手工设计特征依赖于专业知识，且泛化能力差。深度学习的出现改变了这一状况，为视觉问题提供了端到端的解决方案。在之前的课程中，我们已经学习了图像分类的传统知识。在本节课中，我们将学习到图像分类融合深度学习的方法。

一、视觉算法设计流程的演化

下面是传统视觉算法和深度学习算法的区别：

• 传统视觉算法采用手工设计特征与浅层模型；

• 手工设计特征依赖专业知识(Domain knowledge)，且泛化性能差；

• 深度学习的出现改变了这一状况，为视觉问题提供了端到端的解决方案。

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

接下来，我们以人脸识别任务为例，对传统方法和深度学习方法进行一个比较：

传统方法的思路如下：

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

深度学习方法的思路如下：

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

下面是深度学习方法的一些优点：

深度模型更适合处理大数据，随着训练数据规模增大，性能不断提升。
而浅层模型随训练数据的增加，性能提升不明显。

如下图所示：

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

并且，通过数据驱动的方式学出的深度特征，具有更强的泛化性能。

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

二、分层级深度特征

在了解了深度学习视觉算法的设计流程之后，我们还需要学习一下分层级的深度特征。

不同层级的卷积层所学习到的图像特征具有分层的特性

• 浅层: 学习到图像的低级（Low-level）特征，如颜色、边缘、纹理

• 深层: 学到图像的高级（High-level）特征，如物体位置、语义类别

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

我们以AlexNet为例，对每一层卷积层进行说明：

1）AlexNet中第一层卷积的滤波器96x[11x11x3] 学到edge, color, blob 等底层特征，与手工设计滤波器组相似。

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

2）第二层对继续对角点和其他的边缘/颜色信息进行相应

3）第三层具有更复杂的不变性，捕获相似的纹理

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4）第四层显示了显著的变化，并且更加类别具体化。而第五层显示了具有显著姿态变化的整个对象。
计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

三、常见的深度神经网络类型

我们将依次介绍如下4种常见的深度神经网络类型，这在之前的深度学习课程上面也学习过，在此仅作为复习使用：

• 全连接网络 (Fully Connected Net)

• 卷积网络 (Convolution Net)

• 递归网络 (Recurrent Net)

• Transformer

3.1 全连接网络

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2 卷积网络

对于卷积神经网络，我们需要知道参数量的计算、卷积层的3个主要特点、卷积的过程和空洞卷积的概念和意义、上采样的概念和计算，批量归一化的定义和优缺点。

3.2.1 卷积层参数量的计算

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.2 卷积层的特点（重要）

3.2.3 卷积的过程

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.4 卷积步幅

下图中的步幅 stride = 2

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.5 空洞卷积

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.6 池化层

池化的意义和作用如下：

• 使用某一位置相邻区域的总体统计特性来代替网络在该位置的输出

• 在尽量保留有用信息的同时，实现特征图降采样，提升感受野

1）最大值池化

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

2）平均值池化

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.7 上采样（反卷积）

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.2.8 批量归一化（重点）

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

参考文献：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift， ICML 2015

BN的优缺点如下：

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

需要掌握Batch Norm、Layer Norm、Instance Norm和Group Norm这四个对应的表示形式：

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.3 递归网络

不是考查的重点，请感兴趣的读者移步参考下方链接：

【神经网络】递归神经网络 - 知乎 (zhihu.com)

3.4 Transformer

• Transformer最早针对NLP任务设计，随后推广至视觉领域 (分类、检测、分割、跟踪)

• Transformer最核心的模块是自注意力机制模块，该模块通过将输入特征间的相关性作为权重，对输入特征进行加权，实现管局关系建模

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.4.1 自注意力机制

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

参考链接：https://jalammar.github.io/illustrated-transformer/

3.4.2 多头注意力模块

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

3.4.3 常见的损失函数与优化器

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

四、图像分类

接下来我们将介绍最经典的一些图像分类模型：

4.1 ImageNet数据集

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

细粒度（Fine-Grained）图像分类是对图像种类进行更精细的划分：

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

随着旧模型的不断改进，新模型的不断提出，图像分类模型推陈出新，ImageNet精度逐年提升：

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.2 AlexNet

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.3 VGG

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.4 GoogleNet

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.5 ResNet

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.6 DenseNet

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.7 Vision Transformer

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

4.8 Swing Transformer

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

Swing Transformer 提出Window based Self-Attention:将输入图像分成互不重叠的Window，自注意机制在每一个Window中独立计算

计算机视觉基础（10）——深度学习与图像分类,计算机视觉基础,计算机视觉,深度学习,人工智能

总结

本文从视觉算法设计流程的演变入手，对比传统视觉算法和深度学习算法的优劣，引出深度学习算法，并依次介绍了深度特征、深度神经网络类型和图像分类的经典模型。文章来源地址https://www.toymoban.com/news/detail-765620.html

到了这里，关于计算机视觉基础（10）——深度学习与图像分类的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

计算机视觉基础（10）——深度学习与图像分类

前言

一、视觉算法设计流程的演化

二、分层级深度特征

三、常见的深度神经网络类型

3.1 全连接网络

3.2 卷积网络

3.2.1 卷积层参数量的计算

3.2.2 卷积层的特点（重要）

3.2.3 卷积的过程

3.2.4 卷积步幅

3.2.5 空洞卷积

3.2.6 池化层

3.2.7 上采样（反卷积）

3.2.8 批量归一化（重点）

3.3 递归网络

3.4 Transformer

3.4.1 自注意力机制

3.4.2 多头注意力模块

3.4.3 常见的损失函数与优化器

四、图像分类

4.1 ImageNet数据集

4.2 AlexNet

4.3 VGG

4.4 GoogleNet

4.5 ResNet

4.6 DenseNet

4.7 Vision Transformer

4.8 Swing Transformer

总结

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2