深度学习入门——卷积神经网络CNN基本原理+实战

这篇具有很好参考价值的文章主要介绍了深度学习入门——卷积神经网络CNN基本原理+实战。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

CNN基本结构

​ 卷积神经网络(Convolutional Neural Network,CNN)是深度学习技术中最基础的网络结构,模拟人脑工作,具备强大的特征学习能力。CNN结构主要由两部分组成:特征提取部分和分类部分\color{blue}{特征提取部分和分类部分}特征提取部分和分类部分。特征提取部分网络将执行一系列卷积和池化操作。分类部分使用全连接层作为一个分类器,使用特征提取部分提取的特征为图像上的对象分配概率,即算法预测概率。CNN结构如下所示。

深度学习入门——卷积神经网络CNN基本原理+实战,深度学习,cnn,人工智能,pytorch,神经网络,机器学习,python

卷积层

​ 卷积层是CNN中最基础的结构,由许多卷积核(filter)\color{blue}{卷积核(filter)}卷积核(filter)组成,每个卷积核是一个针对局部区域的滤波模板,模板对应区域称之为感受野\color{blue}{感受野}感受野。卷积核以一定步长在图像矩阵上滑动,每到一个位置,卷积核对这个位置进行卷积操作,用图像矩阵上的值乘以卷积核中对应位置的权重,求和后得到卷积后的值。下图是一个2×22 \times 22×2的卷积核以1为步长在一个3×33 \times 33×3的矩阵上卷积的过程。以蓝色输出的位置为例,0×0+1×1+2×3+3×4=19\color{blue}{0×0+1×1+2×3+3×4=19}0×0+1×1+2×3+3×4=19 ,卷积完成后向右移动一个步长继续卷积,直到所有位置都卷积完毕。这样的结构在图像的不同区域都共享同样的卷积核参数,大大减少了网络的计算开销。

深度学习入门——卷积神经网络CNN基本原理+实战,深度学习,cnn,人工智能,pytorch,神经网络,机器学习,python

​ 总结:卷积层中的超参数包括卷积核个数、大小尺寸、步长和填充\color{blue}{卷积核个数、大小尺寸、步长和填充}卷积核个数、大小尺寸、步长和填充(尺寸大于1×11×11×1的卷积核或大于1的步长会导致卷积后的特征图小于卷积之前,所以有的网络会利用填充零元素的方法使特征图和卷积之前保持一致),那么输出特征图的大小可表示为:

{W2=W1−F+2×ps+1H2=H1−F+2×ps+1\begin{aligned} \left{ \begin{array}{l} {W_2} = \frac{{{W_1} - F + 2 \times p}}{s} + 1\ \ {H_2} = \frac{{{H_1} - F + 2 \times p}}{s} + 1 \end{array} \right. \end{aligned}⎩⎨⎧​W2​=sW1​−F+2×p​+1H2​=sH1​−F+2×p​+1​​

​ 其中,W1×H1{W_1} \times {H_1}W1​×H1​代表输入图像的尺寸,W2×H2{W_2} \times {H_2}W2​×H2​为输出图片的尺寸,FFF为卷积核的尺寸,ppp一般取值为0或1,sss为步长。

​ 看完这个公式我就要考考大家了:如果输入数据是32∗32∗33232332∗32∗3的图像,用10个5∗5∗35535∗5∗3的filter来进行卷积操作,指定步长为1,边界填充为2,那么最终输出的规模是多少腻❓❓❓(先自己动笔算算嗷)答案是:(32−5+2∗2)/1+1=32\color{blue}{(32-5+22)/1+1=32}(32−5+2∗2)/1+1=32,输出规模为32∗32∗103232*1032∗32∗10,经过卷积操作后也可以保持特征图长度、宽度不变。

​ 为了给模型引入非线性,卷积核计算的结果一般需要输入激活函数。激活函数是神经网络结构中的重要元素,通过非线性转换实现自动特征提取,避免了线性输入输出问题,增强了网络非线性学习和处理复杂数据集的能力。激活函数必须具有单调性和可微性才能保证偏导函数的有效性。常用的激活函数有以下几种:

1.Sigmoid函数\color{blue}{1. Sigmoid函数}1.Sigmoid函数

Sigmoid函数将神经网络的输出映射到[0,1]范围内的概率值,这些概率值可以用来表示分类问题中每个类别的置信程度或回归问题中的连续输出。函数的特点是它的输出值在输入值为0时达到最大值0.5,并且在输入值接近正无穷或负无穷时趋近于1或0,使得函数能够对输入进行二元分类。但是❗该函数收敛速度缓慢,在反向传播时会有梯度消失问题。Sigmoid函数如下所示。

f(x)=11+e−x\begin{aligned} f(x) = {1 \over {1 + {e^{ - x}}}} \end{aligned}f(x)=1+e−x1​​

2.Tanh函数\color{blue}{2. Tanh函数}2.Tanh函数

Tanh函数的取值范围为[-1,1],形状类似于Sigmoid函数,但Tanh函数在x等于0时,输出值为0,而Sigmoid函数在这点的输出为0.5,因此Tanh函数具有更强的非线性特征。此外,Tanh函数以原点为对称,解决了零均值问题,两端仍会存在梯度消失和幂运算耗时的弊端。表达式如下。

tanh⁡(x)=sinh⁡(x)cosh⁡(x)=ex−e−xex+e−x\begin{aligned} \tanh (x) = {{\sinh (x)} \over {\cosh (x)}} = {{{e^x} - {e^{ - x}}} \over {{e^x} + {e^{ - x}}}} \end{aligned}tanh(x)=cosh(x)sinh(x)​=ex+e−xex−e−x​​

3.Relu函数\color{blue}{3. Relu函数}3.Relu函数

当输入信号小于等于0时,Relu函数的输出为0,当输入信号大于0时,输出等于输入信号本身。此函数的特点就是简单、高效、计算速度非常快。Relu函数的导数恒为1或0,可以减少计算量,加速模型的训练过程,同时能有效避免梯度消失。表达式如下。

f(x)=max(0,x)\begin{aligned} f(x)=max(0,x) \end{aligned}f(x)=max(0,x)​

4.LeakyRelu函数\color{blue}{4. Leaky Relu函数}4.LeakyRelu函数

与Relu不同,Leaky Relu在输入值为负数时不会输出0,而是输出一个很小的值a(通常为0.01),这个小值可以帮助解决Relu的死亡神经元问题,即在训练的过程中,某些神经元可能永远不会被激活,从而导致它们对整个网络的贡献为0。此外,Leaky Relu函数能够更快的收敛,在反向传播中也更加有效。Leaky Relu的表达式如下。

f(x)=max(0.01x,x)\begin{aligned} f(x)=max(0.01x,x) \end{aligned}f(x)=max(0.01x,x)​

池化层

​ 池化也叫下采样\color{blue}{下采样}下采样,通常在连续的卷积层之间会插入一个池化层,它的作用是逐渐降低数据单元的尺寸,有效减少网络中的参数数量,降低计算资源的消耗,增强模型的鲁棒性和泛化能力,同时也能有效控制过拟合。常见的池化操作包括最大池化(MaxPooling)和平均池化(AveragePooling)\color{blue}{最大池化(Max Pooling)和平均池化(Average Pooling)}最大池化(MaxPooling)和平均池化(AveragePooling)。最大池化的原理是选取局部区域内的最大值作为输出,这样可以保留输入数据的主要特征。下图是一个2×22 \times 22×2的池化滑窗以2为步长在一个4×44 \times 44×4的矩阵上进行最大池化的过程。以输出结果中的第一个位置为例,max(12,20,8,12)=20max(12,20,8,12)=20max(12,20,8,12)=20,该区域完成池化后向右移动一个步长继续池化,直到所有位置都池化完成。若是平均池化,就可以取平均值而不是最大值啦🪐🪐🪐

深度学习入门——卷积神经网络CNN基本原理+实战,深度学习,cnn,人工智能,pytorch,神经网络,机器学习,python

全连接层

​ 全连接层的目的是将前面通过卷积、池化等操作提取到的特征图进行分类或回归。这个层次的主要任务是将高维度的特征图转换为一维向量并输出到下一个层级进行处理\color{blue}{将高维度的特征图转换为一维向量并输出到下一个层级进行处理}将高维度的特征图转换为一维向量并输出到下一个层级进行处理。与卷积层、池化层不同,全连接层中每个神经元都与前一层中的所有神经元相连,所以叫做全连接。

​ 该层输入的数据通常是经过展平处理的,因此可以理解为把二维或三维的特征图变成了一维向量,在进行分类或者回归分析时,可以使用常见的多层感知器(MLP)。如此设计的好处在于,全连接层可以学习到各种组合的特征,从而提高模型的表达能力。同时,由于每个神经元之间都有连接,它们能够共享一些重要信息,减小模型参数的数量和计算量。

​ 看完上段话是不是有点一头雾水腻,那就举个栗子\color{blue}{举个栗子}举个栗子:

​ 如下图所示,9×99 \times 99×9的图像经过一系列的卷积、池化、激活函数操作后,即将进入到全连接层中。

深度学习入门——卷积神经网络CNN基本原理+实战,深度学习,cnn,人工智能,pytorch,神经网络,机器学习,python

​ 到了全连接层时,全连接层是一维数据,所以要将feature map变为一维。提问❓❓❓:它是怎么样把二维的输出,转换成一维形式的呢?\color{blue}{它是怎么样把二维的输出,转换成一维形式的呢?}它是怎么样把二维的输出,转换成一维形式的呢?假设,假设哈,在到达全连接层时是3个2×22 \times 22×2的矩阵,此时这12×112 \times 112×1(平展开)向量中的每一个元素就是输入层的一个神经元,将这3个矩阵变为一维的操作如下图左所示。然后将得到的一维向量送入到网络中以概率(Softmax)\color{blue}{概率(Softmax)}概率(Softmax)的方式判断是X还是非X。粗线表示特征明显的数据,即是X的特征与不是X的特征。根据计算得到的权重矩阵,对其进行加权求和,就得到了每个分类的得分,然后根据softmax函数进行概率计算,得到X的概率为0.92,不是X的概率为0.5,最终得到输出结果,过程如下图右所示。

深度学习入门——卷积神经网络CNN基本原理+实战,深度学习,cnn,人工智能,pytorch,神经网络,机器学习,python

CNN图像分类实战

​ 学完了卷积神经网络的基本构成之后,咱们就可以愉快的使用它进行分类啦🙌🙌🙌

​ 下图的(a)和(b)分别是煤炭coal和矸石gangue(夹杂在煤炭中的石块杂质)的图像,下面呢咱们就用CNN对这两类图像进行二分类\color{blue}{二分类}二分类,代码非常简单,只有三个文件:model.py、train.py和predict.py\color{blue}{model.py、train.py和predict.py}model.py、train.py和predict.py,相信你看懂之后会对CNN的结构及实现图片分类有更多的认识嗷🍕🍕🍕

深度学习入门——卷积神经网络CNN基本原理+实战,深度学习,cnn,人工智能,pytorch,神经网络,机器学习,python

​ 在进行任务之前呢,都毫无例外先准备数据集,若是希望效果精度嘎嘎好的话,数据集的图片原则上是越多越好。下面呢咱先上代码,代码中都有详细注释,保你一看就懂。在model.py文件中:

python
复制代码
model.py
import torch.nn as nn

class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.covn1 = nn.Sequential(       # 原始图片为(1,224,224)
            nn.Conv2d(1, 8, 5, 2),        # 卷积,卷积核5×5,步长2, (8,110,110)
            nn.ReLU(),                    # ReLU激活函数
            nn.MaxPool2d(2),              # 最大池化,池化核2×2,步长2, (8,55,55)
        )
        self.conv2 = nn.Sequential(
            nn.Conv2d(8, 16, 3, 1),        # (16,53,53)
            nn.ReLU(),
            nn.MaxPool2d(2),               # (16,26,26)
        )
        self.conv3 = nn.Sequential(
            nn.Conv2d(16, 32, 3, 1),       # (32,24,24)
            nn.ReLU(),
            nn.MaxPool2d(2),               # (32,12,12)
        )
        self.conv4 = nn.Sequential(
            nn.Conv2d(32, 64, 3, 1),       # (64,10,10)
            nn.ReLU(),
            nn.MaxPool2d(2),               # (64,5,5)
        )
        self.conv5 = nn.Sequential(
            nn.Conv2d(64, 64, 5, 1),       # (64,1,1)
        )
        self.layer1 = nn.Linear(64*1*1, 2)  # 全连接层将它展平  2类
        # initial weights
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode="fan_out")
                if m.bias is not None:
                    nn.init.zeros_(m.bias)
            elif isinstance(m, (nn.BatchNorm2d, nn.GroupNorm)):
                nn.init.ones_(m.weight)
                nn.init.zeros_(m.bias)
            elif isinstance(m, nn.Linear):
                nn.init.normal_(m.weight, 0, 0.01)
                nn.init.zeros_(m.bias)
#前向传播
    def forward(self, x):
        x = self.covn1(x)
        x = self.conv2(x)
        x = self.conv3(x)
        x = self.conv4(x)
        x = self.conv5(x)
        x = x.view(x.size(0), -1)
        output = self.layer1(x)
        return output

​ 在model.py中定义了一个CNN类\color{blue}{CNN类}CNN类,构造了一个简单的网络结构,包含卷积、激活、池化、全连接层。代码最后的前向传播目前不了解没关系,只需要知道这是一种训练方式就行,这一part可以下节仔细讲讲。由于咱们主要是学习CNN的结构,故这里就不再给出训练和预测\color{blue}{训练和预测}训练和预测的详细代码啦,感兴趣的同学可以访问<https://github.com/renqi1/Coal_Gangue_Classification运行完整代码嗷⛳⛳⛳文章来源地址https://www.toymoban.com/news/detail-811445.html

到了这里,关于深度学习入门——卷积神经网络CNN基本原理+实战的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习|CNN卷积神经网络

    在CNN没有出现前,图像对人工智能来说非常难处理。 主要原因: 图像要处理的数据量太大了。图像由像素组成,每个像素又由不同颜色组成,一张1000×1000彩色RGB图像需要的参数是1000×1000×3,需要三百万参数左右,普通神经网络会全用全连接方法来学习整幅图像上的特征,处

    2024年02月11日
    浏览(34)
  • 深度学习——CNN卷积神经网络

    卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习中常用于处理具有网格结构数据的神经网络模型。它在计算机视觉领域广泛应用于图像分类、目标检测、图像生成等任务。 CNN 的核心思想是通过利用局部感知和参数共享来捕捉输入数据的空间结构信息。相比于传统

    2024年02月15日
    浏览(33)
  • 深度学习1.卷积神经网络-CNN

    目录 卷积神经网络 – CNN CNN 解决了什么问题? 需要处理的数据量太大 保留图像特征 人类的视觉原理 卷积神经网络-CNN 的基本原理 卷积——提取特征 池化层(下采样)——数据降维,避免过拟合 全连接层——输出结果 CNN 有哪些实际应用? 总结 百度百科+维基百科 卷积层

    2024年02月11日
    浏览(36)
  • 深度学习03-卷积神经网络(CNN)

    CNN,即卷积神经网络(Convolutional Neural Network),是一种常用于图像和视频处理的深度学习模型。与传统神经网络相比,CNN 有着更好的处理图像和序列数据的能力,因为它能够自动学习图像中的特征,并提取出最有用的信息。 CNN 的一个核心特点是卷积操作,它可以在图像上进

    2024年02月05日
    浏览(57)
  • 【深度学习_TensorFlow】卷积神经网络(CNN)

    这篇文章的行文思路如下: 先根据视频了解卷积和卷积神经网络的整体框架 接着了解卷积神经网络构建过程中的一些重要操作,包括内积、填充、池化。 然后介绍卷积层如何实现。 最后用卷积神经网络的开山之作(LeNet-5)来进行上手练习。 最近学习信号与系统的时候,了

    2024年02月07日
    浏览(32)
  • 【深度学习】最强算法之:卷积神经网络(CNN)

    小屌丝 :鱼哥, 看下这个流程图,我没看明白 小鱼 :啥流程图。 小屌丝 :你看,就是这个。 小鱼 :嗯,不错,不错。 小屌丝 :能不能给我讲一讲这个? 小鱼 :你要了解CNN ? 小屌丝 :CNN 是? 小鱼 :…你这… 深度学习知道吗? 小屌丝 :知道啊 小鱼 :你都知道深度

    2024年04月09日
    浏览(30)
  • 学习笔记:深度学习(3)——卷积神经网络(CNN)理论篇

    学习时间:2022.04.10~2022.04.12 CNN(Convolutional Neural Networks, ConvNets, 卷积神经网络)是神经网络的一种,是理解图像内容的最佳学习算法之一,并且在图像分割、分类、检测和检索相关任务中表现出色。 3.1.1 什么是CNN? CNN是一种带有卷积结构的前馈神经网络, 卷积结构 可以减少

    2024年02月03日
    浏览(73)
  • 【深度学习】6-4 卷积神经网络 - CNN的实现

    CNN的实现 网络的构成是“Convolution - ReLU - Pooling -Affine - ReLU - Affine - Softmax”,我们将它实现为名为 SimpleConvNet 的类。 首先来看一下 SimpleConvNet的初始化( init ),取下面这些参数。 input_dim——输入数据的维度:(通道,高,长) conv_param——卷积层的超参数(字典)。字典的

    2024年02月10日
    浏览(35)
  • 文本分类系统Python,基于深度学习CNN卷积神经网络

    文本分类系统,使用Python作为主要开发语言,通过TensorFlow搭建CNN卷积神经网络对十余种不同种类的文本数据集进行训练,最后得到一个h5格式的本地模型文件,然后采用Django开发网页界面,实现用户在界面中输入一段文字,识别其所属的文本种类。 在我们的日常生活和工作中

    2024年02月08日
    浏览(30)
  • 深度学习实战——卷积神经网络/CNN实践(LeNet、Resnet)

          忆如完整项目/代码详见github: https://github.com/yiru1225 (转载标明出处 勿白嫖 star for projects thanks) 本系列博客重点在深度学习相关实践(有问题欢迎在评论区讨论指出,或直接私信联系我)。 第一章  深度学习实战——不同方式的模型部署(CNN、Yolo)_如何部署cnn_

    2023年04月11日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包