Visualizing and Understanding Convolutional Networks阅读笔记

这篇具有很好参考价值的文章主要介绍了Visualizing and Understanding Convolutional Networks阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要

   CNN模型已经取得了非常好的效果,但是在大多数人眼中,只是一个“黑盒”模型,目前还不清楚为什么它们表现得如此好,也不清楚如何改进。在本文中,我们探讨了这两个问题。我们介绍了一种新的可视化技术,可以深入了解中间特征层的功能和分类器的操作。通过使用类似诊断的方式,作者还得到了比 AlexNet 更好的结构 ZFNet;最后,作者还通过在 ImageNet 上训练,然后在其他数据集上进行 fine-tuning,得到了非常好的结果。

1. 前言 [ 1 ] ^{[1]} [1]

   CNN在图像分类和物体检测领域大放异彩,主要是以下几项因素的作用:1).数以百万计带标签的训练数据的出现;2).GPU的强大计算能力,使得训练大的模型成为可能。

   尽管如此,从科学的角度来看,这是令人很不满意的。因为我们并不能解释这个复杂的模型,也就不理解为什么它能达到这么好的效果,而不了解这个模型如何工作和为什么有作用,我们改进模型就只能使用试错法。这篇论文提出了一种新的可视化技术,揭示了模型中任意层的feature map与输入之间的响应关系。

2. 使用反卷积网络可视化

   文中的卷积神经网络架构如下图所示:
Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性
   为了理解卷积网络,需要理解中间层的特征值,反卷积网络提供了办法。反卷积网络的每一层都可以看做卷积网络中对应层的逆过程,它们拥有相同的卷积核和池化索引,因此反卷积将特征值逆映射回了输入图片的像素空间,借此说明图片中的哪些像素参与激活了该特征值。下图将卷积网络和反卷积网络的过程合并,展示了两者各层之间的关系,且两者在整体上互为逆过程:首先,下图右下,卷积网络将一张图片作为输入,计算得到各层的特征表示;为了验证某层一个具体的特征值,我们将该层特征值之外的所有值置零后,将其作为反卷积网络的输入,经过反卷积网络每一层的操作,该特征值被映射回了输入图片的像素空间。下图中下面部分展示的是反池化过程。 [ 2 ] ^{[2]} [2]
Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性
反卷积网络的构成: [ 2 ] ^{[2]} [2]

  1. 反池化操作;理论上,卷积网络中的最大池化操作是不可逆的,但可以通过池化索引进行近似可逆。下图也是反池化操作的示意图。
    Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性
  2. 反激活函数;卷积网络中采用ReLU确保特征值非负,为了确保正逆过程的一致性,我们将反卷积网络每一层的重构特征也通过ReLU得到非负值。
  3. 反卷积操作;即为置换卷积,可参考[3]。

3. 卷积网络可视化 [ 2 ] ^{[2]} [2]

3.1 特征可视化

   下图展示了训练完成后,各层特征值的可视化结果。对于某一层某一个特定位置的特征,选取了9个最大的激活值(由9张输入图片经过卷积网络生成),并分别将其映射回输入图片的像素空间,可视化结果的旁边是特征对应的感受野的输入图片截图。从Layer1 特征图中选了9个位置的特征值,每个特征值选了最能激活该值的9张图片;从Layer2 特征图中选了16个位置的特征值,每个特征值选了最能激活该值的9张图片。 几点启示:

  1. 原图的截图比可视化结果的多样性更大,因为后者仅仅关注了截图中有判别能力的结构。举例来说:层5第1行第2列的9张输入原图差异很大,但同一特征值的可视化结果都关注了背景中的草地。
  2. 每层特征的可视化结构展示了各层的特点。层2展示了物体的轮廓和颜色的组合,每个特征的可视化结果大致相同(较小的不变性);层3有了更复杂的不变性,主要是相似的纹理(1行1列的网格特征、2行4列的文本特征);层4的不同特征对应的可视化结果有显著的差别,开始展现类与类之间的差异(1行1列都是狗狗的脸,4行2列都是鸟的腿);层5的不同特征对应的可视化结果对应了类别间的物体的整体差异(不再是局部)(1行1列键盘,4行的狗)。因为感受野相应的变大了。
  3. 层次越高,不变性越强。
    Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性
    Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性

3.2 训练过程中特征的演化

   在每一层随机选取6个特征,在训练过程中的第[1,2,5,10,20,30,40,64]个epoch时,将样本中最强激活的特征映射回输入图片像素空间。可以看出:底层特征很快可以趋于稳定,但高层特征需要更多次的迭代才能收敛,证明了迭代次数的必要性。
Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性

3.3 特征不变性

   下图第1列是5张示例图片的三种变换,分别为平移、缩放、旋转;列2和列3是层1和层7变换图和原图间的特征向量的欧几里得距离;列4是对应图片分类可能性的变化。总体来说:微小的变换对于低层的特征有显著地影响,而层越高,平移和缩放对结果的影响越小;但卷积网络无法对旋转操作产生不变性,除非物体有很强的不对称性。
Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性

3.4 架构选择

Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性
   可视化训练模型不但可以洞察CNN的操作,也可以帮助我们在前几层选择更好的模型架构。通过可视化AlexNet的前两层(图中b,d),我们就可以看出问题:

  1. 第一层filter是非常高频和低频的信息,中间频率的filter很少覆盖;
  2. 第二层的可视化有些具有混叠效应,由于第一层比较大的stride。

   为了解决这些问题:

  1. 将第一层的filter的尺寸从 11 × 11 11\times 11 11×11 减到 7 × 7 7\times 7 7×7
  2. 缩小间隔,从4变为2。

这两个改动形成的新结构,获取了更多的信息,而且提升了分类准确率。

3.5 遮挡敏感性

   当模型的分类性能提高时,一个自然而然的想法就是:分类器究竟基于什么信息做出了判断?是基于图片中的物体,还是图片中与物体无关的上下文信息。下图采用灰色矩形遮挡输入图片的不同部分,并将遮挡后的图片输入网络得到分类器的输出,1~3行分别是博美犬、车轮和阿富汗猎犬;a列是原图,b列是遮挡不同部位后得到的第五层的热力图(选取了不遮挡图片最大激活值所在的通道),c列是不遮挡原图第5层最大激活值的可视化结果,其余3张来自别的输入图片,d列是遮挡不同部位后,正确分类可能性的热力图,e列是遮挡不同部位后,最可能的分类结果。总体来说:

  1. b列说明:当遮挡了可视化结果对应的原图部位时,对应的特征值会急剧下降;
  2. d列说明:遮挡博美犬脸的部位、车轮部位、阿富汗犬部位,正确分类的可能性急剧下降。
    Visualizing and Understanding Convolutional Networks阅读笔记,深度学习,笔记,深度学习,可解释性

参考文章

[1] 知乎—Deep Visualization:可视化并理解CNN
[2] 知乎—“直观理解”卷积神经网络(一):反卷积(Deconvnet)
[3] CSDN—【机器学习】详解 转置卷积 (Transpose Convolution)文章来源地址https://www.toymoban.com/news/detail-653588.html

到了这里,关于Visualizing and Understanding Convolutional Networks阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • EEG-GNN论文阅读和分析:《EEG Emotion Recognition Using Dynamical Graph Convolutional Neural Networks》

    下面所有博客是个人对EEG脑电的探索,项目代码是早期版本不完整,需要完整项目代码和资料请私聊。 数据集 1、脑电项目探索和实现(EEG) (上):研究数据集选取和介绍SEED 相关论文阅读分析: 1、EEG-SEED数据集作者的—基线论文阅读和分析 2、图神经网络EEG论文阅读和分析:《

    2024年02月07日
    浏览(41)
  • 【论文阅读】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相较于传统的视觉里程计,端到端的方法可以认为是把特征提取、匹配、位姿估计等模块用深度学习模型进行了替代。不同于那种用深度学习模型取代里程计框架一部分的算法,端到端的视觉里程计是直接将整个任务替换为深度学习,输入依然是图像流,结果也依然是位姿,

    2024年03月18日
    浏览(44)
  • SRM : A Style-based Recalibration Module for Convolutional Neural Networks论文笔记

    整体结构图: Style Pooling风格池部分: Style Integration风格集成部分 1.提出了一个基于风格的重新校准模块(SRM),他通过利用中间特征映射的风格来自适应地重新校准。 2.SRM首先通过样式池从特征图的每个通道中提取样式信息,然后通过独立于通道的样式集成估计每个通道的重校

    2024年02月11日
    浏览(36)
  • 论文阅读- Uncovering Coordinated Networks on Social Media:Methods and Case Studies

    链接:https://arxiv.org/pdf/2001.05658.pdf 目录 摘要: 引言 Methods Case Study 1: Account Handle Sharing  Coordination Detection 分析 Case Study 2: Image Coordination Coordination Detection Analysis Case Study 3: Hashtag Sequences  Coordination Detection Analysis Case Study 4: Co-Retweets、 Coordination Detection Analysis  Case Study 5: Synch

    2024年02月14日
    浏览(36)
  • [论文阅读笔记25]A Comprehensive Survey on Graph Neural Networks

    这是一篇GNN的综述, 发表于2021年的TNNLS. 这篇博客旨在对GNN的基本概念做一些记录. 论文地址: 论文 对于图像数据来说, CNN具有平移不变性和局部连接性, 因此可以在欧氏空间上良好地学习. 然而, 对于具有图结构的数据(例如社交网络 化学分子等)就需要用GNN来学习. 最早期的GN

    2024年02月11日
    浏览(46)
  • 【论文解读】2017 STGCN: Spatio-Temporal Graph Convolutional Networks

    使用历史速度数据预测未来时间的速度。同时用于序列学习的RNN(GRU、LSTM等)网络需要迭代训练,它引入了逐步累积的误差,并且RNN模型较难训练。为了解决以上问题,我们提出了新颖的深度学习框架 STGCN ,用于交通预测。 符号 含义 M 历史时间序列长度 n 节点数 C i C_i C i ​

    2024年02月16日
    浏览(29)
  • (CVPR 2018) 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks

    卷积网络是分析图像、视频和3D形状等时空数据的事实标准。虽然其中一些数据自然密集(例如照片),但许多其他数据源本质上是稀疏的。示例包括使用LiDAR扫描仪或RGB-D相机获得的3D点云。当应用于此类稀疏数据时,卷积网络的标准“密集”实现非常低效。我们引入了新的

    2023年04月08日
    浏览(35)
  • 论文学习——U-Net: Convolutional Networks for Biomedical Image Segmentation

    采用端到端的结构,通过FCN(最后一层仍然是通过卷积完成),最后输出图像。 通过编码(下采样)-解码(上采样)形成一个“U”型结构。每次下采样时,先进行两次卷积(通道数不变),然后通过一次池化层(也可以通过卷积)处理(长宽减半,通道数加倍);在每次上

    2024年02月13日
    浏览(26)
  • 2019CVPR Semantic Graph Convolutional Networks for 3D Human Pose Regression

    基于语义图卷积网络的三维人体姿态回归 源码 https://github.com/garyzhao/SemGCN 在本文中,我们研究了学习图卷积网络(GCN)回归的问题。GCN的当前体系结构受限于卷积滤波器和共享的变换矩阵为的小感受野。为了解决这些限制,我们提出了语义图卷积网络(SemGCN),这是一种新

    2024年02月10日
    浏览(29)
  • 详解3D物体检测模型:Focal Sparse Convolutional Networks for 3D Object Detection

    用于3D目标检测的焦点稀疏卷积神经网络【CVPR2022】【3D检测】 本文介绍一篇新的 3D 物体检测模型: Focals Conv ,论文收录于 CVPR2022 。在 3D 检测任务中,点云或体素数据 不均匀地 分布在3维空间中, 不同位置的数据对物体检测的贡献是不同的 。然而目前主流的 3D 检测网络(

    2023年04月08日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包