P9-CNN学习1.1-VggNet

这篇具有很好参考价值的文章主要介绍了P9-CNN学习1.1-VggNet。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一.Abstract

二.Introduction

三.ConvNet Configuration

3.1Architecture

3.2Configuration

3.3Discussion

四.Classification Framework

4.1Training

4.2Testing

4.3Implementation Detail

五.Classification Experiments

5.1Single Scale Evaluation

5.2Multi Scale Evaluation

5.3Multi Crop Evaluation

5.4Convent Fusion

六.Conclusion

七.Innovation point

一.Abstract

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

         VggNet全部采用3*3卷积核提取特征,并且将神经网络层数提高到16-19层(AlexNet只有8层,也可以说11层)并且在 ImageNet-2014在本地化和分类两个方向分别获得第一和第二名,并且表现最好的两个模型已经投入到未来研究中。

二.Introduction

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        简述了一下发展过程,意义不大。略

三.ConvNet Configuration

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

         原文中并不太好理解网络架构,VGG16提供了更易理解的版本

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

链接:VGG16 - Convolutional Network for Classification and Detection 

3.1Architecture

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        在网络中,图像输入大小是224*224的RGB图像,所做的唯一预处理是从每个像素减去训练集上计算的平均值。使用3*3卷积核(stride=1)和1*1卷积核(2.3会详细说作用),并且进行padding=1操作,使用5个2*2max-pooling进行池化操作。

        在卷积层后由三个FC(全连接层组成),分别为4096 4096 1000

        在所有卷积操作后都加入了Relu进行非线性操作,并且与AlexNet不同的是去掉了LRN(4会详细说明LRN不会改善性能反而导致内存消耗和增加计算时间)

3.2Configuration

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        这里主要是为了2.3做铺垫,说明网络增加 ,但网络中的权重并不大于较浅的网络权重

3.3Discussion

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        不同于其他模型,VggNet使用细粒度更小的3*3卷积核进行提取特征,使用2个代替5*5,3个代替7*7 ,并且通过数学方法证明其更能节省参数且特征提取更加准确。

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        使用1*1卷积核提高模型的非线性

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习
想了解更多可以见之前的博客:YOLO学习1.2-YOLOV1中部分术语含义和作用_汉卿HanQ的博客-CSDN博客 

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

         在不同模型中,不断将网络层数由11提高到19(为什么不更多了呢?),但其参数并没有出现爆炸式增加。可以在table 1看到,网络每经过一次max-pooling特征图个数就会增加,这是因为池化会丢失部分特征,因此通过增加特征图个数来弥补特征丢失。

四.Classification Framework

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

4.1Training

 P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        这里介绍了一些训练参数的设置和初始化

        1.momentum=0.9

        2.L2正则化=5*10^-4

        3.Dropout=0.5

        4.Learning rate=10^-2(当验证集准确度不变时,learning rate下降10^-1)

        5.随机权重初始化:权重初始化为均值为0,方差为0.01的正态分布,偏差为0.

         (作者论文提交后发现,可以不用上面的方法初始化权重而是直接使用 Glorot & Bengio(2010) 的随机初始化程序就能得到很好的效果)

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        6.图片输入大小:224*224

        7.batch_size=256 

        关于图片的大小S使用了两种方法训练

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        1.第一种方法:固定 S,在实验中,评估模型用了两种图片大小:256 和 384。第一次训练固定图像大小 S = 256,为了加快 S = 384 的网络,将 S = 256 模型训练得到的参数作为 S = 384 模型的初始化权重,初始化学习率为 0.001。
        2.第二种方法:多尺度的训练。不固定训练图片的大小,将其固定在一个范围中 [256, 512],在训练时,考虑到不同尺度的图片作为训练集训练网络对训练是有益的,也可以看做通过尺度抖动增加训练数据集。这样训练出来的模型可以识别各种大小的图片,由于速度方面的原因,我们训练多尺度模型的方法是对相同配置的单尺度模型的所有层进行微调,预先用固定的S = 384进行训练。

4.2Testing

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        在测试阶段,在使用一张测试图片的不同大小进行测试,最后取这些结果平均值作为结果也会改善其性能。

        为了能够和全连接层连接上,在最后一个卷积层做一个max-pooling,这样即使不同大小的输入图像,通过最后一次池化,都可以连接在同一个全连接层。

        为了增强数据集,通过水平翻转图像技术,最后将原始图片和反转图片结果平均值作为该图片的最终结果。

        在评估网络时,把每张图片分为3个scale,每个裁处50个图片,这样一张图片九变成了150张。

4.3Implementation Detail

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        不同于AlexNet,VggNet使用单系统安装多GPU进行炼丹,因为梯度计算跨GPU同步 ,所以与单卡训练相同,在4张显卡的系统上,训练VggNet需要2-3周时间(因为层数增加,其训练时间比AlexNet要高出较多)

五.Classification Experiments

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        主要呈现了在 ILSVRC-2012 数据集上的分类结果,分类表现主要有两种评价指标:top-1 and top-5 errro,top-5 error 是 ILSVRC 的主要评价指标

5.1Single Scale Evaluation

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

对于模型 A,A-LRN,B,它们都采用的是固定 S = 256,并且我们发现模型 A-LRN 的表现还没有模型 A 好,所以对于后面的模型,都没有使用 LRN(局部响应正则化),但是我们观察到从模型 A 到模型 B,随着深度的增加,top-1 和 top-5 error 也在下降。

  再来观察模型 C、D、E,它们的 train 都测试了3种图片尺度,分别是 S=256,S=384,S=[256;512]。我们只看三个模型的 S=256 和 S=384,我们很容易发现不管哪一种模型,当 S=384,其模型的 top-1 和 top-5 是要优于 S=256 的。那是因为图片的分辨率越高,我们能够更容易捕捉到一些空间特征,所以其分类准确度就越高。

  最后,我们再来看看的三种模型的 S=[256;512] 的这种情况,我们很容易发现这种情况的分类结果不管在哪一种模型中都是表现最好的。这也证明了通过尺度来扩充训练集确实有助于捕获多尺度图像统计。

5.2Multi Scale Evaluation

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        根据表格我们可以得出结论:在测试阶段的尺度抖动相较于单尺度的相同模型会有更好的表现。其中模型 D 和 E 表现最好。表现最好的单个网络在验证数据集上 top-1 和 top-5 error 达到了 24.8%/7.5%,在测试数据集上,模型 E 达到了 7.3 % 的 top-5 error。

5.3Multi Crop Evaluation

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

         多裁剪评估。这里主要用到两种评估方法,一种是 dense,即评估时所使用的图片是整张图片,不经过任何裁剪。那么另一种就是 multi-crop,就是评估时使用的是裁剪后的图片。从评估结果来看使用Multi Crop比dense效果更好一些,而且因为两种方法是互补的,两种方法结合使用的表现比单独使用任何一种方法的效果都要好。

5.4Convent Fusion

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        模型融合。通过融合几种模型,最后取各个模型的 soft-max 结果的平均值作为模型的输出,可以从实验结果发现,融合一个模型 D 和模型 E ,并且在评估时使用 multi-crop 和 dense 的方法得到的表现最好。

Comparison With The State Of The Art in ILSVRC classification

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

        在 2014 年的挑战赛中,GoogLeNet 以 6.7% 的 error 夺冠,VGGNet 以 6.8% 的 error 获得第二名。但是如果从一个网络的分类准确度来看,VGG 是以 7.0% 的 error 要优于 GoogLeNet 的 7.9%。

六.Conclusion

P9-CNN学习1.1-VggNet,Read the paper 100 plans,学习

         在这项工作中,我们评估了用于大规模图像分类的非常深的卷积网络(多达19个权重层)。结果表明,表示深度对分类精度有好处,使用传统的 ConvNet 架构可以实现 ImageNet 挑战数据集的最先进的性能 (LeCun 等人,1989;Krizhevsky 等人,2012 年)大幅增加深度。在附录中,我们还展示了我们的模型可以很好地推广到广泛的任务和数据集,匹配或优于围绕较少深度图像表示构建的更复杂的识别管道。我们的研究结果再次证实了深度在视觉表现中的重要性。

七.Innovation point

        1.整个网络采用3*3卷积核,提高特征提取细粒度,增加了神经网络深度,增加更多的线性变化,使用2个代替5*5,3个代替7*7还减少了参数数量。

        2.引入1*1卷积核,在不影响输入输出维度情况下,引入非线性变化,增加网络表达能力,降低计算量等

        3.通过预训练方式更好的初始化权重,加快训练的收敛速度

        4.采用Multi-Scale的方式训练和预测,可扩充数据集,防止过拟合,提高准确率

        5.提高了网络深度到16-19层

        6.舍弃了AlexNet LRN层

        7.采用了多个池化层,这些池化层使用了较小的池化窗口(通常是2x2)和较大的步长,从而减少了特征图的尺寸,同时有效地减少了计算量。

本文参考VggNet 论文分析_基于vgg的毕业论文_蓝子娃娃的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-622757.html

到了这里,关于P9-CNN学习1.1-VggNet的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉:VGGNet网络详解

    VGGNet是牛津大学视觉几何组(Visual Geometry Group)提出的模型,故简称VGGNet, 该模型在2014年的ILSVRC中取得了分类任务第二、定位任务第一的优异成绩。该模型证明了增加网络的深度能够在一定程度上影响网络最终的性能。 论文地址:原文链接 根据卷积核大小与卷积层数目不同

    2024年04月27日
    浏览(28)
  • 基于VGGNet乳腺超声图像数据集分析

      数据集介绍: 乳腺癌是全世界妇女中最常见的死亡原因之一。早期检测有助于减少早期死亡的数量。该数据回顾了使用超声扫描的乳腺癌医疗图像。乳房超声数据集被分为三类:正常、良性和恶性图像。乳房超声图像与机器学习相结合,可以在乳腺癌的分类、检测和分割方

    2023年04月12日
    浏览(30)
  • 镜像法的理解——工程电磁场 P9

    此处有几点理解需要格外谈一下 1. 只有在有电力线的地方,才会产生电场的作用 2.对于下平面的分析,下平面如果存在电荷的话,必然存在电力线,那么从无穷远处做功到此处,必然会存在电势,而表面接地,电势为0,两者相矛盾 3.对于镜像电荷的等效,我们可以用另一个

    2024年02月09日
    浏览(41)
  • IO流 p9 转换流-InputStreamReader 和 OutputStreamWriter

    介绍 InputStreamReader:Reader的子类,可以将InputStream(字节流)包装成Reader(字符流); OutputStreamWriter:Writer的子类,实现将OutputStream(字节流)包装成Writer(字符流); 当处理纯文本数据时,如果使用字符流效率更高,并且可以有效解决中文问题,所以建议将字节流转换成字

    2024年02月08日
    浏览(38)
  • 《网络爬虫开发实战》学习笔记:1.1 HTTP基本原理

    1.1.1 URI和URL ​ URI ,全称Uniform Resource Identifier,即 统一资源标志符 ; URL ,全称Uniform Resource Locator,即 统一资源定位符 。 ​ 举例来说,https://github.com/favicon.ico既是一个URI,也是一个URL。即有favicon.ico这样一个图标资源,用这样一个URI/URL指定了访问它的唯一方式,其中包括

    2024年02月03日
    浏览(48)
  • 【LAMMPS学习】八、基础知识(1.1)重启LAMMPS模拟

    此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语,以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的  examples  目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各种模拟。 8.1.1.重新启

    2024年04月12日
    浏览(43)
  • P11-Transformer学习1.1-《Attention Is All You Need》

    Transformer目录:《Transformer Paper》1.0 CV Transformer必读论文5篇_汉卿HanQ的博客-CSDN博客 前文参考:Transformer1.0-预热_汉卿HanQ的博客-CSDN博客 全文1w3字左右,按照论文翻译+个人理解精读,如果对你有所帮助,欢迎点个赞哦! 目录 Abstract 一.Introduction 二.Background 三.Model Architecture 3.1Enc

    2024年02月13日
    浏览(78)
  • 【闪击Linux系列P9】程序员一定要了解的计算机管理理念——描述与组织

    ​ 前言 大家好吖,欢迎来到 YY 滴 Linux系列 ,热烈欢迎! 本章主要内容面向接触过Linux的老铁,从操作系统层面向大家介绍进程: 主要内容含: 欢迎订阅 YY 滴Linux专栏!更多干货持续更新!以下是传送门! 订阅专栏阅读: YY 的《Linux》系列 ❀❀❀❀❀ 【Linux】Linux环境搭建

    2024年02月12日
    浏览(44)
  • CNN详细学习

    MLP:multi-layer percetron Feed Forward and Back error propagation 解决异或划分问题 缺点: 容易过拟合 容易陷入局部最优化 梯度消失 计算资源不充分,训练集小 DNN 深一点效果好,宽一点容易理解,发现潜在规律 前向计算公式: 损失函数: sigmoid函数 根据通用近似定理,对于具有线性

    2024年02月06日
    浏览(51)
  • 自动化测试:Selenium高级操作!,看完阿里P9大牛的“软件测试成长笔记”我悟了

    分享他们的经验,还会分享很多直播讲座和技术沙龙 可以免费学习!划重点!开源的!!! qq群号:110685036 Switch_to切换frame 如果元素在html的frame或iframe中,则无法直接定位到元素。需要先切换到该frame中,再进行定位及其他操作。 相关方法: driver.switch_to.frame(frame_reference)

    2024年04月25日
    浏览(72)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包