神经网络架构设计常见问题及解答

这篇具有很好参考价值的文章主要介绍了神经网络架构设计常见问题及解答。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

如果你是人工神经网络 (ANN) 的初学者,你可能会问一些问题。 比如要使用的隐藏层数量是多少? 每个隐藏层有多少个隐藏神经元? 使用隐藏层/神经元的目的是什么? 增加隐藏层/神经元的数量总是能带来更好的结果吗? 使用什么损失函数? 使用多少个epoch? 使用什么权重初始化方法?

回答这些问题构成了设计基于神经网络的项目架构的基础。 因此,明智地选择这些参数当然非常重要。

我很高兴地告诉你我们可以回答此类问题。 需要明确的是,如果要解决的问题很复杂,那么回答这些问题可能会太复杂。 读完本文后,你至少可以了解如何回答这些问题,并能够根据简单的示例自己进行测试。

神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

推荐:用 NSDT设计器 快速搭建可编程3D场景。

1、基本的神经网络结构

基于自然,神经网络是我们对大脑的通常表示:神经元与其他神经元互连形成网络。 一条简单的信息在成为实际事物之前会在许多人中传递,例如“移动手拿起这支铅笔”。

完整的神经网络的操作很简单:输入变量作为输入(例如,如果神经网络应该告诉图像上的内容,则输入图像),经过一些计算后,返回输出(按照第一个示例, 给出猫的图像应该返回单词“cat”)。
神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

2、输入神经元

这是神经网络用于进行预测的特征数量。

输入向量的每个特征需要一个输入神经元。 对于表格数据,这是数据集中相关要素的数量。 您需要仔细选择这些特征,并删除任何可能包含无法泛化到训练集之外(并导致过度拟合)的模式的特征。 对于图像,这些是图像的尺寸(对于 MNIST,为 28*28=784)。

3、输出神经元

这是你想要做出的预测数量。

回归:对于回归任务,这可以是一个值(例如房价)。 对于多变量回归,每个预测值有一个神经元(例如,对于边界框,它可以是 4 个神经元 - 边界框高度、宽度、x 坐标、y 坐标各一个)。

分类:对于二元分类(垃圾邮件-非垃圾邮件),我们为每个正类使用一个输出神经元,其中输出表示正类的概率。 对于多类分类(例如,在对象检测中,一个实例可以被分类为汽车、狗、房子等),我们每个类有一个输出神经元,并在输出层使用 softmax 激活函数来确保 最终概率总和为 1。

4、隐层神经元

隐藏层的数量很大程度上取决于问题和神经网络的架构。 你本质上是在尝试进入完美的神经网络架构——不太大,也不太小,恰到好处。

一般来说,1-5 个隐藏层就可以很好地解决大多数问题。 在处理图像或语音数据时,你希望网络具有数百层,但并非所有层都完全连接。 对于这些用例,有预先训练的模型(YOLO、ResNet、VGG),它们允许你使用其网络的大部分,并在这些网络之上训练你的模型以仅学习高阶特征。 在这种情况下,你的模型仍然只有几层需要训练。

一般来说,所有隐藏层使用相同数量的神经元就足够了。 对于某些数据集,拥有较大的第一层并随后使用较小的层将带来更好的性能,因为第一层可以学习许多较低级别的特征,这些特征可以输入后续层中的一些高阶特征。

通常,添加更多层会比在每层中添加更多神经元获得更多的性能提升。

我建议从 1-5 层和 1-100 个神经元开始,然后慢慢添加更多层和神经元,直到开始过度拟合。 你可以在权重和偏差仪表板中跟踪损失和准确性,以查看哪些隐藏层+隐藏神经元组合会带来最佳损失。

选择较少数量的层/神经元时需要记住的是,如果这个数量太小,你的网络将无法学习数据中的底层模式,从而变得毫无用处。 解决这个问题的方法是从大量隐藏层 + 隐藏神经元开始,然后使用 dropout 和提前停止来让神经网络为你缩小自身规模。 再次,我建议尝试一些组合并跟踪权重和偏差仪表板中的性能,以确定适合你的问题的完美网络大小。

著名研究员 Andrej Karpathy 也推荐过拟合然后正则化的方法——“首先获得一个足够大的模型,使其能够过拟合(即关注训练损失),然后对其进行适当的正则化(放弃一些训练损失以改善验证损失)。”

5、损失函数

损失函数用于衡量预测输出与提供的目标值之间的误差。 损失函数告诉我们算法模型距离实现预期结果还有多远。 “损失”一词是指模型因未能产生预期结果而受到的惩罚。

神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

  • 回归

均方误差是最常见的优化损失函数,除非存在大量异常值。 在这种情况下,使用平均绝对误差 (MAE) 或 Huber 损失。

  • 分类

在大多数情况下,交叉熵会很好地为您服务。

你可以从这篇文章中更深入地了解神经网络中的损失函数。

6、批大小

批大小是指一次迭代中使用的训练示例的数量。

大的批可能会很棒,因为它们可以利用 GPU 的强大功能每次处理更多训练实例。 OpenAI 发现较大的批量大小(图像分类和语言建模为数万个,强化学习代理为数百万个)非常适合扩展和并行化。

然而,也有适合较小批量的情况。 根据 Masters 和 Luschi 的这篇论文,通过运行大批量提高并行性所获得的优势被小批量提高的性能通用性和更小的内存占用所抵消。 他们表明,增加批量大小会降低提供稳定收敛的可接受的学习率范围。 他们的结论是,事实上,越小越好; 并且最佳性能是通过 2 到 32 之间的小批量大小获得的。

如果你没有进行大规模操作,我建议你从较小的批大小开始,然后慢慢增加大小并在权重和偏差仪表板中监控性能以确定最适合的。

7、轮次数

我建议人们应该从大量的 epoch 开始,并在每个 epoch 的性能停止改善时使用 Early Stopping 来停止训练。

8、学习率

选择学习率非常重要,你要确保正确选择! 理想情况下,当你调整网络的其他超参数时,希望重新调整学习率。
神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

要找到最佳学习率,请从非常低的值 (10^-6) 开始,然后慢慢地将其乘以常数,直到达到非常高的值(例如 10)。 在权重和偏差仪表板中测量模型性能(相对于学习率的对数),以确定哪个速率可以很好地解决你的问题。 然后,你可以使用此最佳学习率重新训练你的模型。

最佳学习率通常是导致模型发散的学习率的一半。 请随意在随附的代码中为 learn_rate 设置不同的值,并查看它如何影响模型性能,以培养你对学习率的直觉。

我还建议使用 Leslie Smith 提出的学习率查找方法。 这是为大多数梯度优化器(SGD 的大多数变体)找到良好学习率的绝佳方法,并且适用于大多数网络架构。

另请参阅下面有关学习率表的部分。

9、动量

神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

比较有动量和没有动量的 SGD 算法的学习路径

梯度下降采取微小、一致的步骤接近局部最小值,当梯度很小时,可能需要很长时间才能收敛。 另一方面,动量考虑了之前的梯度,并通过更快地越过山谷并避免局部最小值来加速收敛。

一般来说,你希望动量值非常接近 1。 对于较小的数据集来说,0.9 是一个不错的起点,数据集越大,你希望逐渐接近 1 (0.999)。 (设置nesterov=True可以让动量考虑到当前点之前几步的成本函数的梯度,这使得它稍微更准确和更快。)

10、梯度消失和爆炸

就像人一样,并非所有神经网络层都以相同的速度学习。 因此,当反向传播算法将误差梯度从输出层传播到第一层时,梯度会变得越来越小,直到到达第一层时几乎可以忽略不计。 这意味着第一层的权重在每一步都不会显着更新。

神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

这就是梯度消失的问题。 (当某些层的梯度逐渐变大时,就会出现类似的梯度爆炸问题,导致某些层而不是其他层的权重大量更新。)

有几种方法可以抵消梯度消失。 现在让我们来看看它们吧!

11、隐层激活函数

一般来说,使用不同激活函数的性能按以下顺序提高(从最低→最高性能):

logistic → tanh → ReLU → Leaky ReLU → ELU → SELU

ReLU 是最流行的激活函数,如果您不想调整激活函数,ReLU 是一个很好的起点。 但是,请记住,ReLU 的吸引力越来越不如 ELU 或 GELU。

如果你感觉很热闹,可以尝试以下操作:

  • 对抗神经网络过度拟合:RReLU
  • 减少运行时延迟:leaky ReLU
  • 对于大规模训练集:PReLU
  • 快速推理:leaky ReLU
  • 如果你的网络没有自我规范化:ELU
  • 对于整体稳健的激活函数:SELU

与往常一样,不要害怕尝试不同的激活功能,并转向你的权重和偏差仪表板来帮助您选择最适合你的激活函数!

可以参考这篇研究论文,该论文深入探讨了神经网络中使用的不同激活函数的比较。

12、输出层激活函数

回归:回归问题的输出神经元不需要激活函数,因为我们希望输出具有任何值。 如果我们希望输出值限制在某个范围内,我们可以对 -1→1 值使用 tanh,对 0→1 值使用logistic函数。 如果我们只寻找正输出,我们可以使用 softplus 激活(ReLU 激活函数的平滑逼近)。

分类:使用sigmoid激活函数进行二分类,保证输出被挤压在0和1之间。使用softmax进行多类分类,保证输出概率加起来为1。

13、权重初始化方法

正确的权重初始化方法可以大大加快收敛时间。 初始化方法的选择取决于你的激活函数。 一些值得尝试的事情:

  • 当使用ReLU或leaky RELU时,使用He初始化
  • 当使用SELU或ELU时,使用LeCun初始化
  • 当使用softmax、logistic或tanh时,使用Glorot初始化
  • 大多数初始化方法都是均匀分布和正态分布的。

14、批归一化

批归一化学习每层输入的最佳均值和尺度。 它通过零中心化和标准化其输入向量,然后缩放和移动它们来实现这一点。 它也像一个正则化器,这意味着我们不需要 dropout 或 L2 reg。
神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

使用批归一化可以让我们使用更大的学习率(这会导致更快的收敛),并通过减少梯度消失问题在大多数神经网络中带来巨大的进步。 唯一的缺点是它几乎不会增加训练时间,因为每层都需要额外的计算。

15、梯度剪裁

减少梯度爆炸的好方法之一,特别是在训练 RNN 时,就是在梯度超过某个值时简单地对其进行裁剪。 我建议尝试剪辑标准化而不是剪辑值,这使我们能够保持梯度向量的方向一致。 剪辑归一化包含 l2 范数大于特定阈值的任何梯度。
神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

尝试几个不同的阈值以找到最适合你的阈值。

16、提前停止

神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

提前停止可以让你通过训练具有更多隐藏层、隐藏神经元和比你需要的更多时期的模型来实现它,并且当性能在 n 个时期连续停止改善时停止训练。 它还为你保存性能最佳的模型。 可以通过在适合模型时设置回调并设置 save_best_only=True 来启用提前停止。

17、Dropout

Dropout 是一种出色的正则化技术,它为我们带来了巨大的性能提升(对于最先进的模型来说约为 2%),而该技术实际上是多么简单。 Dropout 所做的就是在每个训练步骤中随机关闭每一层的一定比例的神经元。 这使得网络更加稳健,因为它不能依赖任何特定的输入神经元集来进行预测。 知识分布在整个网络中。 在训练过程中会生成大约 2^n(其中 n 是架构中神经元的数量)稍微独特的神经网络,并将其集成在一起以进行预测。
神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

良好的dropout率在 0.1 到 0.5 之间; RNN 为 0.3,CNN 为 0.5。 对于更大的层使用更大的速率。 增加 dropout 率可以减少过拟合,而降低 dropout 率则有助于对抗欠拟合。

你想要在网络的早期层中试验不同的丢失率值,并检查权重和偏差仪表板以选择性能最佳的一个。 你绝对不想在输出层中使用 dropout。

在将 Dropout 与 BatchNorm 结合使用之前,请阅读本文。

在此内核中,我使用了 AlphaDropout,这是一种普通 dropout,通过保留输入的均值和标准差,可以与 SELU 激活函数很好地配合。

18、优化器

梯度下降并不是神经网络中使用的唯一优化器。 我们可以选择几种不同的。 在本文中,我只是描述一些你可以选择的优化器。 可以查看这篇文章,其中我详细讨论了所有优化器。
神经网络架构设计常见问题及解答,神经网络,人工智能,深度学习

如果你非常关心收敛的质量并且时间不是最重要的,我建议使用随机梯度下降(SGD)。

如果你关心收敛时间并且接近最佳收敛的点就足够了,请尝试使用 Adam、Nadam、RMSProp 和 Adamax 优化器。 你的权重和偏差仪表板将引导你找到最适合的优化器!

Adam/Nadam 通常是很好的起点,并且往往对学习迟缓和其他非最佳超参数相当宽容。

根据 Andrej Karpathy 的说法,就 ConvNet 而言,“经过良好调整的 SGD 几乎总是会稍微优于 Adam”。

在此内核中,我从 Nadam 获得了最佳性能,这只是带有 Nesterov 技巧的常规 Adam 优化器,因此比 Adam 收敛得更快。

19、学习率调度

我们已经讨论过良好学习率的重要性 - 我们不希望它太高,以免成本函数围绕最佳值跳舞并发散。 我们也不希望它太低,因为这意味着收敛将需要很长时间。

照顾学习率可能很困难,因为较高和较低的学习率都有其优点。 好消息是我们不必承诺一个学习率! 通过学习速率调度,我们可以从较高的速率开始,以更快地通过梯度斜率,并在我们到达超参数空间中的梯度谷时放慢速度,这需要采取更小的步长。

调度学习率的方法有很多,包括以指数方式降低学习率、使用阶跃函数、在性能开始下降时调整学习率或使用 1cycle 调度。 在此内核中,我向你展示了如何使用ReduceLROnPlateau回调在n个时期内性能下降时将学习率降低一个常数因子。

我强烈建议也尝试 1cycle 调度。

使用恒定的学习率,直到训练完所有其他超参数。 并在最后实施学习率衰减调度。

与大多数事情一样,我建议使用不同的调度策略运行一些不同的实验,并使用权重和偏差仪表板来选择能够产生最佳模型的模型。


原文链接:神经网络设计FAQ — BimAnt文章来源地址https://www.toymoban.com/news/detail-561187.html

到了这里,关于神经网络架构设计常见问题及解答的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Unet卷积神经网络架构

    UNet 是一种卷积神经网络架构,通常用于图像分割任务。它是由Olaf Ronneberger,Philipp Fischer和Thomas Brox在2015年提出的。论文题目:\\\"U-Net: Convolutional Networks for Biomedical Image Segmentation\\\" UNet 的体系结构基于编码器-解码器范式,其中编码器从输入图像中提取特征,解码器基于这些特征

    2024年02月12日
    浏览(36)
  • VGG神经网络模型的架构

    1、特征层(Features): 顺序层(Sequential),其中包含一系列的卷积层、激活函数和最大池化层。 网络的输入是一个3通道(RGB)图像。 第一个卷积层(Conv2d)具有64个滤波器,卷积核大小为3x3,步长为1x1,填充为1x1。 使用的激活函数是ReLU(修正线性单元)。 这种卷积层后跟

    2024年02月07日
    浏览(39)
  • ARM64架构环境安装RPM包常见问题汇总

    工作|ARM64架构环境安装RPM包常见问题汇总 一 ARM架构安装RPM包思路 服务器市场X86架构系统一家独大,很多功能包的RPM包在官网几乎只有X86架构的,找不到ARM64架构,但你需要在ARM64架构系统用该功能,怎么办呢? 遇到这种场景,解决的办法有两个: 1 下载源码到ARM64环境编译

    2024年02月07日
    浏览(55)
  • 深度学习入门(二):神经网络整体架构

    作用于每一层的输入,通过逐层计算得到输出结果 作用于网络输出,通过计算梯度由深到浅更新网络参数 层次结构:逐层变换数据 神经元:数据量、矩阵大小(代表输入特征的数量) x : [ 1 , 3 ] x:[1,3] x : [ 1 , 3 ] w 1 : [ 3 , 4 ] w_1:[3,4] w 1 ​ : [ 3 , 4 ] h i d d e n l a y e r

    2024年02月15日
    浏览(48)
  • 神经网络架构:最新进展和未来挑战

    🎉欢迎来到AIGC人工智能专栏~神经网络架构:最新进展和未来挑战 ☆* o(≧▽≦)o *☆嗨~我是IT·陈寒🍹 ✨博客主页:IT·陈寒的博客 🎈该系列文章专栏:AIGC人工智能 📜其他专栏:Java学习路线 Java面试技巧 Java实战项目 AIGC人工智能 数据结构学习 🍹文章作者技术和水平有限

    2024年02月11日
    浏览(39)
  • 如何看待第三代神经网络SNN?详解脉冲神经网络的架构原理、数据集和训练方法

    作者丨科技猛兽 编辑丨极市平台 本文首发于极市平台公众号,转载请获得授权并标明出处。 1 脉冲神经网络简介 2 脉冲神经网络原理 3 脉冲神经网络数据集 4 脉冲神经网络训练方法 5 脉冲神经网络评价指标 脉冲神经网络 (SNN) 属于 第三代神经网络模型 ,实现了更高级的生物

    2024年02月08日
    浏览(65)
  • Inception 深度卷积神经网络(CNN)架构

    Inception是一种深度卷积神经网络(CNN)架构,由Google在2014年提出。它是一种基于多尺度卷积的网络结构,旨在解决传统CNN在处理不同大小的输入图像时存在的问题。 Inception的主要特点是使用了多个不同尺度的卷积核来提取不同尺度的特征。这些卷积核可以并行地应用于输入

    2024年02月12日
    浏览(36)
  • 深度学习DAY3:神经网络训练常见算法概述

    这是最常见的神经网络训练方法之一。它通过计算损失函数对权重的梯度,并沿着梯度的反方向更新权重,从而逐步减小损失函数的值。梯度下降有多个变种,包括随机梯度下降(SGD)和小批量梯度下降。 反向传播是一种基于链式法则的方法,用于计算神经网络中每个神经元

    2024年02月07日
    浏览(45)
  • ELK常见部署架构以及出现的问题及解决方案

    ELK 已经成为目前最流行的集中式日志解决方案,它主要是由 Beats 、 Logstash 、 Elasticsearch 、 Kibana 等组件组成,来共同完成实时日志的收集,存储,展示等一站式的解决方案。本文将会介绍ELK常见的架 构以及相关问题解决。 Filebeat :Filebeat是一款轻量级,占用服务资源非常少

    2024年02月13日
    浏览(42)
  • 【深度学习-神经网络架构-通俗易懂的入门课程】

    AI 包括 机器学习 包括 深度学习 目前深度学习的算法表现更好 数据获取 特征工程 建立模型 评估与应用 特征、算法 特征决定了模型的上限,算法和参数决定了如何去逼近这个基线 问题:传统的机器学习算法,在数据规模上升时,效果无法提升 模型如何搭建? 领域都有成型

    2024年02月16日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包