【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集)

这篇具有很好参考价值的文章主要介绍了【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨
📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】
📢:文章若有幸对你有帮助,可点赞 👍 收藏 ⭐不迷路🙉
📢:内容若有错误,敬请留言 📝指正!原创文,转载请注明出处


欠拟合和过拟合

欠拟合的概念
原因是模型训练次数不够,导致模型太简单,一般一开始的模型就是欠拟合模型。解决办法:充分训练。

过拟合的概念
模型在训练集上表现良好,表现为对训练集的识别或是检测精度随着不断训练越来越高,但在测试数据集上表现不好,表现为离100%的精度还有很大差距。也就是只能拟合训练数据,不能很好拟合其他数据。
过拟合的原因
1.模型拥有大量参数、表现力太强。
2.训练数据太少。
解决过拟合的办法
1.数据增强法:图像缩放,图像随机截取,随机翻转;图像亮度、对比度、颜色调整
2.学习率衰减:一开始设置一个比较大的学习率,让模型快速靠近最优解附近,然后使用比较小的学习率慢慢收敛到达最优解。
3.权值衰减:通过在学习过程中对大的权重进行惩罚,来抑制过拟合。
4.dropout:在学习过程中,随机删除神经元的方法

泛化能力与迁移学习

泛化能力:对未知数据有非常好的检测效果。
迁移学习(transfer leaning):机器像人一样能够举一反三的学习,借鉴前人的经验,使用很少时间完成相似任务。训练好的模型(预训练模型)已经具备对图片的理解能力,根据实际应用,修改部分网络层,而不改变其提取的特征,也就是在全连接层做分类的修改。卷积神经网络利用数据、模型、任务之间的相似性,将训练好的内容应用到新的任务上,被称为迁移学习,被迁移的对象称为源域,被赋予的对象称为目标域,迁移学习不是具体的模型,更像是解题思路,简单来说就是站在巨人的肩膀上。意义:目标领域的数据太少,需要标注数据更多的源域的帮助,节约训练时间,实现个性化应用等。

模型训练的概念:将数据集扔给我们需要预测的函数中,来求取模型参数。对训练机器学习模型的理解,从图可以理解:训练集就是A和B的坐标,测试集就是C的坐标,而模型就是由A和B得到的函数
【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集),# Deep Learning,深度学习,迁移学习,人工智能

查准率和查全率

上采样:即是反卷积(Deconvolution)
特征图:卷积层的输入输出数据成为特征图。
查准率:等于精确率。它表示预测为正的样本中多少是真正的正样本;
查全率:等于召回率。 TP、FN 和 FP :分别表示真阳性、假阴性和假阳性。真阳性是指预测为正,实际为正;假阴性是指预测为负,实际为正;假阳性是指预测为正,实际为负。

超参数:初始参数,人为给定。包括卷积层中的卷积核和数量;池化层中的池化方式、步长;全连接层中的神经元个数等等。 神经元的数量、batch大小、参数更新时的学习率或是权值衰减。

调参和超参数

调参:优化微调超参数。调参主要是调学习率,调的好能慢慢到损失函数的谷底。
学习率:衰减系数设置为XX ,学习率随着迭代次数在逐渐下降。学习率:表示学习的速度。
学习率对梯度下降的影响:为了能够使得梯度下降法有较好的性能,我们需要把学习率的值设定在合适的范围内。学习率决定了参数移动到最优值的速度快慢。如果学习率过大,很可能会越过最优值;反而如果学习率过小,优化的效率可能过低,长时间算法无法收敛。所以学习率对于算法性能的表现至关重要。因此学习率大小决定模型训练时长。
【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集),# Deep Learning,深度学习,迁移学习,人工智能
迭代次数:指的是模型所有数据样本都进行训练的轮数,模型收敛的迭代次数往往和数据量和模型的复杂程度成正相关,模型越复杂、数据样本越多就需要越多的迭代次数。
batch_size:批大小,BATCH_SIZE = self.IMAGES_PER_GPU * self.GPU_COUNT,内存小的话IMAGES_PER_GPU = 1,因此训练设置的batch_size=1。

steps_per_epoch:一轮epoch包含的步数,steps_per_epoch = total_samples//(batch_size)。
残差模块:预测值和真实值之间的差值。加入偏差(残差)就会使原始数据更加接近真实值。残差神经网络越深,从图像中提取的特征就会越丰富。残差块使得很深的网络更加容易训练,甚至可以训练一千层的网络。
残差模块组成:一个主干层,包括卷积层和激活函数;一个支路做恒等映射。残差网络中一部分快捷连接是虚线,一部分是实线。实线部分表示输入输出通道维度相同,可直接进行相加,因此采用计算方式为
H(x)=F(x)+x。虚线部分表示通道不同,需要进行维度调整,采用的计算方式为
H(x)=F(x)+Wx。由于恒等映射的存在,减少网络的梯度消失,加快收敛速度,提高训练精度。

训练集、测试集和验证集

训练集:训练模型,求f(x)中的参数
测试集:求各个样本对应的预测集,对模型进行评估。注意:测试集不能用于训练。
验证集(validation):通过验证集对各个模型进行评估,从而选出这一个具体问题得分最高的机器学习算法和超参,然后再在训练集上重新训练模型,从而得到最终的模型,最后用在测试上预测。
划分比例:训练集、验证集、测试集的比例一般为:6:2:2;8:1:1;7;2;1

端到端的概念

而深度学习模型在训练过程中,从输入端(输入数据)到输出端会得到一个预测结果,与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束,这是端到端的。

卷积神经网络

卷积层作用:替代传统使用先验模型的方式进行特征提取。 输入特征图和输出特征图:卷积层输入输出的数据。
卷积运算:卷积层进行的处理就是卷积运算。滤波器对输入的数据按照一定间隔滑动,在各个位置上滤波器的元素和输入的对应元素相乘,然后再求和。有时还需要加上偏置,将这个结果保存到输出的对应位置。将这个过程在所有位置上都进行一遍,就得到卷积运算的输出。
滤波器:又称卷积核,用于卷积运算对输入数据的滤波处理。 填充的概念:在卷积运算前,在输入数据的周围填入固定的数据。
1X1卷积层的作用:不改变特征图的大小,只改变通道数。特征图进行降维,减少网络参数。同理也可以对特征图进行升维。
填充的作用:调整输出的大小。 步幅:滤波器的位置间隔成为步幅。 偏置:在输出数据前,在每个元素中都加上某个固定值。

池化层的作用:减少原特征图的尺寸,但同时不过多丢失特征信息。减少了网络的参数量,提高网络运算效率。 池化层的类型:最大池化、均值池化。
池化层的特征:1.没有要学习的参数;2.通道数不发生变化;3.对微小位置的变化具有鲁棒性。 全连接层的作用:全连接层的作用主要就是实现分类
流程:通过对卷积层获得的物体所有细节特征进行归纳,判断是否符合某个物体,借助置信度这个值进行量化评判,值越高,说明越接近这个物体。
激活函数的作用:决定如何来激活输入信号的总和。用于信号转换。 激活函数的类型:Sigmoid函数(最早),Relu函数。

输出层的作用:根据情况改变输出层的激活函数,实现分类和回归的作用 输出类型:分类和回归,分类一般用softmax函数;回归使用恒等函数。
恒等函数:会将输入按照原样输出,对于输入的信息,不加以任何改动直接输出。
Softmax函数:公式,注意事项:1.指数运算可能存在数字过大导致溢出的问题,解决办法:分子分母均减去输出信号的最大值。2.神经网络只把输出值最大的神经元对于的类别作为识别结果,不用softmax也可以判断类别。在实际的问题中,由于函数运算的匀速需要一定的计算量,因此输出层softmax函数一般会被忽略。

其他

残差网络设计初衷:在增加网络层的同时能改变精度,通过残差块加入快速通道。所谓残差指的是预测值与真实值之间的偏差。针对网络退化现象,而研发该网络,解决网络退化问题,所谓网络退化指的是模型在验证集和测试集上误差都比浅层网络的高,因此不能一味地将网络堆地很深。
Ground Truth:放到机器学习里面,再抽象点可以把它理解为真值、真实的有效值或者是标准的答案。

网络退化:在测试集和训练集的误差都很高。在目标检测领域,深度残差网络取得了优异的成绩。随着网络深度的增加,在深层网络能够收敛的前提下,正确率开始饱和甚至下降,这称之为网络退化问题
梯度爆炸和梯度消失:随着网络的加深,优化效果反而越差,测试数据和训练数据的准确率反而降低了
卷积层数:resnet18、34、51、101,其中的数字表示卷积层数。
增加卷积层数的意义:网络越深从图像中提取的层次就越丰富,这样各类计算机视觉任务都可以使用这个深度网络提取的底层特征,或是多层次特征从中获益。
鲁棒性:在机器学习,训练模型时,工程师可能会向算法内添加噪声(如对抗训练),以便测试算法的「鲁棒性」。可以将此处的鲁棒性理解述算法对数据变化的容忍度有多高。
损失函数:将卷积神经网络推理的结果跟真实结果进行误差计算,就是损失函数,损失函数越小,表明越接近真实结果。
如何降低损失函数:通过修改卷积核的参数与神经元的权重,使得误差最小。通过给卷积神经网络“喂”大数据,它就能自己计算出最合适的卷积核,权重等参数,使得误差降到最低。这也就是不用人为给定参数,它自己学习的过程-------机器学习。
激活函数:神经网络至少需要一层隐藏层和足够的神经元,利用非线性的激活函数便可以模拟任何复杂的连续函数。
激活函数的选择:在实际应用中,隐藏层的默认推荐激活函数通常为relu函数,大于0时是线性的,能很好解决梯度消失问题,其整体的非线性能够在神经网络中拟合任何复杂的连续函数。但是小于0时,其输出值为0,这意味着神经元处于熄灭状态,且在逆向参数调整过程中不产生梯度调整值。
机器学习的具体方法:使用梯度下降法,对损失函数求导,最小值处就是损失降到最低的点(波谷),寻找最小值的过程就是学习过程,最终找到该值说明学习(模型训练)成功。
反向传播:就是BP(back propagation)算法。设计思想:神经网络的优异程度是神经元之间连接的权重和神经元的阈值,确定这些数字的办法大部分时间在用反向传播的方法,也就是BP算法。每个神经网络的初始参数是随机赋予的,根据网络输出的答案与正确答案之间的误差,不断调整网络的参数。从最后一层开始逐层向前调整神经网络的参数,如果误差值为负就提示权重,反之降低权重,调整的程度受到学习率的制约,在一次次输入数据和反向调整中,网络就能给出不错的输出。由于强大的调整能力,BP算法控制下的神经网络很容易过拟合。BP:逆向参数调整。文章来源地址https://www.toymoban.com/news/detail-738419.html

到了这里,关于【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 过拟合、欠拟合、泛化误差、训练误差

    模型容量的影响: 泛化误差: 当训练的模型的容量过了最优点时,泛化误差反而升高,这是由于模型过于关注细节导致,模型也同时记住噪声;当拿来一个真的数据时,模型会被一些无关紧要的细节所干扰。 希望

    2024年02月09日
    浏览(33)
  • 搭建KerasLSTM模型,包括数据处理和过拟合处理

    一个完整的 Keras LSTM 模型的搭建过程,包括前期数据处理和过拟合处理: 数据准备 首先,需要准备好数据。通常,LSTM 模型的输入数据是一个时间序列,因此需要将数据进行预处理,转换成一个三维数组,形状为 (样本数, 时间步长, 特征维度)。其中,时间步长表示每个样本

    2024年02月07日
    浏览(41)
  • 基于深度强化学习的目标驱动型视觉导航泛化模型

    参考论文《Towards Generalization in Target-Driven Visual Navigation by Using Deep Reinforcement Learning》   目标是仅使用视觉输入就能导航并到达用户指定目标的机器人,对于此类问题的解决办法一般有两种。 将经典导航系统与目标检测模块结合起来。 基于地图的导航算法或者SLAM系统与最

    2024年02月06日
    浏览(50)
  • 深度学习中的鲁棒性和泛化性有什么区别

    鲁棒性(Robustness)和泛化性(Generalization)是评估模型性能时常用的两个术语,尤其在机器学习和统计建模领域。虽然这两个概念相关,但它们关注的方面有所不同。 鲁棒性 鲁棒性指的是模型在面对输入数据的小幅变动或存在噪声时仍能保持性能不受显著影响的能力。一个

    2024年02月21日
    浏览(42)
  • 大数据机器学习与深度学习——过拟合、欠拟合及机器学习算法分类

    针对模型的拟合,这里引入两个概念:过拟合,欠拟合。 过拟合:在机器学习任务中,我们通常将数据集分为两部分:训练集和测试集。训练集用于训练模型,而测试集则用于评估模型在未见过数据上的性能。过拟合就是指模型在训练集上表现较好,但在测试集上表现较差的

    2024年02月04日
    浏览(42)
  • 深度学习2:过拟合解决办法

     1.通过噪声正则化解决过拟合问题 噪声正则化是一种解决过拟合问题的有效方法。该方法通过向训练数据添加随机噪声,从而使模型更加鲁棒,并减少对训练数据的过度拟合。噪声正则化可以通过多种方式实现。其中一种常见的方法是在输入数据中添加随机噪声。例如,在

    2024年02月12日
    浏览(33)
  • 深度学习——过拟合和Dropout

    过拟合(Overfitting)是机器学习和深度学习中常见的问题之一,它指的是模型在训练数据上表现得很好,但在未见过的新数据上表现较差的现象。 当一个模型过度地学习了训练数据的细节和噪声,而忽略了数据中的一般规律和模式时,就会发生过拟合。过拟合是由于模型过于

    2024年02月16日
    浏览(38)
  • 【深度学习_TensorFlow】过拟合

    过拟合与欠拟合 欠拟合: 是指在模型学习能力较弱,而数据复杂度较高的情况下,模型无法学习到数据集中的“一般规律”,因而导致泛化能力弱。此时,算法在训练集上表现一般,但在测试集上表现较差,泛化性能不佳。 过拟合: 是指模型在训练数据上表现很好,但在测

    2024年02月10日
    浏览(44)
  • 网络技术领域专业术语解释大全-170个术语

    1. 自主访问控制(DAC:Discretionary Access Control) 自主访问控制(DAC)是一个访问控制服务,其执行一个基于系统实体身份的安全政策和它们的授权来访问系统资源。 2. 双附接集线器(DAC: Dual-attached Concentrator) 双附接集线器(DAC)是FDDI或CDDI集线器有能力接入到一个FDDI或CDDI网络的两个环。

    2023年04月15日
    浏览(54)
  • 深度学习概念(术语):Fine-tuning、Knowledge Distillation, etc

    这里的相关概念都是基于已有预训练模型,就是模型本身已经训练好,有一定泛化能力。需要“再加工”满足别的任务需求。 进入后GPT时代,对模型的Fine-tuning也将成为趋势,借此机会,我来科普下相关概念。 有些人认为微调和训练没有区别,都是训练模型,但是微调是在原

    2024年02月09日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包