【机器学习300问】10、学习率设置过大或过小对训练有何影响?

这篇具有很好参考价值的文章主要介绍了【机器学习300问】10、学习率设置过大或过小对训练有何影响?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        在上一篇文章中,首次出现了学习率这个词,在这篇文章中我会详细介绍一下它是什么,到底对机器学习的训练有着怎样的影响。

一、学习率是什么?

        先来复习一下梯度下降算法,在每次迭代过程中,算法计算目标函数关于当前参数值的梯度(即函数在该点的斜率或方向导数向量),然后沿着梯度的反方向移动一定的步长。更新规则可以表示为:

        

其中:

  • θ 表示模型参数。
  • η是学习率,决定了每一步沿梯度方向调整参数的幅度。
  • ∇f(θ) 是目标函数 f 关于参数 θ 的梯度。

        学习率就是这里所说的步长,它是一个超参数,用于控制我们在梯度下降过程中每步的跳跃大小。也就是在每次梯度下降更新参数(如线性回归的权重和偏置)的时候,学习率决定了我们沿着负梯度方向走的步长。直观理解,就像你在山上往下走,而你的目标是走到山谷(函数最小值),每一步你到底能走多远,就是由学习率决定的。

学习率调小收敛后突降,【机器学习】,学习,机器学习

        超参数是指区别于机器学习最终要学到的模型参数而言的另一种参数。学习率这样的种超参数是由人工来设定的,那么就存在到底要设置多少合适的问题。

二、学习率设置过大或过小会对训练产生怎样的影响

(1)学习率设置过小

        如果学习率太低,那么可能它需要非常多的迭代才能找到最低点。而且如果在遇到了下面这种情况,他还会陷入局部最小值而无法找到全局的最低点。

学习率调小收敛后突降,【机器学习】,学习,机器学习
要很久才能找到最小值
学习率调小收敛后突降,【机器学习】,学习,机器学习
陷入了局部最小值

 

(2)学习率设置过大

        如果学习率设置得过大,那么在更新权重和偏置时,每一步可能会“跳过”最优解,也就是说,每一步修改的幅度过大,可能会错过最小的损失值。在图像中,表现为来回震荡并且可能导致发散,模型无法收敛,即使能收敛也需要非常多的时间。文章来源地址https://www.toymoban.com/news/detail-807722.html

学习率调小收敛后突降,【机器学习】,学习,机器学习
左图会花很多时间                                                       右图无法收敛

到了这里,关于【机器学习300问】10、学习率设置过大或过小对训练有何影响?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习300问】13、学习率曲线有什么作用?

            在之前的文章中我为大家详细介绍了学习率的概念以及学习率设置过大或者过小分别有什么坏处。如果您还未看相关内容,下面是跳转链接哦:         【机器学习300问】10、学习率设置过大或过小对训练有何影响?         本篇文章中,为大家介绍一个工具—

    2024年01月21日
    浏览(31)
  • 【机器学习300问】14、什么是特征工程?

            当我学习到这个知识点的时候十分困惑,因为从名字中我完全无法理解这个什么东西。于是呢我就去问了一下维基百科,下面是他的回答:         特征工程 (英语:feature engineering)又称 特征提取 (英语:feature extraction)或 特征发现 (英语:feature discovery)是

    2024年01月22日
    浏览(33)
  • 【机器学习300问】15、什么是逻辑回归模型?

            逻辑回归(Logistic Regression)是一种广义线性回归分析模型,尤其适用于解决 二分类问题 (输出为两个类别)。 邮件过滤 :判断一封电子邮件是否为垃圾邮件。结果为垃圾邮件(1)或非垃圾邮件(0); 医疗诊断 :判断病人是否患有某种疾病,如癌症。结果为患

    2024年01月22日
    浏览(34)
  • 【机器学习300问】3、机器学习中有哪些数据集都有什么用?

    在机器学习中,通常将数据集按照不同的功能分成三种: 训练集 、 验证集 和 测试集 。         作用: 用来训练模型算法 ,模型算法根据这个集合中的样本和对应的标签来学习模型参数或权重。         作用: 用来调整模型参数、选择模型结构和超参数优化 。帮

    2024年02月02日
    浏览(33)
  • 【机器学习300问】16、逻辑回归模型实现分类的原理?

            在上一篇文章中,我初步介绍了什么是逻辑回归模型,从它能解决什么问题开始介绍,并讲到了它长什么样子的。如果有需要的小伙伴可以回顾一下,链接我放在下面啦:                              【机器学习300问】15、什么是逻辑回归模型?     

    2024年01月25日
    浏览(46)
  • 【机器学习300问】61、逻辑回归与线性回归的异同?

            本文讲述两个经典机器学习逻辑回归(Logistic Regression)和线性回归(Linear Regression)算法的异同,有助于我们在面对实际问题时更好的进行模型选择。也能帮助我们加深对两者的理解,掌握这两类基础模型有助于进一步理解更复杂的模型结构,例如逻辑回归是许多复

    2024年04月12日
    浏览(23)
  • 【机器学习300问】9、梯度下降是用来干嘛的?

            当你和我一样对自己问出这个问题后,分析一下!其实我首先得知道梯度下降是什么,也就它的定义。其次我得了解它具体用在什么地方,也就是使用场景。最后才是这个问题,梯度下降有什么用?怎么用?         所以我按照这个思路给大家讲讲我自己是怎么理解

    2024年01月21日
    浏览(31)
  • Batchsize的大小怎样设置?Batchsize过大和过小有什么影响

    batch_size:表示单次传递给程序用以训练的数据(样本)个数。如果我们的数据集钟含有的样本总数为12800个样本,batch_size=128,那么就需要10个batch才能够训练完一个epoch。 batch_size一般取值为2的N次幂的形式,这是因为CPU或者GPU的内存架构是2的N次幂。CPU在读取内存时是一块一

    2024年02月01日
    浏览(27)
  • 【机器学习300问】12、为什么要进行特征归一化?

            当线性回归模型的特征量变多之后,会出现不同的特征量,然而对于那些同是数值型的特征量为什么要做归一化处理呢?         使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果使用米(m)和于克(kg)作为单位,那么身高特征会在

    2024年01月22日
    浏览(33)
  • 【机器学习300问】11、多元线性回归模型和一元线性回归有什么不同?

            在之前的文章中,我们已经学习了一元线性回归模型,其中最关键的参数是w和b。机器学习的目的就是去得到合适w和b后能准确预测未知数据。但现实世界是复杂的,一个事情的发生绝大多数时候不会是一个原因导致。         因此多元线性回归模型区别与一元线

    2024年01月22日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包