深度学习:Pytorch最全面学习率调整策略lr_scheduler

这篇具有很好参考价值的文章主要介绍了深度学习:Pytorch最全面学习率调整策略lr_scheduler。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

此篇博客最全面地展现了pytorch各种学习率调整策略的参数、用法以及对应的示例曲线,学习率调整的策略主要分为四大类:指定方法调整(MultiStepLR、LinearLR、CosineAnnealingLR、OneCycleLR等)、组合调整(SequentialLR和ChainedScheduler)、自定义调整(LambdaLR和MultiplicativeLR)、自适应调整(ReduceLROnPlateau)。

所有示例的参数配置:初始的学习率均为1,epoch从0开始,直到第200次结束。

lr_scheduler.LambdaLR

LambdaLR 提供了更加灵活的方式让使用者自定义衰减函数,完成特定的学习率曲线。LambdaLR通过将lambda函数的乘法因子应用到初始LR来调整学习速率。

torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • lr_lambda ( function or list ) – 一个计算乘法因子的函数,或此类函数的列表
  • last_epoch (int) – 最后一个epoch的索引,默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:
lambda1 = lambda epoch: np.cos(epoch/max_epoch*np.pi/2)
scheduler = LambdaLR(optimizer, lr_lambda=[lambda1])
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.MultiplicativeLR

MultiplicativeLR同样可以自定义学习率的变化,与LambdaLR不同的是MultiplicativeLR通过将lambda函数的乘法因子应用到前一个epoch的LR来调整学习速率。

torch.optim.lr_scheduler.MultiplicativeLR(optimizer, lr_lambda, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
    lr_lambda (function or list) – A function which computes a multiplicative factor given an integer parameter epoch, or a list of such functions, one for each group in optimizer.param_groups.
  • last_epoch (int) – 最后一个epoch的索引,默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:
lmbda = lambda epoch: 0.95
scheduler = MultiplicativeLR(optimizer, lr_lambda=lmbda)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.StepLR

每到达一定周期(step_size),学习率乘以一个系数 gamma。

torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • step_size (int) – 学习率衰减的周期
  • gamma (float) – 学习率衰减的乘法因子,默认值:0.1
  • last_epoch (int) – 最后一个epoch的索引,默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:scheduler = StepLR(optimizer, step_size=30, gamma=0.5)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.MultiStepLR

StepLR 的 Step 是固定的,MultiStepLR 则可以设置每一个 step 的大小。

torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=- 1, verbose=False)

参数:
optimizer (Optimizer) – 优化器
milestones (list) – epoch索引列表,必须增加
gamma (float) – 学习率衰减的乘法因子,默认值:0.1
last_epoch (int) – 最后一个epoch的索引,默认值:-1
verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:MultiStepLR(optimizer, milestones=[30,80,150], gamma=0.5)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.ConstantLR

在total_iters轮内将optimizer里面指定的学习率乘以factor,total_iters轮外恢复原学习率。

torch.optim.lr_scheduler.ConstantLR(optimizer, factor=0.3333333333333333, total_iters=5, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • factor (float) – 学习率衰减的常数因子,默认值:1./3.
  • total_iters (int) – 学习率衰减直到设定的epoch值,默认值:5.
  • last_epoch (int) – 最后一个epoch的索引,默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:scheduler = ConstantLR(optimizer, factor=0.5, total_iters=50)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.LinearLR

线性改变每个参数组的学习率,直到 epoch 达到预定义的值(total_iters)。

torch.optim.lr_scheduler.LinearLR(optimizer, start_factor=0.3333333333333333, end_factor=1.0, total_iters=5, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • start_factor (float) – 在开始时,学习率的值。默认值:1./3
  • end_factor (float) – 在结束时,学习率的值。默认值:1.0
  • total_iters (int) – 学习率衰减率变为1时的epoch值,默认值:5.
  • last_epoch (int) – 最后一个epoch的索引,默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例: scheduler = LinearLR(optimizer, start_factor=1, end_factor=1/2, total_iters=200)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.ExponentialLR

每个时期将每个参数组的学习率衰减 gamma。

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • gamma (float) – 学习率衰减的乘法因子
  • last_epoch (int) – 最后一个epoch的索引,默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:scheduler = ExponentialLR(optimizer, gamma=0.9)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.PolynomialLR

多项式函数衰减学习率。

torch.optim.lr_scheduler.PolynomialLR(optimizer, total_iters=5, power=1.0, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • total_iters (int) – 衰减学习率的步数,默认值:5
  • power (int) – The power of the polynomial. Default: 1.0.
  • last_epoch (int) – 多项式的幂,默认值:1.0
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:
scheduler = PolynomialLR(optimizer, total_iters=100, power=2)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.CosineAnnealingLR

余弦学习率衰减方法相对于线性学习率衰减方法来说,可以更快地达到最佳效果,更好地保持模型的稳定性,同时也可以改善模型的泛化性能。余弦学习率衰减前期衰减慢,中期衰减快,后期衰减慢,和模型的学习有相似之处。

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • T_max (int) – 最大迭代次数
  • eta_min (float) – 最小的学习率值. Default: 0.
  • last_epoch (int) – 最后一个epoch的索引,默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:scheduler = CosineAnnealingLR(optimizer, T_max=200, eta_min=0.5)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.SequentialLR

可以将多种衰减方式以串联的方式进行组合。

torch.optim.lr_scheduler.SequentialLR(optimizer, schedulers, milestones, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • schedulers (list) – 学习率调整策略(scheduler)的列表
  • milestones (list) – 策略变化的epoch转折点,整数列表
  • last_epoch (int) – 最后一个epoch的索引,默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:
scheduler1 = LinearLR(optimizer, start_factor=1, end_factor=1/2, total_iters=100)
scheduler2 = CosineAnnealingLR(optimizer, T_max=100, eta_min=0.5)
schedulers = [scheduler1, scheduler2]
milestones = [100]
scheduler = SequentialLR(optimizer, schedulers, milestones)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.ChainedScheduler

ChainedScheduler和SequentialLR类似,也是按照顺序调用多个串联起来的学习率调整策略,不同的是ChainedScheduler里面的学习率变化是连续的。

torch.optim.lr_scheduler.ChainedScheduler(schedulers)

参数:
schedulers (list) – 学习率调整策略(scheduler)的列表

示例:
scheduler1 = ConstantLR(optimizer, factor=0.1, total_iters=10)
scheduler2 = ExponentialLR(optimizer, gamma=0.9)
scheduler = ChainedScheduler([scheduler1,scheduler2])
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.CyclicLR

CyclicLR循环地调整学习率。

torch.optim.lr_scheduler.CyclicLR(optimizer, base_lr, max_lr, step_size_up=2000, step_size_down=None, mode='triangular', gamma=1.0, scale_fn=None, scale_mode='cycle', cycle_momentum=True, base_momentum=0.8, max_momentum=0.9, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • base_lr (float or list) – 初始学习率,它是每个循环中学习率的下限值
  • max_lr (float or list) – 每个循环中学习率的上限
  • step_size_up (int) – 递增周期中的训练迭代次数,默认值:2000
  • step_size_down (int) – 递减少周期中的训练迭代次数,如果step_size_down为None,则设置为step_size_up。默认值:无
  • mode (str) – {triangular, triangular2, exp_range}其中之一,学习率递增递减变化策略,如果scale_fn不是None,则忽略此参数。默认值:“triangular”
  • gamma (float) – ‘exp_range’ 缩放函数中的常量,默认值:1.0
  • scale_fn (function) – 由 lambda 函数定义的自定义衰减策略,其中 0 <= scale_fn(x) <= 1 对于所有 x >= 0。如果指定,则忽略 ‘mode’。默认值:无
  • scale_mode (str) – {‘cycle’, ‘iterations’}. 定义是否根据cycle或iterations(自循环开始以来的训练迭代)评估scale_fn。默认值:‘cycle’
  • cycle_momentum (bool) – 如果True,动量在 ‘base_momentum’ 和 ‘max_momentum’ 之间以与学习率相反的方向循环。默认值:True
  • base_momentum (float or list) – 每次循环中的动量下限,请注意,动量的循环与学习率成反比;在一个周期的峰值,动量为“base_momentum”,学习率为“max_lr”。默认值:0.8
  • max_momentum (float or list) – 每次循环中的动量上限,请注意,动量的循环与学习率成反比;在一个周期开始时,动量为“max_momentum”,学习率为“base_lr”,默认值:0.9
  • last_epoch (int) – 最后一个epoch的索引,该参数在恢复训练时使用,由于应在每个batch之后而不是每个epoch之后调用step() ,因此该数字表示计算的batch总数,而不是计算的epoch总数。当last_epoch=-1时,调度从头开始。默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例
scheduler = CyclicLR(optimizer, base_lr=0.1, max_lr=1, step_size_up=50)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.OneCycleLR

OneCycleLR是CyclicLR的一周期版本。

torch.optim.lr_scheduler.OneCycleLR(optimizer, max_lr, total_steps=None, epochs=None, steps_per_epoch=None, pct_start=0.3, anneal_strategy='cos', cycle_momentum=True, base_momentum=0.85, max_momentum=0.95, div_factor=25.0, final_div_factor=10000.0, three_phase=False, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • max_lr (float or list) – 最大学习率
  • total_steps (int) – 总的迭代次数,请注意,如果此处未提供值,则必须通过提供 epochs 和 steps_per_epoch 的值来推断,所以必须为total_steps 提供一个值,或者为epochs 和steps_per_epoch 提供一个值。,默认值:无
  • epochs (int) – 训练的 epoch 数,默认值:无
  • steps_per_epoch (int) – 每个epoch训练的步数,默认值:无
  • pct_start (float) – 学习率上升部分所占比例,默认值:0.3
  • anneal_strategy (str) – {‘cos’, ‘linear’} 指定退火策略:“cos”表示余弦退火,“linear”表示线性退火。默认值:‘cos’
  • cycle_momentum (bool) – 如果True,动量在 ‘base_momentum’ 和 ‘max_momentum’ 之间以与学习率相反的方向循环。默认值:True
  • base_momentum (float or list) – 每次循环中的动量下限,请注意,动量的循环与学习率成反比;在一个周期的峰值,动量为“base_momentum”,学习率为“max_lr”。默认值:0.85
  • max_momentum (float or list) – 每次循环中的动量上限,请注意,动量的循环与学习率成反比;在一个周期开始时,动量为“max_momentum”,学习率为“base_lr”,默认值:0.95
  • div_factor (float) – 通过initial_lr = max_lr/div_factor 确定初始学习率,默认值:25
  • final_div_factor (float) – 通过 min_lr = initial_lr/final_div_factor 确定最小学习率 默认值:1e4
  • three_phase (bool) – 如果True,则使用计划的第三阶段根据 ‘final_div_factor’ 消除学习率,而不是修改第二阶段(前两个阶段将关于 ‘pct_start’ 指示的步骤对称)。默认值:False
  • last_epoch (int) – 最后一个epoch的索引,该参数在恢复训练时使用,由于应在每个batch之后而不是每个epoch之后调用step() ,因此该数字表示计算的batch总数,而不是计算的epoch总数。当last_epoch=-1时,调度从头开始。默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:
scheduler = OneCycleLR(optimizer, max_lr=1, steps_per_epoch=10, epochs=20)

深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.CosineAnnealingWarmRestarts

CosineAnnealingWarmRestartsLR类似于CosineAnnealingLR,但它可以循环从初始LR重新开始LR的衰减。

torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(optimizer, T_0, T_mult=1, eta_min=0, last_epoch=- 1, verbose=False)

参数:

  • optimizer (Optimizer) – 优化器
  • T_0 (int) – 重新开始衰减的epoch次数
  • T_mult (int, optional) – T_0的递增变化值,默认值:1
  • eta_min (float, optional) – 学习率下限,默认值:0
  • last_epoch (int) – 最后一个epoch的索引,默认值:-1
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

示例:
scheduler = CosineAnnealingWarmRestarts(optimizer, T_0=30, T_mult=2)
深度学习:Pytorch最全面学习率调整策略lr_scheduler,深度学习,深度学习,人工智能,学习率

lr_scheduler.ReduceLROnPlateau

当指度量指标(例如:loss、precision等)停止改进时,ReduceLROnPlateau会降低学习率。其功能是自适应调节学习率,它在step的时候会观察验证集上的loss或者准确率情况,loss当然是越低越好,准确率则是越高越好,所以使用loss作为step的参数时,mode为min,使用准确率作为参数时,mode为max。

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08, verbose=False)

参数:文章来源地址https://www.toymoban.com/news/detail-604151.html

  • optimizer (Optimizer) – 优化器
  • mode (str) – min、max之一。在min模式下,当监测的数量停止减少时,lr将减少;在max模式下,当监控的数量停止增加时,lr将减少。默认值:“min”
  • factor (float) – 每次学习率下降的比例, new_lr = lr * factor. 默认值:0.1
  • patience (int) – patience是能够容忍的次数,当patience次后,网络性能仍未提升,则会降低学习率,默认值:10
  • threshold (float) – 测量最佳值的阈值,一般只关注相对大的性能提升,默认值:1e-4
  • threshold_mode (str) – 选择判断指标是否达最优的模式,有两种模式, rel 和 abs。
    当 threshold_mode == rel,并且 mode == max 时, dynamic_threshold = best * ( 1 +threshold );
    当 threshold_mode == rel,并且 mode == min 时, dynamic_threshold = best * ( 1 -threshold );
    当 threshold_mode == abs,并且 mode== max 时, dynamic_threshold = best + threshold ;
    当 threshold_mode == rel,并且 mode == max 时, dynamic_threshold = best - threshold;
  • cooldown (int) – 冷却时间,当调整学习率之后,让学习率调整策略保持不变,让模型再训练一定epoch后再重启监测模式。默认值:0
  • min_lr (float or list) – 最小学习率,默认值:0
  • eps (float) – lr 的最小衰减。如果新旧lr之差小于eps,则忽略更新,默认值:1e-8
  • verbose (bool) – 如果是True,则每次更新学习率会将消息打印到 stdout,默认值:False

到了这里,关于深度学习:Pytorch最全面学习率调整策略lr_scheduler的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 网络安全面试题大全(整理版)300+面试题附答案详解,最全面详细

    随着国家政策的扶持,网络安全行业也越来越为大众所熟知,想要进入到网络安全行业的人也越来越多。 为了拿到心仪的Offer之外,除了学好网络安全知识以外,还要应对好企业的面试。 作为一个安全老鸟,工作这么多年,面试过很多人也出过很多面试题目,也在网上收集了

    2024年02月08日
    浏览(43)
  • JMeter安装配置及使用说明【最全面】

    Apache JMeter是Apache组织开发的基于Java的压力测试工具,它可以用于对服务器、网络或对象模拟繁重的负载来测试它们的强度或分析不同压力类型下的整体性能。 目录 JMeter安装配置 下载安装 JMeter参数配置 默认配置 ​内存配置 JMeter运行 常用组件介绍 全局设置 HTTP Cookie管理器

    2024年02月15日
    浏览(26)
  • 史上最全网络安全面试题+答案

    1、什么是SQL注入攻击 前端代码未被解析被代入到数据库导致数据库报错 2、什么是XSS攻击 跨站脚本攻击 在网页中嵌入客户端恶意脚本,常用s语言,也会用其他脚本语言 属于客户端攻击,受害者是用户,网站管理员也属于用户,攻击者一般也是靠管理员身份作为跳板 3、什么

    2024年02月13日
    浏览(34)
  • 史上最全网络安全面试题汇总

    最近有不少小伙伴跑来咨询: 想找网络安全工作,应该要怎么进行技术面试准备? 工作不到 2 年,想跳槽看下机会,有没有相关的面试题呢? 为了更好地帮助大家高薪就业,今天就给大家分享一份网络安全工程师面试题,希望它们能够帮助大家在面试中,少走一些弯路、更

    2024年02月07日
    浏览(40)
  • 网络安全面试题大全(整理版)500+面试题附答案详解,最全面详细,看完稳了

    随着国家政策的扶持,网络安全行业也越来越为大众所熟知,想要进入到网络安全行业的人也越来越多。 为了拿到心仪的Offer之外,除了学好网络安全知识以外,还要应对好企业的面试。 作为一个安全老鸟,工作这么多年,面试过很多人也出过很多面试题目,也在网上收集了

    2024年02月09日
    浏览(38)
  • HDFS 短路读的实现(全网最全面深入讲解)

    HDFS短路读是性能优化的一个重要特性,它利用操作系统的内存映射 mmap 、 Domain Socket 和共享内存,避开传统的基于TCP的数据通信,极大提升了数据读取效率。 整个短路读的过程完全放弃传统的基于 TCP/IP 的通信方式,基于 Domain Socket 进行通信,基于 mmap 和内存共享进行数据同

    2024年02月08日
    浏览(46)
  • 【史上最全面esp32教程】oled显示篇

    本节课主要讲的是OLED的基础使用。使用的oled为0.96寸,128*64。 大家的其他型号也是可以用的。 提示:以下是本篇文章正文内容,下面案例可供参考 oled的简介: OLED英文全名Organic Light-Emitting Diode,又可称为「有机发光二极体」或是「有机电雷射显示」。 OLED有着色彩鲜艳、功

    2023年04月19日
    浏览(28)
  • 二:nextcloud27最全面优化与解决各种安全警告

    找到www.conf文件,ubuntu位于 /etc/php/8.2/fpm/pool.d 如果使用 env | grep $PATH 能打印出环境变量只需要 **取消注释 clear_env = no **即可 否则自己手动先配置环境变量吧(略) 重启PHP 任何对php做出的修改都使用以下命令重启 首先 使用kill命令 PHP-FPM 如果您想增加最大上传大小,您还必须修

    2024年01月20日
    浏览(36)
  • 最全QQ盗号手法分析,全面防御QQ盗号

    你的QQ是否被盗过号,或者你身边的朋友、同学是否有过被盗号的经历。如今的安全机制真的没有效吗?盗号真的这么简单吗?本期将彻底解决这一问题。 本期是上一期的姊妹篇,建议先看上一期,这样对于攻击者的手法才有更好的理解:传送门 1、诱导链接以及二维码   

    2024年02月05日
    浏览(33)
  • 软件测试最全面试题及答案整理(2023最新版)

    目录 1、你的测试职业发展是什么? 2、你认为测试人员需要具备哪些素质 3、你为什么能够做测试这一行 4、测试的目的是什么? 5、测试分为哪几个阶段? 6、单元测试的测试对象、目的、测试依据、测试方法? 7、怎样看待加班问题 8、结合你以前的学习和工作经验,你认为如何

    2024年02月05日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包