【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇

这篇具有很好参考价值的文章主要介绍了【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【学而不思则罔,思而不学则殆】
9.30

首先给出一个理想的训练loss收敛图片:loss平滑的下降,并逐渐收敛到0.
平滑说明学习率设置较合适,收敛到0说明模型在参数空间中收敛到一个很理想的区域。
【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇,算法篇,笔记,算法,机器学习,深度学习

1.训练集的loss已经开始收敛了,但其值还是比较大

训练现象:

本质原因:
算法收敛到参数空间中某个较高的“平坦区域”,而无法逃离。
【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇,算法篇,笔记,算法,机器学习,深度学习

可能的参数原因及解决办法:

  • batch_size设置大了,太大的batch_size会导致更少的batch数量,当算法训练陷入鞍点或平原时,很难逃离;此时可以调小batch_size,观察loss是否会比刚才减少得更多。

2.loss在收敛到很接近0后,又突然增大。

训练现象
【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇,算法篇,笔记,算法,机器学习,深度学习

本质原因
算法在梯度下降时跳过了最佳的收敛点,导致loss增大

可能的参数原因及解决办法文章来源地址https://www.toymoban.com/news/detail-730099.html

  • 学习率设置过大了,较大的学习率会加速loss下降,但是可能会导致跳过最佳收敛点,而引起震荡现象。此时可以考虑减少学习率,或者采用动态学习率,刚开始使用一个较大的学习率以加快收敛,在较平稳的地方采用较小的学习率。

到了这里,关于【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数组越界在算法竞赛中可能产生的问题

    数组越界之后,什么错误都有可能发生,不一定只发生段错误或者运行错误。 所以,一定注意题目中需求的数组大小,并且多开5~10个。 在ACM竞赛中,数组越界可能会产生以下错误: Wrong Answer: 数组越界可能导致程序输出错误的结果,因为程序访问了不属于数组范围内的内存

    2024年02月02日
    浏览(65)
  • Go坑:time.After可能导致的内存泄露问题分析

    Go 中 time.After 可能导致的内存泄露 go v1.20.4 time 包中有 3 个比较常用的定时函数:NewTicker,NewTimer 和 time.After: NewTimer : 表示在一段时间后才执行,默认情况下执行一次。如果想再次执行,需要调用 time.Reset() 方法,这时类似于 NewTicker 定时器了。可以调用 stop 方法停止执行。

    2024年02月02日
    浏览(43)
  • 探索人工智能 | 模型训练 使用算法和数据对机器学习模型进行参数调整和优化

    模型训练是指 使用算法和数据对机器学习模型进行参数调整和优化 的过程。模型训练一般包含以下步骤:数据收集、数据预处理、模型选择、模型训练、模型评估、超参数调优、模型部署、持续优化。 数据收集是指为机器学习或数据分析任务收集和获取用于训练或分析的数

    2024年02月12日
    浏览(45)
  • CVPR 2023 | Point-NN:​首次实现0参数量、0训练的3D点云分析

    点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入— 【3D点云】微信技术交流群 不引入任何可学习参数或训练,我们是否可以直接实现3D点云的分类、分割和检测? 为此,本文提出了一个用于3D点云分析的非参数网络,Point-NN,它仅由纯不可学习的

    2024年02月10日
    浏览(31)
  • Ceph入门到精通-Nginx超时参数分析设置

    nginx中有些超时设置,本文汇总了nginx中几个超时设置 Nginx 中的超时设置包括: “client_body_timeout”:设置客户端向服务器发送请求体的超时时间,单位为秒。 “client_header_timeout”:设置客户端向服务器发送请求头的超时时间,单位为秒。 “send_timeout”:设置服务器向客户端

    2024年02月07日
    浏览(32)
  • 【算法训练笔记】栈的OJ题

           🔥🔥 欢迎来到小林的博客!!       🛰️博客主页:✈️林 子       🛰️博客专栏:✈️ 小林的算法训练笔记       🛰️社区 :✈️ 进步学堂       🛰️欢迎关注:👍点赞🙌收藏✍️留言 题目链接: 1047. 删除字符串中的所

    2024年02月09日
    浏览(33)
  • 本地构建自己的chatgpt已成为可能,国外团队从GPT3.5提取大规模数据完成本地机器人训练,并开源项目源码和模型支持普通在笔记上运行chatgpt

    国外团队从GPT3.5提取大规模数据完成本地机器人训练,并开源项目源码和模型支持,普通在笔记上运行chatgpt。下面是他们分享的:收集到的数据、数据管理程序、训练代码和最终模型,以促进开放研究和可重复性。 在 2023 年 3 月 20 日至 2023 年 3 月 26 日期间,该团队使用 GPT

    2023年04月21日
    浏览(43)
  • LLM-分布式训练工具(一):DeepSpeed【微软】【大模型分布式训练工具,实现ZeRO并行训练算法】【zero3配置将模型参数切分后分配到不同的显卡中,突破单张显卡容量不足以加载模型参数的限制】

    DeepSpeed是微软推出的大规模模型分布式训练的工具,主要实现了ZeRO并行训练算法。 原始文档链接: DeepSpeed Optimizer state partitioning (ZeRO stage 1) Gradient partitioning (ZeRO stage 2) Parameter partitioning (ZeRO stage 3) Custom mixed precision training handling A range of fast CUDA-extension-based optimizers ZeRO-Offlo

    2024年02月16日
    浏览(36)
  • simplify3d 打印参数设置笔记

    专业实用且详细的打印教程 3D打印故障排除:所有问题和解决方案 汇总:3D打印对建模的部分设计要求 最小支撑壁厚——建议:0.4mm 最小的非支撑壁厚——建议:0.6mm 最大的非支撑外悬部分的长度——建议:1mm 最小的非支撑外悬角度——建议:水平19度。(35mm长 10mm宽 3mm厚

    2024年02月11日
    浏览(25)
  • 学习笔记-LoadRunner参数化设置及迭代配置说明

    以下内容对loadrunner进行一个初识,让之后运用更加熟练,咱们这里用的是loadrunner自带的WebTours平台,他是不含数据库的。 loadrunner的录制方式有两种,如下图所示,1:基于HTML方式(只针对鼠标和键盘事件,录制的文本比较纯净,不需要做过多筛选。)2:基于URL方式(会录制

    2023年04月15日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包