机器学习李宏毅学习笔记33

这篇具有很好参考价值的文章主要介绍了机器学习李宏毅学习笔记33。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

神经网络压缩(一)
类神经网络剪枝(pruning)


一、神经网络压缩

简化模型,用比较少的参数,但让效能差不多,这就是network compression这件事。有些情况下需要把模型用在resource constrain(资源有限)的情况下,比如说跑在智能手表上、小型无人机上等等。只有比较少的内存和计算能力,这时就需要比较小的模型,这种情况多用于需要及时响应并且保障隐私的情况下,不然就可以传到云端在把结果传回来。

二、Network pruning----一种network compression技术

有些参数是没有用的,network pruning就是要把这些没有用的参数找出来,并且丢掉。首先先train一个大的network,然后去评估这个network里每一个参数或者neural的重要性,看有没有那些参数是没在做事的。简单的评估方法就是看这个参数的绝对值,如果绝对值越大,表示对整个network的影响也越大。也可以用life long learning里面的思想,把参数的bi算出来,这样就知道每个参数是否重要。也可以把神经元当做单位,可以通过计算神经元输出不为0的次数。把不重要的参数(神经元)移除,这样就可以得到一个比较小的参数。移除参数后,正确率会下降一点。将没有被移除的参数做微调,可以在提高正确率。用训练资料,把修改过的network重新训练。训练后的可以再次进行评估、移除,不断重复。不能一次性移除大量参数,这样会对network产生比较大的影响,通过多次减去少量参数的方法进行减枝。
机器学习李宏毅学习笔记33,学习,笔记

1.移除不同单位的区别

以参数为单位去掉后,network的形状可能是不规则的,这就导致了不好实作也不好用gpu加速。如果把去掉的位置补0的话,就没有真的把network变小。
机器学习李宏毅学习笔记33,学习,笔记
使用network pruning可以去掉95%的参数,但是运算速度并没有加速。甚至多数情况下速度是变慢的。
机器学习李宏毅学习笔记33,学习,笔记
这样看来用神经元作为单位是一种好的方法。使用神经元为单位进行pruning,去除一些神经元之后,network的架构依然是规则的,方便使用pytorch和gpu加速。
机器学习李宏毅学习笔记33,学习,笔记

2.大乐透假说

既然小的network和大的network正确率差不多,为什么不直接train一个小的。一个大的network比较好train,直接train一个小的network没办法得到和大的network一样的正确率。
大乐透假说表示只要参数的数量越多,越容易训练。大的network可以看多是多个小的network的组合,训练一个大的network,相当于同时训练多个小的network,每一个小的network不一定能被成功的训练出来,但是只要有一个小的network成功,那么这个大的network就成功了。所以小的network越多,被成功训练起来的概率就越高。
如果用大的network随机初始化训练后,得到的进行剪枝得到小的network。这个小的network如果进行参数随机初始化就训练不起来,但是如果这个小的network用大的network的初始化参数就可以训练起来。

机器学习李宏毅学习笔记33,学习,笔记


总结

视频学习地址:https://www.bilibili.com/video/BV13Z4y1P7D7/?p=35&spm_id_from=333.880.my_history.page.click&vd_source=3a369b537e1d34ff9ba8f8ab23afedec文章来源地址https://www.toymoban.com/news/detail-516551.html

到了这里,关于机器学习李宏毅学习笔记33的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习笔记:李宏毅 stable diffusion

     ①:文字变成向量  ②:喂入噪声+文字encoder,产生中间产物  ③:decoder 还原图片  这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多  现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation 这两组表征的分布越近,效

    2024年02月13日
    浏览(42)
  • 李宏毅机器学习笔记:结构学习,HMM,CRF

    什么是Seq2Seq问题呢?简单来说,就是输入是一个序列,输出也是一个序列。输入和输出的序列可以相等,也可以不相等。在本文中,可以先假设输入输出序列相等。 这里用了一个通俗易懂的例子来解释HMM模型,POS tagging,词性标注。 PN表示专有名词Proper Noun V表示动词 D 定冠

    2024年02月11日
    浏览(30)
  • 机器学习笔记:李宏毅chatgpt 大模型 & 大资料

    Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022 模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了 这边举的一个例子是,比如让模型回答鸡兔同笼问题  一开始小模型什么都学不到,故而效果不好  随着模型参数量增

    2024年02月13日
    浏览(42)
  • 李宏毅机器学习笔记:RNN循环神经网络

    例如情景补充的情况,根据词汇预测该词汇所属的类别。这个时候的 Taipi 则属于目的地。但是,在订票系统中, Taipi 也可能会属于出发地。到底属于目的地,还是出发地,如果不结合上下文,则很难做出判断。因此,使用传统的深度神经网络解决不了问题,必须引入RNN。 如

    2024年02月10日
    浏览(39)
  • 机器学习和深度学习-- 李宏毅(笔记与个人理解)Day10

    这节课主要介绍机器学习和深度学习任务中常见的问题分类以及相应的解决之道 这张图总体的概述了一个任务中的大小坎坷,不认得英文? 去Google吧~ training Loss 不够的case Loss on Testing data over fitting 为什么over fitting 留到下下周哦~~ 期待 solve CNN卷积神经网络 Bias-Conplexiy Trade

    2024年04月17日
    浏览(29)
  • 机器学习和深度学习--李宏毅(笔记与个人理解)Day9

    中间打了一天的gta5,图书馆闭馆正好+npy 不舒服那天+天气不好,哈哈哈哈哈总之各种理由吧,导致昨天没弄起来,今天补更! 这里重点注意一下, 这个 output值是概率哈,也就是说式子整体表示的含义是 x 属于c1的概率是多大 这个老师真的是讲到我的心坎子里区了,这个lo

    2024年04月17日
    浏览(33)
  • 机器学习笔记:李宏毅ChatGPT:生成式学习的两种策略

    “各个击破”——一个一个生成出来 一步到位,全部生成出来  两种策略 策略1:始终生成固定长度(比如100),如果出现end,那么end后面的部分直接扔掉 策略2:首先输出一个数字n,表示之后我们要输出多长,然后输出n长度的句子    一般文字相关的任务考虑“各个击破”

    2024年02月13日
    浏览(30)
  • 机器学习笔记:李宏毅ChatGPT Finetune VS Prompt

    2.1.1 成为专才的好处  Is ChatGPT A Good Translator? A Preliminary Study 2023 Arxiv 箭头方向指的是从哪个方向往哪个方向翻译 表格里面的数值越大表示翻译的越好 可以发现专门做翻译的工作会比ChatGPT好一些 How Good Are GPT Models at  Machine Translation? A  Comprehensive Evaluation 同样地,专项翻译任

    2024年02月14日
    浏览(30)
  • 李宏毅2023春季机器学习笔记 - 01生成AI(ChatGPT)

    预设的知识储备要求:数学(微积分、线性代数、机率);编程能力(读写python) 这门课专注在 深度学习领域deep learning, 事实上深度学习在今天的整个机器学习(ML)的领域使用非常广泛,可以说是最受重视的一项ML技术。 这门课可以作为你的机器学习的第一堂课,修完后

    2023年04月19日
    浏览(43)
  • 【李宏毅机器学习·学习笔记】Tips for Training: Adaptive Learning Rate

    本节课主要介绍了Adaptive Learning Rate的基本思想和方法。通过使用Adaptive Learning Rate的策略,在训练深度神经网络时程序能实现在不同参数、不同iteration中,学习率不同。 本节课涉及到的 算法或策略 有:Adgrad、RMSProp、Adam、Learning Rate Decay、Warm Up。 本节课 参考的资料 有: MI

    2024年02月14日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包