L1、L2正则化的原理及适用场景

这篇具有很好参考价值的文章主要介绍了L1、L2正则化的原理及适用场景。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. L1正则化,也称Lasso回归

1.1 含义

权值向量  中各元素的绝对值之和,一般记作   。

1.2  公式表示

添加了L1正则化的损失函数一般可表示为:

l正则化,机器学习细节研讨,算法,人工智能

1.3 作用

L1正则常被用来解决过拟合问题;

L1正则化容易产生稀疏权值矩阵(更容易得到稀疏解),即产生一个稀疏模型(较多参数为0),因此也可用于特征选择。 

1.4 为什么L1(相对L2)更容易获得稀疏解 或者 0解

L1是舍弃掉一些不重要的特征,L2是控制所有特征的权重。

a. 从公式角度解释

假设只有一个参数 w,损失函数 L(w)  , 分别加上L1和L2损失函数可得:

l正则化,机器学习细节研讨,算法,人工智能

l正则化,机器学习细节研讨,算法,人工智能

假设 L(w) 在 某一个样本  0 处 的导数是 d0

当结合L2正则时候的导数是:

l正则化,机器学习细节研讨,算法,人工智能

当结合L1正则时候的导数是(L1损失在 w = 0处不可导,分 0 - 和 0 +):

l正则化,机器学习细节研讨,算法,人工智能

结论:当结合L2正则的损失函数,导数结果仍然是 d0;结合L1正则的损失函数会有一个突变,从

 到 l正则化,机器学习细节研讨,算法,人工智能,只要满足  或  和 l正则化,机器学习细节研讨,算法,人工智能 异号,则在w = 0处,损失函数有极值(极小值),在优化器优化过程中,很容易将结果收敛到该极小值点上,也就是 w = 0。相比L1正则,需要 d0 = 0,这样的条件明显更为严苛。

b. 从优化问题视角 + 二维图示例 + 多维扩展,方向解释

l正则化,机器学习细节研讨,算法,人工智能

 c. 从梯度角度来看

l正则化,机器学习细节研讨,算法,人工智能

结论:加入L1正则的导数形式,无论 wi 大小如何,sgn(wi) 的结果是一个常数,因此惩罚力度不变或者说仍然很大,使得L1将参数惩罚到0的概率增加;反观L2正则的导数形式,在 wi < 1 时候,尾项惩罚作用小,很难将参数惩罚到0,实际上就是使每个特征都得到尽量均衡的权重,因此适用于解决普通的过拟合问题,即从参数分布(让分布尽可能的均匀)的角度解决过拟合的问题

d. 从概率学角度

加入正则项,相当于对参数 w 增加先验假设,要求 w 满足某一种分布。

L1正则化相当于为 w 加入 “拉普拉斯分布” 的先验;L2正则化相当于为 w 加入 “高斯分布” 的先验。

l正则化,机器学习细节研讨,算法,人工智能

结论:拉普拉斯先验在0点附近分布密度大于高斯分布,最终解将更稀疏。

2. L2正则化

2.1 含义

权值向量/矩阵  中各元素的平方和,然后对“和”求平方根,记作  。

2.2 公式表示

l正则化,机器学习细节研讨,算法,人工智能

2.3 作用

L2正则化 可防止模型过拟合;至于为什么见下一篇文章,不定期更新

能够得到较为平滑(smooth)的解。

3. L1和L2正则化的适用场景

结论1 :从理论上来看,参数如果服从高斯分布就用L2正则化;服从拉普拉斯分布就用L1。

结论2 :添加正则化相当于参数的解空间添加了约束,限制了模型的复杂度,缓解过拟合。不过L1和L2正则化项是从不同的角度解决过拟合的。

结论3L1正则项是从改变模型结构的角度(减少模型参数的数量 或者 筛除无效特征,使无效特征对应的参数为0)解决过拟合,使的模型更加简单。

结论4 L2正则项使模型尽量不依赖于某小部分特征,使模型更倾向于使用所有输入特征,不恰当的讲就是使每个特征都得到尽量均衡的权重(对于重要、非重要的特征也会有比较明显的区分);它是从参数分布(让分布尽可能的均匀)的角度解决过拟合。

结论5L1正则化可以获得稀疏解,因此适用于:模型剪枝、模型压缩、特征选择

结论6 :L2正则化可以获得平滑(smooth)解。文章来源地址https://www.toymoban.com/news/detail-706318.html

到了这里,关于L1、L2正则化的原理及适用场景的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • L1范数,L2范数,L2,1范数(向量范数、矩阵范数、正则化)

    参考文章如下:https://blog.csdn.net/lqzdreamer/article/details/79676305                          https://blog.csdn.net/lqzdreamer/article/details/79676305         一般常用范数来衡量向量,向量的Lp范数定义为:          Lp范数示意图:         从图中可以看出,p的取值在 [0,1) 之间,范数

    2023年04月09日
    浏览(38)
  • 剪枝基础与实战(2): L1和L2正则化及BatchNormalization讲解

    CIFAR10 是深度学习入门最先接触到的数据集之一,主要用于图像分类任务中,该数据集总共有 10个 类别。 图片数量: 6w 张 图片宽高: 32x32 图片类别:10 Trainset: 5w 张,5 个训练块 Testset: 1w 张,1 个测试块 Pytorch 集成了很多常见数据集的API, 可以通过pytorch 来下载这些数据集,

    2024年02月11日
    浏览(39)
  • 机器学习中的数学原理——分类的正则化

    通过这篇博客,你将清晰的明白什么是 分类的正则化 。这个专栏名为白话机器学习中数学学习笔记,主要是用来分享一下我在 机器学习中的学习笔记及一些感悟,也希望对你的学习有帮助哦!感兴趣的小伙伴欢迎私信或者评论区留言!这一篇就更新一下 《 白话机器学习中

    2024年01月23日
    浏览(38)
  • 深度学习——常见损失函数Loss:L1 ,L2 ,MSE ,Binary Cross ,Categorical Cross ,Charbonnier ,Weighted TV ,PSNR

    在深度学习中,损失函数是一个核心组件,它度量模型的预测结果与真实值之间的差异。通过最小化损失函数的值,模型能够在训练过程中逐渐改善其性能。损失函数为神经网络提供了一个明确的优化目标,是连接数据和模型性能的重要桥梁。 选择合适的损失函数是非常重要

    2024年01月24日
    浏览(54)
  • 【2023团体程序设计天梯赛CCCC】GPLT2023,L1~L2部分(PTA,L1-089~L1-096,L2-045~L2-048)题解代码&复盘

    概要 L1部分:L1-089~L1-096 L2部分:L2-045~L2-048 L3部分:L3-033~L3-036 L1-089 最好的文档 5 L1-090 什么是机器学习 5 L1-091 程序员买包子 10 L1-092 进化论 10 L1-093 猜帽子游戏 15 L1-094 剪切粘贴 15 L1-095 分寝室 20 L1-096 谁管谁叫爹 20 L2-045 堆宝塔 25 L2-046 天梯赛的赛场安排 L2-047 锦标赛 25 L2-048

    2024年02月01日
    浏览(44)
  • L1&L2,范数&损失

    L2 范数 = 欧几里得范数(Euclidean norm) = 欧式长度(欧氏距离) = L2距离 ,对应 ||x|| 2 L2范数损失 = L2-norm损失 = 最小平方误差(least squares error, LSE) = 最小二乘误差 。它是把目标值y与估计值f(x)的差值的平方和最小化。一般回归问题会用此损失,离群点对次损失影响较大。 L2损失

    2024年02月06日
    浏览(44)
  • 深度学习基础5:交叉熵损失函数、MSE、CTC损失适用于字识别语音等序列问题、Balanced L1 Loss适用于目标检测

    深度学习基础5:交叉熵损失函数、MSE、CTC损失适用于字识别语音等序列问题、Balanced L1 Loss适用于目标检测 在物理学中,“熵”被用来表示热力学系统所呈现的无序程度。香农将这一概念引入信息论领域,提出了“信息熵”概念,通过对数函数来测量信息的不确定性。交叉熵(

    2023年04月18日
    浏览(48)
  • 深入区块链层:L1 和 L2

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AivxuuH0-1664858847219)(htTPS://tva1.sinaimg.cn/large/e6c9d24ely1h4r0auxvmxg20tr04ojug.gif)] L2解决方案是为了解决网络吞吐量问题而创建的。然而,关于它们的设计和未来发展的问题需要更多的关注,特别是在以太坊合并

    2024年02月02日
    浏览(44)
  • 2023 PTA天梯赛补题(L1 & L2)

    输入输出题 输入输出题 k == n 和 k == m 分别输出,题目怎么说就怎么做 判断一下c 等于a + b还是a*b或者都不是,分别按要求输出 针对每一群玩游戏的宝宝,枚举判断一下就好了 写的有点烦,基本就是一步一步模拟,思路在注释里写了 枚举分配方案,代码中a代表女生寝室的数

    2024年02月03日
    浏览(40)
  • 股票接口L2是什么意思?和L1有哪些区别

    股票接口L2是什么意思,L2股票指二级市场,二级报价是证券公司的高级报价功能,包括十档行情等功能,投资者可以联系其业务部门或直接通过互联网申请开业,需要一定的费用。 L1是免费,L2平台会收取一定的费用,用户买卖股票一定要选择正规的平台,在正规平台投资股

    2024年02月11日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包