L1、L2正则化的原理及适用场景

9月前作者：云从天上来分类：Toy博客阅读(47) 违法举报

这篇具有很好参考价值的文章主要介绍了L1、L2正则化的原理及适用场景。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. L1正则化，也称Lasso回归

1.1 含义

权值向量中各元素的绝对值之和，一般记作。

1.2 公式表示

添加了L1正则化的损失函数一般可表示为：

l正则化,机器学习细节研讨,算法,人工智能

1.3 作用

L1正则常被用来解决过拟合问题；

L1正则化容易产生稀疏权值矩阵（更容易得到稀疏解），即产生一个稀疏模型（较多参数为0），因此也可用于特征选择。

1.4 为什么L1（相对L2）更容易获得稀疏解或者 0解

L1是舍弃掉一些不重要的特征，L2是控制所有特征的权重。

a. 从公式角度解释

假设只有一个参数 w，损失函数 L(w) , 分别加上L1和L2损失函数可得：

$l正则化,机器学习细节研讨,算法,人工智能$

$l正则化,机器学习细节研讨,算法,人工智能$

假设 L(w) 在某一个样本 0 处的导数是 d0

当结合L2正则时候的导数是：

$l正则化,机器学习细节研讨,算法,人工智能$

当结合L1正则时候的导数是（L1损失在 w = 0处不可导，分 0 - 和 0 +）：

$l正则化,机器学习细节研讨,算法,人工智能$

结论：当结合L2正则的损失函数，导数结果仍然是 d0；结合L1正则的损失函数会有一个突变，从

到 $l正则化,机器学习细节研讨,算法,人工智能$ ，只要满足或和 $l正则化,机器学习细节研讨,算法,人工智能$ 异号，则在w = 0处，损失函数有极值（极小值），在优化器优化过程中，很容易将结果收敛到该极小值点上，也就是 w = 0。相比L1正则，需要 d0 = 0，这样的条件明显更为严苛。

b. 从优化问题视角 + 二维图示例 + 多维扩展，方向解释

l正则化,机器学习细节研讨,算法,人工智能

c. 从梯度角度来看

l正则化,机器学习细节研讨,算法,人工智能

结论：加入L1正则的导数形式，无论 wi 大小如何，sgn(wi) 的结果是一个常数，因此惩罚力度不变或者说仍然很大，使得L1将参数惩罚到0的概率增加；反观L2正则的导数形式，在 wi < 1 时候，尾项惩罚作用小，很难将参数惩罚到0，实际上就是使每个特征都得到尽量均衡的权重，因此适用于解决普通的过拟合问题，即从参数分布（让分布尽可能的均匀）的角度解决过拟合的问题。

d. 从概率学角度

加入正则项，相当于对参数 w 增加先验假设，要求 w 满足某一种分布。

L1正则化相当于为 w 加入 “拉普拉斯分布” 的先验；L2正则化相当于为 w 加入 “高斯分布” 的先验。

l正则化,机器学习细节研讨,算法,人工智能

结论：拉普拉斯先验在0点附近分布密度大于高斯分布，最终解将更稀疏。

2. L2正则化

2.1 含义

权值向量/矩阵中各元素的平方和，然后对“和”求平方根，记作。

2.2 公式表示

l正则化,机器学习细节研讨,算法,人工智能

2.3 作用

L2正则化可防止模型过拟合；至于为什么见下一篇文章，不定期更新

能够得到较为平滑（smooth）的解。

3. L1和L2正则化的适用场景

结论1 ：从理论上来看，参数如果服从高斯分布就用L2正则化；服从拉普拉斯分布就用L1。

结论2 ：添加正则化相当于参数的解空间添加了约束，限制了模型的复杂度，缓解过拟合。不过L1和L2正则化项是从不同的角度解决过拟合的。

结论3 ：L1正则项是从改变模型结构的角度（减少模型参数的数量或者筛除无效特征，使无效特征对应的参数为0）解决过拟合，使的模型更加简单。

结论4 ：L2正则项使模型尽量不依赖于某小部分特征，使模型更倾向于使用所有输入特征，不恰当的讲就是使每个特征都得到尽量均衡的权重（对于重要、非重要的特征也会有比较明显的区分）；它是从参数分布（让分布尽可能的均匀）的角度解决过拟合。

结论5 ：L1正则化可以获得稀疏解，因此适用于：模型剪枝、模型压缩、特征选择。

结论6 ：L2正则化可以获得平滑（smooth）解。文章来源地址https://www.toymoban.com/news/detail-706318.html

到了这里，关于L1、L2正则化的原理及适用场景的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

L1范数，L2范数，L2,1范数（向量范数、矩阵范数、正则化）

参考文章如下：https://blog.csdn.net/lqzdreamer/article/details/79676305 https://blog.csdn.net/lqzdreamer/article/details/79676305 一般常用范数来衡量向量，向量的Lp范数定义为： Lp范数示意图：从图中可以看出，p的取值在 [0,1) 之间，范数

2023年04月09日
浏览(38)
剪枝基础与实战(2): L1和L2正则化及BatchNormalization讲解

CIFAR10 是深度学习入门最先接触到的数据集之一，主要用于图像分类任务中，该数据集总共有 10个类别。图片数量： 6w 张图片宽高： 32x32 图片类别：10 Trainset: 5w 张，5 个训练块 Testset: 1w 张，1 个测试块 Pytorch 集成了很多常见数据集的API，可以通过pytorch 来下载这些数据集，

2024年02月11日
浏览(39)
机器学习中的数学原理——分类的正则化

通过这篇博客，你将清晰的明白什么是分类的正则化。这个专栏名为白话机器学习中数学学习笔记，主要是用来分享一下我在机器学习中的学习笔记及一些感悟，也希望对你的学习有帮助哦！感兴趣的小伙伴欢迎私信或者评论区留言！这一篇就更新一下《白话机器学习中

2024年01月23日
浏览(38)
深度学习——常见损失函数Loss：L1 ，L2 ，MSE ，Binary Cross ，Categorical Cross ，Charbonnier ，Weighted TV ，PSNR

在深度学习中，损失函数是一个核心组件，它度量模型的预测结果与真实值之间的差异。通过最小化损失函数的值，模型能够在训练过程中逐渐改善其性能。损失函数为神经网络提供了一个明确的优化目标，是连接数据和模型性能的重要桥梁。选择合适的损失函数是非常重要

2024年01月24日
浏览(54)
【2023团体程序设计天梯赛CCCC】GPLT2023，L1~L2部分（PTA，L1-089~L1-096，L2-045~L2-048）题解代码&复盘

概要 L1部分：L1-089~L1-096 L2部分：L2-045~L2-048 L3部分：L3-033~L3-036 L1-089 最好的文档 5 L1-090 什么是机器学习 5 L1-091 程序员买包子 10 L1-092 进化论 10 L1-093 猜帽子游戏 15 L1-094 剪切粘贴 15 L1-095 分寝室 20 L1-096 谁管谁叫爹 20 L2-045 堆宝塔 25 L2-046 天梯赛的赛场安排 L2-047 锦标赛 25 L2-048

2024年02月01日
浏览(44)
L1&L2，范数&损失

L2 范数 = 欧几里得范数（Euclidean norm） = 欧式长度(欧氏距离) = L2距离，对应 ||x|| 2 L2范数损失 = L2-norm损失 = 最小平方误差(least squares error， LSE) = 最小二乘误差。它是把目标值y与估计值f(x)的差值的平方和最小化。一般回归问题会用此损失，离群点对次损失影响较大。 L2损失

2024年02月06日
浏览(44)
深度学习基础5:交叉熵损失函数、MSE、CTC损失适用于字识别语音等序列问题、Balanced L1 Loss适用于目标检测

深度学习基础5:交叉熵损失函数、MSE、CTC损失适用于字识别语音等序列问题、Balanced L1 Loss适用于目标检测在物理学中，“熵”被用来表示热力学系统所呈现的无序程度。香农将这一概念引入信息论领域，提出了“信息熵”概念，通过对数函数来测量信息的不确定性。交叉熵（

2023年04月18日
浏览(48)
深入区块链层：L1 和 L2

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AivxuuH0-1664858847219)(htTPS://tva1.sinaimg.cn/large/e6c9d24ely1h4r0auxvmxg20tr04ojug.gif)] L2解决方案是为了解决网络吞吐量问题而创建的。然而，关于它们的设计和未来发展的问题需要更多的关注，特别是在以太坊合并

2024年02月02日
浏览(44)
2023 PTA天梯赛补题（L1 & L2）

输入输出题输入输出题 k == n 和 k == m 分别输出，题目怎么说就怎么做判断一下c 等于a + b还是a*b或者都不是，分别按要求输出针对每一群玩游戏的宝宝，枚举判断一下就好了写的有点烦，基本就是一步一步模拟，思路在注释里写了枚举分配方案，代码中a代表女生寝室的数

2024年02月03日
浏览(40)
股票接口L2是什么意思？和L1有哪些区别

股票接口L2是什么意思，L2股票指二级市场，二级报价是证券公司的高级报价功能，包括十档行情等功能，投资者可以联系其业务部门或直接通过互联网申请开业，需要一定的费用。 L1是免费，L2平台会收取一定的费用，用户买卖股票一定要选择正规的平台，在正规平台投资股

2024年02月11日
浏览(40)