前沿
推导的两个角度
- 带约束条件的优化求解(拉格朗日乘子法)
- 贝叶斯学派的:最大后验概率
理解的两个角度
- 贝叶斯学派的角度,L2参数符合高斯先验,L1参数符合laplace先验。
- 从有约束问题角度,用拉格朗日转换成无约束问题后,转换成求最小值和约束交点问题。l1在几何上更尖锐,所以能起到特征筛选的作用。
总结
- L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。
- L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。
1、L1正则化(Lasso回归):
L1泛数(L1 norm)是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。比如向量A=[1,-1,3], 那么A的L1范数为 |1|+|-1|+|3|.
线形回归的L1正则化通常称为Lasso回归,它和一般线形回归的区别是在损失函数上增加了一个L1正则化的项,L1正则化的项有一个常数系数alpha来调节损失函数的均方差项和正则化项的权重,具体Lasso回归的损失函数表达式如下:
2、L2正则化(Ridge回归)
线形回归的L2正则化通常称为Ridge回归,它和一般线形回归的区别是在损失函数上增加了一个L2正则化的项,和Lasso回归的区别是Ridge回归的正则化项是L2范数,而Lasso回归的正则化项是L1范数。具体Ridge回归的损失函数表达式如下:
Ridge回归在不抛弃任何一个特征的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但和Lasso回归相比,这会使得模型的特征留的特别多,模型解释性差。
3、总结L1正则化和L2正则化:
L1范数: 为x向量各个元素绝对值之和。
L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数
Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.
4、L1正则化和L2正则化的作用:
(1)L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;
(2)L2正则化可以防止模型过拟合,在一定程度上,L1也可以防止过拟合,提升模型的泛化能力;
(3)L1(拉格朗日)正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0;
(4)L2(岭回归)正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。
在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则
5、L1和L2正则先验分别服从什么分布 ?
L1和L2正则先验分别服从什么分布,L1是拉普拉斯分布,L2是高斯分布。文章来源:https://www.toymoban.com/news/detail-475906.html
[1].L1正则先验是Laplace分布,L2正则先验分布是高斯分布
[2].L1正则化和L2正则化的区别
[3].理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布——复习篇文章来源地址https://www.toymoban.com/news/detail-475906.html
到了这里,关于从贝叶斯派的角度去看L1和L2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!