从贝叶斯派的角度去看L1和L2-Toy模板网

这篇具有很好参考价值的文章主要介绍了从贝叶斯派的角度去看L1和L2。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前沿

推导的两个角度

带约束条件的优化求解（拉格朗日乘子法）
贝叶斯学派的：最大后验概率

理解的两个角度

贝叶斯学派的角度，L2参数符合高斯先验，L1参数符合laplace先验。
从有约束问题角度，用拉格朗日转换成无约束问题后，转换成求最小值和约束交点问题。l1在几何上更尖锐，所以能起到特征筛选的作用。

从贝叶斯派的角度去看L1和L2

从贝叶斯派的角度去看L1和L2

总结

L1正则化可通过假设权重w的先验分布为拉普拉斯分布，由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为高斯分布，由最大后验概率估计导出。

1、L1正则化（Lasso回归）：

L1泛数（L1 norm）是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。比如向量A=[1，-1，3]，那么A的L1范数为 |1|+|-1|+|3|.

线形回归的L1正则化通常称为Lasso回归，它和一般线形回归的区别是在损失函数上增加了一个L1正则化的项，L1正则化的项有一个常数系数alpha来调节损失函数的均方差项和正则化项的权重，具体Lasso回归的损失函数表达式如下：

从贝叶斯派的角度去看L1和L2

2、L2正则化（Ridge回归）

线形回归的L2正则化通常称为Ridge回归，它和一般线形回归的区别是在损失函数上增加了一个L2正则化的项，和Lasso回归的区别是Ridge回归的正则化项是L2范数，而Lasso回归的正则化项是L1范数。具体Ridge回归的损失函数表达式如下：

从贝叶斯派的角度去看L1和L2
Ridge回归在不抛弃任何一个特征的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但和Lasso回归相比，这会使得模型的特征留的特别多，模型解释性差。

3、总结L1正则化和L2正则化：

L1范数: 为x向量各个元素绝对值之和。

L2范数: 为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或Frobenius范数

Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.

4、L1正则化和L2正则化的作用：

（1）L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择；

（2）L2正则化可以防止模型过拟合，在一定程度上，L1也可以防止过拟合，提升模型的泛化能力；

（3）L1（拉格朗日）正则假设参数的先验分布是Laplace分布，可以保证模型的稀疏性，也就是某些参数等于0；

（4）L2（岭回归）正则假设参数的先验分布是Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小。

在实际使用中，如果特征是高维稀疏的，则使用L1正则；如果特征是低维稠密的，则使用L2正则

5、L1和L2正则先验分别服从什么分布？

L1和L2正则先验分别服从什么分布，L1是拉普拉斯分布，L2是高斯分布。

  [1].L1正则先验是Laplace分布，L2正则先验分布是高斯分布
  [2].L1正则化和L2正则化的区别
  [3].理解：L1正则先验分布是Laplace分布，L2正则先验分布是Gaussian分布——复习篇文章来源地址https://www.toymoban.com/news/detail-475906.html

到了这里，关于从贝叶斯派的角度去看L1和L2的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！