从贝叶斯派的角度去看L1和L2

这篇具有很好参考价值的文章主要介绍了从贝叶斯派的角度去看L1和L2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前沿

推导的两个角度

  • 带约束条件的优化求解(拉格朗日乘子法)
  • 贝叶斯学派的:最大后验概率

理解的两个角度

  • 贝叶斯学派的角度,L2参数符合高斯先验,L1参数符合laplace先验。
  • 从有约束问题角度,用拉格朗日转换成无约束问题后,转换成求最小值和约束交点问题。l1在几何上更尖锐,所以能起到特征筛选的作用。

从贝叶斯派的角度去看L1和L2
从贝叶斯派的角度去看L1和L2
从贝叶斯派的角度去看L1和L2
从贝叶斯派的角度去看L1和L2

从贝叶斯派的角度去看L1和L2
从贝叶斯派的角度去看L1和L2
从贝叶斯派的角度去看L1和L2
总结

  • L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。
  • L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。

1、L1正则化(Lasso回归):

L1泛数(L1 norm)是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。比如向量A=[1,-1,3], 那么A的L1范数为 |1|+|-1|+|3|.

线形回归的L1正则化通常称为Lasso回归,它和一般线形回归的区别是在损失函数上增加了一个L1正则化的项,L1正则化的项有一个常数系数alpha来调节损失函数的均方差项和正则化项的权重,具体Lasso回归的损失函数表达式如下:

从贝叶斯派的角度去看L1和L2

2、L2正则化(Ridge回归)

线形回归的L2正则化通常称为Ridge回归,它和一般线形回归的区别是在损失函数上增加了一个L2正则化的项,和Lasso回归的区别是Ridge回归的正则化项是L2范数,而Lasso回归的正则化项是L1范数。具体Ridge回归的损失函数表达式如下:

从贝叶斯派的角度去看L1和L2
Ridge回归在不抛弃任何一个特征的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但和Lasso回归相比,这会使得模型的特征留的特别多,模型解释性差。

3、总结L1正则化和L2正则化:

L1范数: 为x向量各个元素绝对值之和。

L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数

Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.

4、L1正则化和L2正则化的作用:

(1)L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;

(2)L2正则化可以防止模型过拟合,在一定程度上,L1也可以防止过拟合,提升模型的泛化能力;

(3)L1(拉格朗日)正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0;

(4)L2(岭回归)正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。

在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则

5、L1和L2正则先验分别服从什么分布 ?

L1和L2正则先验分别服从什么分布,L1是拉普拉斯分布,L2是高斯分布。

  [1].L1正则先验是Laplace分布,L2正则先验分布是高斯分布
  [2].L1正则化和L2正则化的区别
  [3].理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布——复习篇文章来源地址https://www.toymoban.com/news/detail-475906.html

到了这里,关于从贝叶斯派的角度去看L1和L2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入区块链层:L1 和 L2

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AivxuuH0-1664858847219)(htTPS://tva1.sinaimg.cn/large/e6c9d24ely1h4r0auxvmxg20tr04ojug.gif)] L2解决方案是为了解决网络吞吐量问题而创建的。然而,关于它们的设计和未来发展的问题需要更多的关注,特别是在以太坊合并

    2024年02月02日
    浏览(47)
  • L1范数,L2范数,L2,1范数(向量范数、矩阵范数、正则化)

    参考文章如下:https://blog.csdn.net/lqzdreamer/article/details/79676305                          https://blog.csdn.net/lqzdreamer/article/details/79676305         一般常用范数来衡量向量,向量的Lp范数定义为:          Lp范数示意图:         从图中可以看出,p的取值在 [0,1) 之间,范数

    2023年04月09日
    浏览(42)
  • 2023 PTA天梯赛补题(L1 & L2)

    输入输出题 输入输出题 k == n 和 k == m 分别输出,题目怎么说就怎么做 判断一下c 等于a + b还是a*b或者都不是,分别按要求输出 针对每一群玩游戏的宝宝,枚举判断一下就好了 写的有点烦,基本就是一步一步模拟,思路在注释里写了 枚举分配方案,代码中a代表女生寝室的数

    2024年02月03日
    浏览(41)
  • L1、L2正则化的原理及适用场景

    1.1 含义 权值向量  中各元素的绝对值之和,一般记作   。 1.2  公式表示 添加了L1正则化的损失函数一般可表示为: 1.3 作用 L1正则常被用来解决过拟合问题; L1正则化容易产生稀疏权值矩阵(更容易得到稀疏解),即产生一个稀疏模型(较多参数为0),因此也可用于特征

    2024年02月09日
    浏览(49)
  • 股票接口L2是什么意思?和L1有哪些区别

    股票接口L2是什么意思,L2股票指二级市场,二级报价是证券公司的高级报价功能,包括十档行情等功能,投资者可以联系其业务部门或直接通过互联网申请开业,需要一定的费用。 L1是免费,L2平台会收取一定的费用,用户买卖股票一定要选择正规的平台,在正规平台投资股

    2024年02月11日
    浏览(43)
  • Elasticsearch(实践一)相似度方法L1、L2 、cos

    在文本使用三维向量的相似度时,对三种相似度的对比。 当前基于已经搭建好的Elasticsearch、Kibana。  1、创建索引库 创建成功: 2、放入数据 返回结果类似如下 3、查看所有数据 结果如下:  4、L1方法查询数据 结果中,id1和id2得分相同,但在文本向量空间中他们不同。 5、使

    2024年02月02日
    浏览(44)
  • 剪枝基础与实战(2): L1和L2正则化及BatchNormalization讲解

    CIFAR10 是深度学习入门最先接触到的数据集之一,主要用于图像分类任务中,该数据集总共有 10个 类别。 图片数量: 6w 张 图片宽高: 32x32 图片类别:10 Trainset: 5w 张,5 个训练块 Testset: 1w 张,1 个测试块 Pytorch 集成了很多常见数据集的API, 可以通过pytorch 来下载这些数据集,

    2024年02月11日
    浏览(40)
  • 通达信l1l2行情接口-十档行情有哪些优势?

    据提供系统或用户编制的条件选股公式进行选股选定一个条件选股公式或多个组合条件后,计算机自动帮您选出当时或历史上某一段时间内满足条件的所有股票十档行情 英文,列在行情下载显示窗口,同时可保留成板块。 那通达信l1l2行情接口-十档行情有哪些优势? 1、主要

    2024年01月16日
    浏览(38)
  • zkSync2.0一个 L2 块和一个 L1 汇总块深入分析

    目录 通常的rollup的工作流程如下 zkSync rollup 操作的生命周期 如下:

    2024年02月01日
    浏览(40)
  • 贝叶斯分类器(公式推导+举例应用)

    引言 在机器学习的世界中,有一类强大而受欢迎的算法——贝叶斯分类器,它倚仗着贝叶斯定理和朴素的独立性假设,成为解决分类问题的得力工具。这种算法的独特之处在于其对概率的建模,使得它在面对不确定性和大规模特征空间时表现卓越。 本文将深入探讨贝叶斯分

    2024年01月21日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包