Lasso回归系列二:Lasso回归/岭回归的原理

这篇具有很好参考价值的文章主要介绍了Lasso回归系列二:Lasso回归/岭回归的原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Lasso回归/岭回归的原理

在学习L1,L2正则化的作用和区别时,我们总是会看到这样的一副图片:

Lasso回归系列二:Lasso回归/岭回归的原理
这幅图片形象化地解释了L1,L2对线性模型产生的不同的约束效果。

我最开始其实是不太理解为什么要这么画的。比如

1、L1范数(L1-norm)等值线一定会和平方误差项等值线相交于某一坐标轴吗?

2、Lasso回归只能用平方和误差作为损失吗,换成交叉熵可以吗?

3、除了L1-norm,L2-norm,还有没有别的正则化方法,他们的区别是什么?
见我的另一篇博客Lasso回归系列三:机器学习中的L0, L1, L2, L2,1范数

现在算是搞明白了,结合网上很不错的几篇博客,再梳理一下,分享给大家,如有不足或者错误,请多多指正。

概述

使用L1正则化项的回归模型被称作Lasso回归(Lasso Regression),使用L2正则化项的回归模型被称作岭回归(Ridge Regression)。

所以只要是回归问题中加入L1正则项,都可以称为Lasso回归,并非只限于使用平方和误差作损失的情况。

在本文中,首先,我们会了解在使用最小二乘估求解线性回归问题时,加入L1-norm的Lasso回归,加入L2-norm的岭回归会使求解发生哪些变化,从而更好地理解如何使用Lasso回归和岭回归。

线性模型的最小二乘估

在对线性模型进行参数估计时,可以使用最小二乘法。

用数学语言来描述,线性模型可以表示为:
y = X β + ϵ E ( ϵ ) = 0 , C o v ( ϵ ) = σ 2 I y = X\beta +\epsilon \\E(\epsilon)=0, Cov(\epsilon) = \sigma^2 I y=Xβ+ϵE(ϵ)=0,Cov(ϵ)=σ2I
其中 y y y n × 1 n \times 1 n×1的标签向量, X X X n × p n \times p n×p的特征矩阵(对应到数据上, n n n是样本数, p p p是特征数量) , β \beta β ϵ \epsilon ϵ是要估计的参数, β \beta β p × 1 p \times 1 p×1的未知参数向量, ϵ \epsilon ϵ 是随机误差。

最小二乘法是估计参数向量 β \beta β 的基本方法,其思想是让误差尽可能得小,也即$\epsilon = y- X\beta $ 尽可能得小,也即是使
Q ( β ) = ∣ ∣ ϵ ∣ ∣ 2 = ∣ ∣ y − X β ∣ ∣ 2 = ( y − X β ) T ( y − X β ) Q(\beta) = ||\epsilon||^2 = ||y-X\beta||^2 = (y-X\beta)^T(y-X\beta) Q(β)=ϵ2=yXβ2=(yXβ)T(yXβ)
尽可能得小。

根据凸函数极小值就是最小值的定理,我们可以通过求得偏导等于0处的 β \beta β 值,使得上式达到最小值,即:
β ^ = ( X T X ) − 1 X T y \hat\beta = (X^TX)^{-1}X^Ty β^=(XTX)1XTy
结合矩阵论中的知识,当 r a n k ( X ) = p rank(X)=p rank(X)=p 时, X T X X^TX XTX 可逆,这时 β \beta β 有唯一解,$\hat\beta = \beta $,称 $ \hat\beta $ 是 $ \beta $ 的无偏估计;当 r a n k ( X ) < p rank(X)<p rank(X)<p 时, X X X 矩阵不满秩,此时我们无法得到$ \beta $ 的无偏估计,而导致 r a n k ( X ) < p rank(X)<p rank(X)<p 的原因一般有两种:1、样本数小于特征数量,2、即使样本数较多,但变量(特征)之间存在线性关系,Lasso回归和Ridge(岭回归)就是用来解决这一问题的。

Lasso回归和Ridge回归

Lasso回归(lasso regression)是在目标函数后加一个权重 β \beta β 的1-范数(机器学习中的范数定义不同于数学中的定义,具体定义请看【https://xiongyiming.blog.csdn.net/article/details/81673491】),即:
Q ( β ) = ∣ ∣ y − X β ∣ ∣ 2 2 + λ ∣ ∣ β ∣ ∣ 1    ⟺    arg ⁡ min ⁡ ∣ ∣ y − X β ∣ ∣ 2 s . t . ∑ ∣ β j ∣ ≤ s Q(\beta) = ||y-X\beta||^2_2 + \lambda ||\beta||_1 \\ \quad \iff \\ \arg \min ||y-X\beta||^2 \quad s.t. \sum |\beta_j| \leq s Q(β)=yXβ22+λβ1argminyXβ2s.t.βjs

岭回归(ridge regression)是在目标函数后加一个权重 β \beta β 的2-范数,即:
Q ( β ) = ∣ ∣ y − X β ∣ ∣ 2 2 + λ ∣ ∣ β ∣ ∣ 2    ⟺    arg ⁡ min ⁡ ∣ ∣ y − X β ∣ ∣ 2 s . t . ∑ β j 2 ≤ s Q(\beta) = ||y-X\beta||^2_2 + \lambda ||\beta||_2 \\ \quad \iff \\ \arg \min ||y-X\beta||^2 \quad s.t. \sum \beta_j^2 \leq s Q(β)=yXβ22+λβ2argminyXβ2s.t.βj2s

对上式求解,可以得到 β \beta β 的岭估计:
β ^ ( λ ) = ( X T X + λ I ) − 1 X T y \hat\beta(\lambda) = (X^TX+\lambda I)^{-1}X^Ty β^(λ)=(XTX+λI)1XTy
这样确保 X T X + λ I X^TX+\lambda I XTX+λI 满秩,可逆,当然此时的 β ^ ( λ ) \hat\beta(\lambda) β^(λ) 是一个有偏估计。

Lasso回归为什么更容易产生稀疏解?

我们再看下这幅图:

Lasso回归系列二:Lasso回归/岭回归的原理

平方误差等值线即 Q ( β ) = ∣ ∣ y − X β ∣ ∣ 2 Q(\beta) = ||y-X\beta||^2 Q(β)=yXβ2 对应的等势线

Lasso回归对应L1范数等值线,Ridge回归对应L2范数等值线,两者均通过正则项参数 λ \lambda λ 来调节对参数 β \beta β 的约束程度。

Lasso回归容易产生稀疏解,是因为L1范数包含了一些在坐标轴上的不可微的角点(non-differentiable corner ),这些角点和 Q ( β ) = ∣ ∣ y − X β ∣ ∣ 2 Q(\beta) = ||y-X\beta||^2 Q(β)=yXβ2 相交的概率会大很多。而在Ridge回归中,L2范数是处处可微的,所以和 Q ( β ) = ∣ ∣ y − X β ∣ ∣ 2 Q(\beta) = ||y-X\beta||^2 Q(β)=yXβ2在坐标轴上相交的概率会小很多。

此外,对于L1范数来说, λ \lambda λ 越大, ∣ ∣ β ∣ ∣ 1 ||\beta||_1 β1 的范围越小,平方误差等值线和L1范数等值线在坐标轴上相交的概率就越大,也就是说 β \beta β 中的元素变成0的概率越大。反之, β \beta β 中的元素变成0的概率则越小。

参考

L1,L2正则化方法

Lasso—原理及最优解文章来源地址https://www.toymoban.com/news/detail-413161.html

到了这里,关于Lasso回归系列二:Lasso回归/岭回归的原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 多元线性回归-Lasso

    目录 1.Lasso与多重共线性 2. Lasso的核心作用:特征选择 3. 选取最佳的正则化参数取值          Lasso全称最小绝对收缩和选择算子(Least absolute shrinkage and selection operator),由于这个名称过于复杂所以简称为Lasso,和岭回归一样,Lasso是用来作用于多重共线性的算法,不过Lass

    2024年02月16日
    浏览(48)
  • LASSO回归

    LASSO(Least Absolute Shrinkage and Selection Operator,最小绝对值收敛和选择算子算法)是一种回归分析技术,用于变量选择和正则化。它由Robert Tibshirani于1996年提出,作为传统最小二乘回归方法的替代品。 岭回归的损失函数,在标准线性回归损失函数的基础上,增加了对权重的控制,作

    2024年02月09日
    浏览(41)
  • 数学建模—多元线性回归分析(+lasso回归的操作)

    定义:回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的人数就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。 常见的回归分析有五类:线性回归

    2024年02月13日
    浏览(35)
  • Python实现Lasso回归模型

    • Tibshirani(1996)提出了Lasso(The Least Absolute Shrinkage and Selectionator operator)算法。 • 通过构造一个一阶惩罚函数获得一个精炼的模型;通过最终确定一些指标(变量)的系数为零(岭回归估计系数等于0的机会微乎其微,造成筛选变量困难),解释力很强。 • 擅长处理具有多重共

    2024年01月22日
    浏览(51)
  • 【R语言】LASSO回归(含代码)

    LASSO回归是由统计学家Robert Tibshirani于1996年提出的一种回归分析方法。它通过在损失函数中加入L1正则化项,实现对模型参数的惩罚,使得一部分参数趋于零。这种稀疏性的特点使得LASSO回归在高维数据集中具有出色的性能。 基因表达数据分析:LASSO回归可以用于选择最相关的

    2024年04月11日
    浏览(42)
  • 【线性回归、岭回归、Lasso回归分别预测患者糖尿病病情】数据挖掘实验一

    任务描述:将“diabetes”糖尿病患者数据集划分为训练集和测试集,利用训练集分别结合线性回归、岭回归、Lasso回归建立预测模型,再利用测试集来预测糖尿病患者病情并验证预测模型的拟合能力。 具体任务要求如下: 搜集并加载“diabetes”患者糖尿病指数数据集。 定义训

    2024年02月07日
    浏览(46)
  • python-sklearn岭回归与LASSO回归模型(套索)代码实操

    hello大家好这里是小L😊在这里想和大家一起学习一起进步。💪 这次笔记内容:学习岭回归与LASSO回归模型的sklearn实现。岭回归:平方和(L2正则化);LASSO回归:绝对值(L1正则化)。 为了防止线性回归的过拟合,加了正则化系数,系数可能有正有负,因此将他的绝对值或者

    2024年02月03日
    浏览(51)
  • python实现Lasso回归分析(特征筛选、建模预测)

    实现功能: python实现Lasso回归分析(特征筛选、建模预测) 输入结构化数据,含有特征以及相应的标签,采用Lasso回归对特征进行分析筛选,并对数据进行建模预测。 实现代码: 实现效果: # 绘制Lambda与回归系数的关系    # 基于最佳的lambda值建模进行特征分析    # 基于

    2023年04月12日
    浏览(44)
  • 基于Lasso回归的实证分析(Python实现代码)

    基于Lasso回归的实证分析 一、背景 随着信息化时代的到来,对如证券市场交易数据、多媒体图形图像视频数据、航天航空采集数据、生物特征数据等数据维度远大于样本量个数的高维数据分析逐渐占据重要地位。而在分析高维数据过程中碰到最大的问题就是维数膨胀,也就是

    2024年02月01日
    浏览(49)
  • 二分类结局LASSO回归筛选变量-R操作(从数据开始)+全套代码

    一、原始数据处理 如图: 结局status为二分类变量(用0,1表示) 自变量为X1~X15 数据文件名为mydata.csv 二、将数据导入Rstudio 点readr后点击browse找到你的数据,点击Import就可以导入进来了。 三、R代码进行LASSO回归 如下图所示,第一张图为plot(lasso_model,xvar=“lambda”)的结果 第

    2024年01月22日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包