L1&L2，范数&损失-Toy模板网

这篇具有很好参考价值的文章主要介绍了L1&L2，范数&损失。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. L2范数（欧氏距离）

L2 范数 = 欧几里得范数（Euclidean norm） = 欧式长度(欧氏距离) = L2距离，对应 ||x||₂
L1&L2，范数&损失

2. L2范数损失，这个听的/用的少一些

L2范数损失 = L2-norm损失 = 最小平方误差(least squares error， LSE) = 最小二乘误差 。它是把目标值y与估计值f(x)的差值的平方和最小化。一般回归问题会用此损失，离群点对次损失影响较大。
L1&L2，范数&损失

3-1. L2损失（均方误差）

L2损失(L2 Loss) = 均方误差（Mean Square Error，MSE）。是模型预测值f(x)与真实样本值y之间差值平方的均值，其公式如下
L1&L2，范数&损失

优点：各点都连续光滑，方便求导，具有较为稳定的解
缺点：不是特别的稳健，因为当函数的输入值距离真实值较远的时候，对应loss值很大在两侧，则使用梯度下降法求解的时候梯度很大，可能导致梯度爆炸

参考：区分混淆概念之L2范数，L2范数损失，L2损失，均方误差

像下式也是均方误差（摘自我的毕设答辩PPT，含义是感知损失perceptual reconstruction loss）
L1&L2，范数&损失

3-2. L1损失（平均绝对误差）

L1损失 = 平均绝对误差（Mean Absolute Error,MAE）
L1&L2，范数&损失

优点：无论对于什么样的输入值，都有着稳定的梯度，不会导致梯度爆炸问题，具有较为稳健性的解
缺点：在中心点是折点，不能求导，梯度下降时要是恰好学习到w=0就没法接着进行了

参考：深度学习中常见的损失函数（L1Loss、L2loss）

4. L1范数L2范数在机器学习方面的区别

L1范数可以进行特征选择，即让特征的系数变为0。
L2范数可以防止过拟合，提升模型的泛化能力，有助于处理 condition number不好下的矩阵(数据变化很小矩阵求解后结果变化很大)。（核心：L2对大数，对outlier离群点更敏感！）
下降速度：最小化权值参数L1比L2变化的快。
模型空间的限制：L1会产生稀疏 L2不会。
L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。
原文链接：欧氏距离,l2范数,l2-loss,l2正则化

5. 为什么L2范数可以防止过拟合?

在回归里面，有人把有它的回归叫“岭回归”（Ridge Regression），有人也叫它“权值衰减weight decay”。L2范数强大功效是改善机器学习里面一个非常重要的问题：过拟合。
范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||₂最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。为什么越小的参数说明模型越简单？一种理解是：“限制了参数很小，实际上就限制了多项式某些分量大小，使分量的影响很小，这样就相当于减少参数个数”。
原文链接：欧氏距离,l2范数,l2-loss,l2正则化文章来源地址https://www.toymoban.com/news/detail-462002.html

到了这里，关于L1&L2，范数&损失的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！