深入理解深度学习——正则化(Regularization):正则化和欠约束问题

这篇具有很好参考价值的文章主要介绍了深入理解深度学习——正则化(Regularization):正则化和欠约束问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分类目录:《深入理解深度学习》总目录


在某些情况下,为了正确定义机器学习问题,正则化是必要的。机器学习中许多线性模型,包括线性回归和PCA,都依赖于对矩阵 X T X X^TX XTX求逆。只要 X T X X^TX XTX是奇异的,这些方法就会失效。当数据生成分布在一些方向上确实没有差异时,或因为例子较少(即相对输入特征的维数来说)而在一些方向上没有观察到方差时,这个矩阵就是奇异的。在这种情况下,正则化的许多形式对应求逆 X T X + α I X^TX+\alpha I XTX+αI。这个正则化矩阵可以保证是可逆的。

相关矩阵可逆时,这些线性问题有闭式解。没有闭式解的问题也可能是欠定的。一个例子是应用于线性可分问题的逻辑回归。如果权重向量 w w w能够实现完美分类,那么 2 w 2w 2w也会以更高似然实现完美分类。类似随机梯度下降的迭代优化算法将持续增加 w w w的大小,理论上永远不会停止。在实践中,数值实现的梯度下降最终会达到导致数值溢出的超大权重,此时的行为将取决于程序员如何处理这些不是真正数字的值。

大多数形式的正则化能够保证应用于欠定问题的迭代方法收敛。例如,当似然的斜率等于权重衰减的系数时,权重衰减将阻止梯度下降继续增加权重的大小。使用正则化解决欠定问题的想法不局限于机器学习。同样的想法在几个基本线性代数问题中也非常有用。

正如我们在《机器学习中的数学——Moore-Penrose伪逆》看到的,我们可以使用Moore-Penrose求解欠定线性方程。回想 X X X伪逆 X + X^+ X+的一个定义:
X + = lim ⁡ α ↘ 0 ( X T X + α I ) − 1 X T X^+=\lim_{\alpha\searrow0}(X^TX+\alpha I)^{-1}X^T X+=α0lim(XTX+αI)1XT

现在我们可以将《机器学习中的数学——Moore-Penrose伪逆》看作进行具有权重衰减的线性回归。具体来说,当正则化系数趋向 0 0 0时,式 X + = lim ⁡ α ↘ 0 ( X T X + α I ) − 1 X T X^+=\lim_{\alpha\searrow0}(X^TX+\alpha I)^{-1}X^T X+=limα0(XTX+αI)1XT是式 ( X T X + α I ) − 1 X T y (X^TX+\alpha I)^{-1}X^Ty (XTX+αI)1XTy的极限。因此,我们可以将伪逆解释为使用正则化来稳定欠定问题。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章来源地址https://www.toymoban.com/news/detail-525653.html

到了这里,关于深入理解深度学习——正则化(Regularization):正则化和欠约束问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入理解深度学习——正则化(Regularization):作为约束的范数惩罚

    分类目录:《深入理解深度学习》总目录 考虑经过参数范数正则化的代价函数: J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) tilde{J}(theta;X, y) = J(theta;X, y) + alphaOmega(theta) J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) 回顾《拉格朗日乘子法(二):不等式约束与KKT条件》我们可以构

    2024年02月08日
    浏览(27)
  • 深度学习记录--正则化(regularization)

    正则化(regularization)是一种实用的减少 方差 ( variance )的方法,也即 避免过度拟合 L2正则化 又被称为 权重衰减(weight dacay)  在成本函数中加上正则项: 其中     由于在w的更新过程中会递减,即权重衰减 w递减的过程,实际上是w趋近于0的过程 在这个过程中,部分单元的影响

    2024年01月19日
    浏览(27)
  • 七篇深入理解机器学习和深度学习的读物推荐

    在这篇文章中将介绍7篇机器学习和深度学习的论文或者图书出版物,这些内容都论文极大地影响了我对该领域的理解,如果你想深入了解机器学习的内容,哪么推荐阅读。 在自然语言处理和序列建模领域,Vaswani等人的一篇论文《Attention Is All You Need》彻底改变了这一领域。这

    2024年02月07日
    浏览(27)
  • 深入理解深度学习——Transformer:编码器(Encoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(AttentionMechanism):注意力评分函数(AttentionScoringFunction) ·注意力机制(AttentionMechanism):Bahda

    2024年02月08日
    浏览(52)
  • 深入理解深度学习——Transformer:解码器(Decoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(Attention Mechanism):基础知识 ·注意力机制(Attention Mechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function) ·注意力机制(Attention Mechanism):

    2024年02月10日
    浏览(35)
  • 深入理解深度学习——BERT派生模型:ALBERT(A Lite BERT)

    分类目录:《深入理解深度学习》总目录 预训练语言模型的一个趋势是使用更大的模型配合更多的数据,以达到“大力出奇迹”的效果。随着模型规模的持续增大,单块GPU已经无法容纳整个预训练语言模型。为了解决这个问题,谷歌提出了ALBERT,该模型与BERT几乎没有区别,

    2024年02月10日
    浏览(34)
  • 深入理解深度学习——注意力机制(Attention Mechanism):位置编码(Positional Encoding)

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(AttentionMechanism):注意力评分函数(AttentionScoringFunction) ·注意力机制(AttentionMechanism):Bahda

    2024年02月08日
    浏览(35)
  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):基础知识

    分类目录:《深入理解深度学习》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    2024年02月10日
    浏览(43)
  • 深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):基础知识

    分类目录:《深入理解深度学习》总目录 相关文章: · BERT(Bidirectional Encoder Representations from Transformers):基础知识 · BERT(Bidirectional Encoder Representations from Transformers):BERT的结构 · BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model) · BERT(Bidirect

    2024年02月11日
    浏览(38)
  • 深入理解深度学习——BERT派生模型:T5(Text to Text Transfer Transformer)

    分类目录:《深入理解深度学习》总目录 T5的全称为Text to Text Transfer Transformer,是谷歌提出的预训练语言模型领域的通用模型,该模型将所有自然语言问题都转化成文本到文本的形式,并用一个统一的模型解决。为了得到大一统的高质量预训练语言模型,T5不可避免地走上了

    2024年02月10日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包