深入理解深度学习——正则化(Regularization):参数绑定和参数共享

这篇具有很好参考价值的文章主要介绍了深入理解深度学习——正则化(Regularization):参数绑定和参数共享。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分类目录:《深入理解深度学习》总目录


目前为止,我们讨论对参数添加约束或惩罚时,一直是相对于固定的区域或点。例如, L 2 L^2 L2正则化(或权重衰减)对参数偏离零的固定值进行惩罚。然而,有时我们可能需要其他的方式来表达我们对模型参数适当值的先验知识。有时候,我们可能无法准确地知道应该使用什么样的参数,但我们根据相关领域和模型结构方面的知识得知模型参数之间应该存在一些相关性。我们经常想要表达的一种常见依赖是某些参数应当彼此接近。考虑以下情形:我们有两个模型执行相同的分类任务(具有相同类别),但输入分布稍有不同。形式地,我们有参数为 w ( A ) w^{(A)} w(A)的模型A和参数为 w ( B ) w^{(B)} w(B)的模型B。这两种模型将输入映射到两个不同但相关的输出: y ^ ( A ) = f ( w ( A ) , x ) \hat{y}^{(A)} = f(w^{(A)}, x) y^(A)=f(w(A),x) y ^ ( B ) = f ( w ( B ) , x ) \hat{y}^{(B)} = f(w^{(B)}, x) y^(B)=f(w(B),x)

我们可以想象,这些任务会足够相似(或许具有相似的输入和输出分布),因此我们认为模型参数应彼此靠近: ∀ i , w i ( A ) \forall i, w^{(A)}_i i,wi(A)应该与 w i ( B ) w^{(B)}_i wi(B)接近。我们可以通过正则化利用此信息。具体来说,我们可以使用以下形式的参数范数惩罚: Ω ( w ( A ) , w ( B ) ) = ∣ ∣ w ( A ) − w ( B ) ∣ ∣ 2 2 \Omega(w^{(A)}, w^{(B)}) = ||w^{(A)} - w^{(B)}||^2_2 Ω(w(A),w(B))=∣∣w(A)w(B)22。在这里我们使用 L 2 L^2 L2惩罚,但也可以使用其他选择。

这种方法由Lasserre提出,正则化一个模型(监督模式下训练的分类器)的参数,使其接近另一个无监督模式下训练的模型(捕捉观察到的输入数据的分布)的参数。构造的这种架构使得分类模型中的许多参数能与无监督模型中对应的参数匹配。参数范数惩罚是正则化参数使其彼此接近的一种方式,而更流行的方法是使用约束:强迫某些参数相等。由于我们将各种模型或模型组件解释为共享唯一的一组参数,这种正则化方法通常被称为参数共享(Parameter Sharing)。和正则化参数使其接近(通过范数惩罚)相比,参数共享的一个显著优点是,只有参数(唯一一个集合)的子集需要被存储在内存中。对于某些特定模型,如卷积神经网络,这可能可以显著减少模型所占用的内存。

目前为止,最流行和广泛使用的参数共享出现在应用于计算机视觉的卷积神经网络(CNN)中。自然图像有许多统计属性是对转换不变的。例如,猫的照片即使向右边移了一个像素,仍保持猫的照片。CNN通过在图像多个位置共享参数来考虑这个特性。相同的特征(具有相同权重的隐藏单元)在输入的不同位置上计算获得。这意味着无论猫出现在图像中的第 i i i列或 i + 1 i + 1 i+1列,我们都可以使用相同的猫探测器找到猫。参数共享显著降低了CNN模型的参数数量,并显著提高了网络的大小而不需要相应地增加训练数据。它仍然是将领域知识有效地整合到网络架构的最佳范例之一。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章来源地址https://www.toymoban.com/news/detail-470564.html

到了这里,关于深入理解深度学习——正则化(Regularization):参数绑定和参数共享的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入理解深度学习——正则化(Regularization):作为约束的范数惩罚

    分类目录:《深入理解深度学习》总目录 考虑经过参数范数正则化的代价函数: J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) tilde{J}(theta;X, y) = J(theta;X, y) + alphaOmega(theta) J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) 回顾《拉格朗日乘子法(二):不等式约束与KKT条件》我们可以构

    2024年02月08日
    浏览(38)
  • 深度学习记录--正则化(regularization)

    正则化(regularization)是一种实用的减少 方差 ( variance )的方法,也即 避免过度拟合 L2正则化 又被称为 权重衰减(weight dacay)  在成本函数中加上正则项: 其中     由于在w的更新过程中会递减,即权重衰减 w递减的过程,实际上是w趋近于0的过程 在这个过程中,部分单元的影响

    2024年01月19日
    浏览(45)
  • 七篇深入理解机器学习和深度学习的读物推荐

    在这篇文章中将介绍7篇机器学习和深度学习的论文或者图书出版物,这些内容都论文极大地影响了我对该领域的理解,如果你想深入了解机器学习的内容,哪么推荐阅读。 在自然语言处理和序列建模领域,Vaswani等人的一篇论文《Attention Is All You Need》彻底改变了这一领域。这

    2024年02月07日
    浏览(40)
  • 深入理解深度学习——Transformer:解码器(Decoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(Attention Mechanism):基础知识 ·注意力机制(Attention Mechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function) ·注意力机制(Attention Mechanism):

    2024年02月10日
    浏览(49)
  • 深入理解深度学习——Transformer:编码器(Encoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(AttentionMechanism):注意力评分函数(AttentionScoringFunction) ·注意力机制(AttentionMechanism):Bahda

    2024年02月08日
    浏览(62)
  • 深入理解深度学习——BERT派生模型:ALBERT(A Lite BERT)

    分类目录:《深入理解深度学习》总目录 预训练语言模型的一个趋势是使用更大的模型配合更多的数据,以达到“大力出奇迹”的效果。随着模型规模的持续增大,单块GPU已经无法容纳整个预训练语言模型。为了解决这个问题,谷歌提出了ALBERT,该模型与BERT几乎没有区别,

    2024年02月10日
    浏览(52)
  • 深入理解深度学习——注意力机制(Attention Mechanism):位置编码(Positional Encoding)

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(AttentionMechanism):注意力评分函数(AttentionScoringFunction) ·注意力机制(AttentionMechanism):Bahda

    2024年02月08日
    浏览(49)
  • 深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):基础知识

    分类目录:《深入理解深度学习》总目录 相关文章: · BERT(Bidirectional Encoder Representations from Transformers):基础知识 · BERT(Bidirectional Encoder Representations from Transformers):BERT的结构 · BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model) · BERT(Bidirect

    2024年02月11日
    浏览(52)
  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):基础知识

    分类目录:《深入理解深度学习》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    2024年02月10日
    浏览(60)
  • 深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):BERT的结构

    分类目录:《深入理解深度学习》总目录 相关文章: · BERT(Bidirectional Encoder Representations from Transformers):基础知识 · BERT(Bidirectional Encoder Representations from Transformers):BERT的结构 · BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model) · BERT(Bidirect

    2024年02月11日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包