深入理解深度学习——正则化(Regularization):Bagging和其他集成方法

这篇具有很好参考价值的文章主要介绍了深入理解深度学习——正则化(Regularization):Bagging和其他集成方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分类目录:《深入理解深度学习》总目录
相关文章:
· 集成学习(Ensemble Learning):基础知识
· 集成学习(Ensemble Learning):提升法Boosting与Adaboost算法
· 集成学习(Ensemble Learning):袋装法Bagging
· 正则化(Regularization):Bagging和其他集成方法


Bagging(Bootstrap Aggregating)是通过结合几个模型降低泛化误差的技术(Breiman, 1994)。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子,被称为模型平均(Model Averaging)。采用这种策略的技术被称为集成方法。模型平均(Model Averaging)奏效的原因是不同的模型通常不会在测试集上产生完全相同的误差。

假设我们有 k k k个回归模型。假设每个模型在每个例子上的误差是 ϵ i \epsilon_i ϵi,这个误差服从零均值方差为 E [ ϵ i 2 ] = v E[\epsilon_i^2]=v E[ϵi2]=v且协方差为 E [ ϵ i ϵ j ] = c E[\epsilon_i\epsilon_j]=c E[ϵiϵj]=c的多维正态分布。通过所有集成模型的平均预测所得误差是 1 k ∑ i ϵ i \frac{1}{k}\sum_i\epsilon_i k1iϵi。集成预测器平方误差的期望是:
E [ ( 1 k ∑ i ϵ i ) 2 ] = 1 k v + k − 1 k c E[(\frac{1}{k}\sum_i\epsilon_i)^2]=\frac{1}{k}v + \frac{k - 1}{k}c E[(k1iϵi)2]=k1v+kk1c

在误差完全相关即 c = v c = v c=v的情况下,均方误差减少到 v v v,所以模型平均没有任何帮助。在错误完全不相关即 c = 0 c = 0 c=0的情况下,该集成平方误差的期望仅为 1 k v \frac{1}{k}v k1v。这意味着集成平方误差的期望会随着集成规模增大而线性减小。换言之,平均上集成至少与它的任何成员表现得一样好,并且如果成员的误差是独立的,集成将显著地比其成员表现得更好。不同的集成方法以不同的方式构建集成模型。例如,集成的每个成员可以使用不同的算法和目标函数训练成完全不同的模型。Bagging是一种允许重复多次使用同一种模型、训练算法和目标函数的方法。

具体来说,Bagging涉及构造 k k k个不同的数据集。每个数据集从原始数据集中重复采样构成,和原始数据集具有相同数量的样例。这意味着,每个数据集以高概率缺少一些来自原始数据集的例子,还包含若干重复的例子(如果所得训练集与原始数据集大小相同,那所得数据集中大概有原始数据集 2 3 \frac{2}{3} 32的实例)。模型 i i i在数据集 i i i上训练。每个数据集所含样本的差异导致了训练模型之间的差异。

神经网络能找到足够多的不同的解,意味着他们可以从模型平均中受益(即使所有模型都在同一数据集上训练)。神经网络中随机初始化的差异、小批量的随机选择、超参数的差异或不同输出的非确定性实现往往足以使得集成中的不同成员具有部分独立的误差。

模型平均是一个减少泛化误差的非常强大可靠的方法。在作为科学论文算法的基准时,它通常是不鼓励使用的,因为任何机器学习算法都可以从模型平均中大幅获益(以增加计算和存储为代价)。机器学习比赛中的取胜算法通常是使用超过几十种模型平均的方法。最近一个
突出的例子是Netflix Grand Prize。不是所有构建集成的技术都是为了让集成模型比单一模型更加正则化。例如,一种被称为Boosting的技术构建比单个模型容量更高的集成模型。通过向集成逐步添加神经网络,Boosting已经被应用于构建神经网络的集成。通过逐渐增加神经网络的隐藏单元,Boosting也可以将单个神经网络解释为一个集成。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章来源地址https://www.toymoban.com/news/detail-464683.html

到了这里,关于深入理解深度学习——正则化(Regularization):Bagging和其他集成方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入理解深度学习——正则化(Regularization):作为约束的范数惩罚

    分类目录:《深入理解深度学习》总目录 考虑经过参数范数正则化的代价函数: J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) tilde{J}(theta;X, y) = J(theta;X, y) + alphaOmega(theta) J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) 回顾《拉格朗日乘子法(二):不等式约束与KKT条件》我们可以构

    2024年02月08日
    浏览(39)
  • 深度学习记录--正则化(regularization)

    正则化(regularization)是一种实用的减少 方差 ( variance )的方法,也即 避免过度拟合 L2正则化 又被称为 权重衰减(weight dacay)  在成本函数中加上正则项: 其中     由于在w的更新过程中会递减,即权重衰减 w递减的过程,实际上是w趋近于0的过程 在这个过程中,部分单元的影响

    2024年01月19日
    浏览(45)
  • 七篇深入理解机器学习和深度学习的读物推荐

    在这篇文章中将介绍7篇机器学习和深度学习的论文或者图书出版物,这些内容都论文极大地影响了我对该领域的理解,如果你想深入了解机器学习的内容,哪么推荐阅读。 在自然语言处理和序列建模领域,Vaswani等人的一篇论文《Attention Is All You Need》彻底改变了这一领域。这

    2024年02月07日
    浏览(41)
  • 深入理解深度学习——Transformer:编码器(Encoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(AttentionMechanism):注意力评分函数(AttentionScoringFunction) ·注意力机制(AttentionMechanism):Bahda

    2024年02月08日
    浏览(62)
  • 深入理解深度学习——Transformer:解码器(Decoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(Attention Mechanism):基础知识 ·注意力机制(Attention Mechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function) ·注意力机制(Attention Mechanism):

    2024年02月10日
    浏览(50)
  • 深入理解深度学习——BERT派生模型:ALBERT(A Lite BERT)

    分类目录:《深入理解深度学习》总目录 预训练语言模型的一个趋势是使用更大的模型配合更多的数据,以达到“大力出奇迹”的效果。随着模型规模的持续增大,单块GPU已经无法容纳整个预训练语言模型。为了解决这个问题,谷歌提出了ALBERT,该模型与BERT几乎没有区别,

    2024年02月10日
    浏览(53)
  • 深入理解深度学习——注意力机制(Attention Mechanism):位置编码(Positional Encoding)

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(AttentionMechanism):注意力评分函数(AttentionScoringFunction) ·注意力机制(AttentionMechanism):Bahda

    2024年02月08日
    浏览(49)
  • 深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):基础知识

    分类目录:《深入理解深度学习》总目录 相关文章: · BERT(Bidirectional Encoder Representations from Transformers):基础知识 · BERT(Bidirectional Encoder Representations from Transformers):BERT的结构 · BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model) · BERT(Bidirect

    2024年02月11日
    浏览(52)
  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):基础知识

    分类目录:《深入理解深度学习》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    2024年02月10日
    浏览(61)
  • 深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):BERT的结构

    分类目录:《深入理解深度学习》总目录 相关文章: · BERT(Bidirectional Encoder Representations from Transformers):基础知识 · BERT(Bidirectional Encoder Representations from Transformers):BERT的结构 · BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model) · BERT(Bidirect

    2024年02月11日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包