【机器学习基础】集成学习-Toy模板网

这篇具有很好参考价值的文章主要介绍了【机器学习基础】集成学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

🚀个人主页：为梦而生~ 关注我一起学习吧！
💡专栏：机器学习欢迎订阅！相对完整的机器学习基础教学！
⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！
💡往期推荐：
【机器学习基础】一元线性回归（适合初学者的保姆级文章）
【机器学习基础】多元线性回归（适合初学者的保姆级文章）
【机器学习基础】对数几率回归（logistic回归）
【机器学习基础】正则化
【机器学习基础】决策树（Decision Tree）
【机器学习基础】K-Means聚类算法
【机器学习基础】DBSCAN
【机器学习基础】支持向量机
💡本期内容：
集成学习（Ensemble Learning）是一种通过结合多个弱分类器的预测结果，来得到一个更强大的分类器的方法。它基于“群体智慧”，通过对多个模型结果的综合，可以缓解过度拟合和欠拟合等问题，并提升预测性能。常见的集成学习算法包括 Boosting、Bagging、随机森林等。其中，Boosting 是一种将多个弱分类器变成强分类器的算法，Bagging 是一种基于 Bootstrap 取样的集成学习算法，随机森林则是一种结合决策树和 Bagging 的方法。集成学习在机器学习和数据挖掘领域有着广泛的应用，例如在图像分类、自然语言处理、信用风险评估等任务中表现出了良好的性能。

1 个体与集成

集成学习(ensemble learning)通过构建并结合多个学习器来提升性能
【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘

1.1 集成个体

考虑一个简单的例子，在二分类问题中，假定3个分类器在三个样本中的表现如下图所示，其中√ 表示分类正确，X 号表示分类错误，集成的结果通过投票产生。

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘
通过上表我们可以发现一个问题，如果每个学习器分类结果都是相同的，那么集成之后跟一个学习器其实差不多，就像是(b)；

但是如果“八仙过海各显神通”，各个学习器在集成之后尽可能的显现了自己的能力，并且集成后的强分类器的性能还得到了提升，那么我们就认为集成的效果是好的，例如(a);

除此之外，如果各个学习器集成到一起并没有使得总的分类性能得到提升，我们认为这个集群起了负作用，例如©。

于是，我们得出结论：集成个体应好而不同

1.2 集成错误率简单分析

考虑二分类问题，假设基分类器的错误率为：

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘

假设集成通过简单投票法结合𝑇个分类器，若有超过半数的基分类器正确则分类就正确

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘

假设基分类器的错误率相互独立，则由Hoeffding不等式可得集成的错误率为：

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘

上式显示，在一定条件下，随着集成分类器数目的增加，集成的错误率将指数级下降，最终趋向于0

注意：

上面的分析有一个关键假设：基学习器的误差相互独立
现实任务中，个体学习器是为解决同一个问题训练出来的，显然不可能互相独立
事实上，个体学习器的“准确性”和“多样性”本身就存在冲突
如何产生“好而不同”的个体学习器是集成学习研究的核心

2 Boosting

Boosting是一种集成学习算法，旨在通过训练一系列的弱分类器（即性能稍好于随机猜测的分类器），将它们组合成一个强分类器（即性能显著提升的分类器）。与其他集成学习算法相比，Boosting通过迭代的方式逐步优化模型，提高预测性能。

Boosting的核心思想是通过对训练数据集进行加权，重点训练那些之前分类效果不佳的样本，使得后续的弱分类器能够更加关注这些“困难”样本。通过反复迭代，多个弱分类器被训练得到，并通过加权投票或加权求和的方式，综合它们的预测结果，得到最终的分类器。

常见的 Boosting 算法包括 AdaBoost、Gradient Boosting 和 XGBoost。其中，AdaBoost（Adaptive Boosting）通过调整样本的权重来迭代训练弱分类器。Gradient Boosting 是一种基于梯度下降的 Boosting 算法，通过最小化损失函数的负梯度来进一步优化模型。XGBoost 是一种基于 Gradient Boosting 的高性能实现，通过结合正则化和特征子抽样等技术，提升了模型的泛化能力和训练速度。

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘

伪代码：

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘

Boosting族算法最著名的代表是AdaBoost

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘

2.1 AdaBoost推导

基学习器的线性组合：

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘
最小化指数损失函数

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘
若𝐻(𝑥)能令指数损失函数最小化，则上式对𝐻(𝑥)的偏导值为0，即

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘

若𝐻(𝑥)能令指数损失函数最小化，则上式对𝐻(𝑥)的偏导值为0，即

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘

𝑠𝑖𝑔𝑛(𝐻(𝑥))达到了贝叶斯最优错误率，说明指数损失函数是分类任务原来0/1损失函数的一致的替代函数。

当基分类器ℎ_𝑡基于分布𝐷_𝑡产生后，该基分类器的权重𝛼𝑡应使得𝛼_tℎ_𝑡最小化指数损失函数

【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘
令指数损失函数的导数为0，即

在获得𝐻𝑡−1之后的样本分布进行调整，使得下一轮的基学习器ℎ𝑡能纠正𝐻𝑡−1的一些错误，理想的ℎ𝑡能纠正全部错误
【机器学习基础】集成学习,机器学习,机器学习,集成学习,人工智能,算法,数据挖掘
泰勒展开近似为