机器学习笔记:随机森林

这篇具有很好参考价值的文章主要介绍了机器学习笔记:随机森林。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 集成学习

  • 集成学习通过构建多个学习器采用加权的方式来完成学习任务
  • 一般来讲,多个学习器同属于一种模型,比如决策树,线性模型,而不会交叉用多种模型
  • 为了保证集成学习的有效性,多个弱分类器之间应该满足两个条件
    • 准确性:个体学习器要有一定的准确性,这样才能有好的效果
    • 多样性:学习器之间要有一些差异,完全相同的几个学习器集成起来后几乎不会有提升

2 随机森林

机器学习笔记:随机森林,机器学习,机器学习,笔记,随机森林

  • 随机森林是集成学习中Bagging方式的代表
    • 采样多组训练集,并行训练弱分类器
  • 相对于决策树而已,有一个很重要的优点:防止过拟合
    • 防止过拟合的方式与Dropout有点类似
      • 随机选择样本作为训练集(Bootstrap Sampling)
      • 训练集中特征随机选择

2.1 Bootstrap Sampling

  • Bootstrap Sampling 是一种统计学上的采样方法
    • 对于有m个样本的数据集D,进行m次有放回采样得到数据集D' 
    • 这样D与D'的大小一致。
    • 有放回采样使得中D'有的样本重复出现,有的样本则没有出现
  • 某个样本在m次采样中使用没有被采到的概率为
    • 当m趋近于∞时
      • 机器学习笔记:随机森林,机器学习,机器学习,笔记,随机森林
    • ——>D中样本差不多63.2%在D'中
  • 用这种方式采样B个样本集
    • 对这B个样本集分别训练一个基学习器

2.2 决策

决策时,在分类任务中通常采用投票法,若两个类别票数一样,最简单的做法是随机选择一个;

回归任务则一般使用平均法

机器学习笔记:随机森林,机器学习,机器学习,笔记,随机森林

2.3 基学习器和随机森林

  • 早期的Bagging方法是每个基学习器都是一个决策树,完全按照决策树的规则建树
  • 随机森林则在Bagging的基础继续采用特征随机,每个基学习器只对在k个特征构成的子集下进行建树
    • 随机选择k个特征
    • 一般k=logd
    • ——>这样构建的决策树相对于完整的决策树是一个“浅决策树”,这样就构成了特征的随机性

3 随机森林的偏差和方差(bias,variance)

  • 因为基学习器相同,因此各个学习器有近似的Bais和Variance
  • bias
    • 机器学习笔记:随机森林,机器学习,机器学习,笔记,随机森林
    • 机器学习笔记:随机森林,机器学习,机器学习,笔记,随机森林
  • Variance
    • 如果各个基学习器独立
    • 机器学习笔记:随机森林,机器学习,机器学习,笔记,随机森林
    • Bagging通过降低Variance来防止过拟合
    • 严格来说每个学习器之间不严格独立,所以Variance的降低会小于B倍

    参考内容:【机器学习】随机森林 (qq.com) 文章来源地址https://www.toymoban.com/news/detail-576027.html

到了这里,关于机器学习笔记:随机森林的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习】python实现随机森林

    目录 一、模型介绍 1. 集成学习 2. bagging 3. 随机森林算法 二、随机森林算法优缺点 三、代码实现 四、疑问 五、总结 本文使用mnist数据集,进行随机森林算法。 集成学习通过训练学习出多个估计器,当需要预测时通过结合器将多个估计器的结果整合起来当作最后的结果输出。

    2024年02月05日
    浏览(46)
  • R语言机器学习篇——随机森林

    参考书籍:陈强.机器学习及R应用.北京:高等教育出版社,2020 随机森林属于集成学习的方法,也称为组台学习,本章介绍随机森林与它的特例方法,装袋法,并分别以例子的形式讨论回归问题与分类问题的随机森林方法。 对于回归问题,调用MASS包数据框Boston作为数据集,分析

    2024年02月05日
    浏览(45)
  • 机器学习框架sklearn之随机森林

    集成学习通过建立几个模型组合来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立的学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是

    2023年04月22日
    浏览(41)
  • 机器学习(十八):Bagging和随机森林

    全文共10000余字,预计阅读时间约30~40分钟 | 满满干货(附数据及代码),建议收藏! 本文目标:理解什么是集成学习,明确Bagging算法的过程,熟悉随机森林算法的原理及其在Sklearn中的各参数定义和使用方法 代码及数据集下载点这里 在机器学习的众多算法中,随机森林无疑是

    2024年02月13日
    浏览(51)
  • 机器学习——决策树与随机森林

    机器学习——决策树与随机森林 决策树和随机森林都是常见的机器学习算法,用于分类和回归任务,本文将对这两种算法进行介绍。 决策树算法是一种基于树结构的分类和回归算法。它通过对数据集进行 递归地二分 ,选择最佳的特征进行划分,直到达到终止条件。 决策树

    2024年02月09日
    浏览(36)
  • 机器学习十大算法之七——随机森林

    集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个横型,集成所有模型的建模结果,基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场

    2024年02月11日
    浏览(39)
  • 【机器学习】随机森林 – Random forest

    随机森林是一种由 决策树 构成的 集成算法 ,他在很多情况下都能有不错的表现。 要深入理解上面这句话,请阅读我的另外两篇文章: 【机器学习】决策树 – Decision Tree 【机器学习】集成学习 - Ensemble Learning 随机森林属于 集成学习 中的 Bagging (Bootstrap AGgregation 的简称)

    2024年02月16日
    浏览(44)
  • sklearn机器学习库(二)sklearn中的随机森林

    集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果, 以此来获取比单个模型更好的回归或分类表现 。 多个模型集成成为的模型叫做集成评估器(ensemble estimator),组成集成评估器的每个模型都叫做基评估器(base estimator)。通常来说,有三类集成算法:

    2024年02月12日
    浏览(45)
  • 机器学习5—分类算法之随机森林(Random Forest)

    随机森林(Random Forest) 是Bagging(一种并行式的集成学习方法)的一个拓展体,它的基学习器固定为决策树,多棵树也就组成了森林,而“随机”则在于选择划分属性的随机,随机森林在训练基学习器时,也采用有放回采样的方式添加样本扰动,同时它还引入了一种属性扰动

    2024年02月03日
    浏览(40)
  • 机器学习实验——使用决策树和随机森林对数据分类

    使用决策树算法和随机森林算法对income_classification.csv的收入水平进行分类。训练集和测试集的比例是7:3,选取适当的特征列,使得针对测试样本的分类准确率在80%以上,比较2种分类方法的准确率。 数据说明: 特征列: 分类标签列:income 1、读入数据并显示数据的维度和前

    2024年02月04日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包