【机器学习】随机森林 – Random forest

这篇具有很好参考价值的文章主要介绍了【机器学习】随机森林 – Random forest。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


一、随机森林是什么?

随机森林是一种由 决策树 构成的 集成算法 ,他在很多情况下都能有不错的表现。

要深入理解上面这句话,请阅读我的另外两篇文章:

  1. 【机器学习】决策树 – Decision Tree
  2. 【机器学习】集成学习 - Ensemble Learning

1. 随机森林是一种集成学习算法

随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法。用图来表示他们之间的关系如下:

随机森林,机器学习,机器学习,随机森林,决策树

2. 随机森林的基学习器是决策树

决策树:
随机森林,机器学习,机器学习,随机森林,决策树
决策树是一种很简单的基于 if-then-else 规则的有监督学习算法,上面的图片可以直观的表达决策树的逻辑。


二、随机森林 – Random Forest | RF

随机森林:

随机森林,机器学习,机器学习,随机森林,决策树

随机森林是由很多决策树构成的,不同决策树之间没有关联。

当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。


三、构造随机森林的 4 个步骤

随机森林,机器学习,机器学习,随机森林,决策树

  1. 抽取 N 个样本:一个样本容量为 N 的样本,有放回的抽取 N 次,每次抽取 1 个,最终形成了 N 个样本。这选择好了的 N 个样本用来训练一个决策树,作为决策树根节点处的样本。
  2. 选择 m 个属性:当每个样本有 M 个属性时,在决策树的每个节点需要分裂时,随机从这 M 个属性中选取出 m 个属性,满足条件 m << M 。然后从这 m 个属性中采用某种策略(比如说信息增益)来选择 1 个属性作为该节点的分裂属性。
  3. 构造决策树:决策树形成过程中每个节点都要按照步骤 2 来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
  4. 形成森林:按照步骤1~3建立大量的决策树,这样就构成了随机森林了。

四、随机森林的优缺点

1. 优点

  • 它可以处理很高维度(特征很多)的数据,并且不用降维,无需做特征选择
  • 它可以判断特征的重要程度
  • 可以判断出不同特征之间的相互影响
  • 不容易过拟合
  • 训练速度比较快,容易做成并行方法
  • 实现起来比较简单
  • 对于不平衡的数据集来说,它可以平衡误差。
  • 如果有很大一部分的特征遗失,仍可以维持准确度。

2. 缺点

  • 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。
  • 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的

五、随机森林 4 种实现方法对比测试

随机森林是常用的机器学习算法,既可以用于分类问题,也可用于回归问题。本文对 scikit-learn、Spark MLlib、DolphinDB、XGBoost 四个平台的随机森林算法实现进行对比测试。评价指标包括内存占用、运行速度和分类准确性。

测试结果如下:

随机森林,机器学习,机器学习,随机森林,决策树


六、随机森林的 4 个应用方向

随机森林,机器学习,机器学习,随机森林,决策树

随机森林可以在很多地方使用:文章来源地址https://www.toymoban.com/news/detail-587872.html

  1. 对离散值的分类
  2. 对连续值的回归
  3. 无监督学习聚类
  4. 异常点检测

参考链接

  1. 随机森林 – Random forest

到了这里,关于【机器学习】随机森林 – Random forest的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • (全英语版)处理恶意软件的随机森林分类器算法(Random Forest Classifier On Malware)

    Random Forest Classifier On Malware (copyright 2020 by YI SHA, if you want to re-post this,please send me an email:shayi1983end@gmail.com) (全英语版)处理恶意软件的随机森林分类器算法(Random Forest Classifier On Malware) Overview 随机森林分类器是最近很流行的一种识别恶意软件的机器学习算法,由

    2024年02月12日
    浏览(42)
  • 机器学习——决策树/随机森林

    决策树可以做分类也可以做回归,决策树容易过拟合 决策树算法的基本原理是依据信息学熵的概念设计的(Logistic回归和贝叶斯是基于概率论),熵最早起源于物理学,在信息学当中表示不确定性的度量,熵值越大表示不确定性越大。 ID3算法就是一种通过熵的变化,构造决策

    2024年02月07日
    浏览(37)
  • 机器学习——决策树与随机森林

    机器学习——决策树与随机森林 决策树和随机森林都是常见的机器学习算法,用于分类和回归任务,本文将对这两种算法进行介绍。 决策树算法是一种基于树结构的分类和回归算法。它通过对数据集进行 递归地二分 ,选择最佳的特征进行划分,直到达到终止条件。 决策树

    2024年02月09日
    浏览(37)
  • 机器学习实验——使用决策树和随机森林对数据分类

    使用决策树算法和随机森林算法对income_classification.csv的收入水平进行分类。训练集和测试集的比例是7:3,选取适当的特征列,使得针对测试样本的分类准确率在80%以上,比较2种分类方法的准确率。 数据说明: 特征列: 分类标签列:income 1、读入数据并显示数据的维度和前

    2024年02月04日
    浏览(45)
  • 机器学习算法:线性回归、逻辑回归、决策树和随机森林解析

    引言 机器学习算法是人工智能领域的核心,它们用于解决各种问题,从预测房价到图像分类。本博客将深入探讨四种常见的机器学习算法:线性回归、逻辑回归、决策树和随机森林。 线性回归 什么是线性回归? 线性回归是一种用于建立连续数值输出的机器学习模型的算法。

    2024年02月10日
    浏览(49)
  • Spark MLlib机器学习库(一)决策树和随机森林案例详解

    数据集的下载地址: https://www.kaggle.com/datasets/uciml/forest-cover-type-dataset 该数据集记录了美国科罗拉多州不同地块的森林植被类型,每个样本包含了描述每块土地的若干特征,包括海拔、坡度、到水源的距离、遮阳情况和土壤类型,并且给出了地块对应的已知森林植被类型。 很

    2024年02月12日
    浏览(47)
  • 七个常用的机器学习算法详解:决策树与随机森林的深入解析

    hello宝子们...我们是艾斯视觉擅长ui设计和前端开发10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 在机器学习中,决策树和随机森林是两个非常常用的算法。它们都属于监督学习的范畴,可以用于分类和回归问题。本文将对

    2024年02月19日
    浏览(45)
  • 【机器学习算法】决策树和随机森林在计算机视觉中的应用

    决策树和随机森林在计算机视觉中有着广泛的应用。决策树作为一种简单而强大的分类模型,可以用于图像分类、目标检测、特征提取等任务。它能够根据图像的特征逐层进行判断和分类,从而实现对图像数据的智能分析和理解。随机森林作为一种集成学习方法,利用多棵决

    2024年04月13日
    浏览(58)
  • 【机器学习】R语言实现随机森林、支持向量机、决策树多方法二分类模型

    暑期简单学习了机器学习理论知识,当时跟着B站咕泡老师学的,内容讲得蛮详细,实例代码、资料都比较全面,但是学校Python课程开设在这学期,所以用Python进行数据分析、建模等不是很熟悉,所以决定用之前学过的R语言来实现机器学习。R语言的相关包也都比较完善,所以

    2024年02月04日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包