随机森林(RandomForestClassifier)----概述与应用

这篇具有很好参考价值的文章主要介绍了随机森林(RandomForestClassifier)----概述与应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

随机森林

对于决策树来说,当数据集的特征较多时,构造的决策树往往深度很大,很容易造成对训练数据的过拟合

随机森林本质上是很多决策树的集合,其中每棵树都和其它树略有不同。尽管决策树可能会出现过拟合的特点,但我们可以对这些树的结果取平均值来降低过拟合,这样既可以减少过拟合,又能保持树的预测能力

构造随机森林

构造随机森林通过调整每个树的数据集特征选择来构造均不相同的决策树

由于使用了自主采样,随机森林中构造每颗决策树的数据集都是略有不同的。由于每个结点的特征选择,每颗树的每次划分都是基于特征的不同子集。这两种方法共同保证随机森林中所有树都不相同

自主采样(bootstrap sample)

随机森林中的每颗树在构造时是彼此完全独立的, 均随机选择进行构建,确保树的唯一性

从构造一棵树开始,首先对数据进行自主采样(bootstrap sample)。即从 n 个大小的数据集中有放回地抽取一个样本,重复多次抽取 n 次,这样就会创建一个与原数据集大小相同地数据集,但有些数据可能会缺失,有些会出现重复

#假如我们要创建列表['a', 'b', 'c', 'd']的自助采样
#可能出现的采样数据集为
#['a', 'b', 'b', 'd']、
#['a', 'b', 'b', 'c']、
#['b', 'b', 'b', 'd']、
#['a', 'c', 'c', 'd']等
特征子集随机选择

在具体的算法部分,随机森林对决策树的算法稍作修改

在每个结点处,算法随机选择 特征的一个子集 ,并对其中的一个特征寻找最佳测试,而不是向决策树那样对所有特征都寻找最佳测试

其中选择特征个数由 max_features 指定,每个结点中特征子集的选择是相互独立的,这样树的每个结点可以使用特征的不同子集来做出决策

其中该参数 max_features 较为重要:

  • 若 max_features = n_features(即最大特征数即为总特征数), 则每次划分均要考虑数据集的所有特征,等于未添加特征选择的随机性;
  • 若 max_features 较大,那么随机森林中的树将会十分相似,利用最独特的特征可以轻松拟合数据;
  • 若 max_features 较小,那么随机森林中的树差异将会很大,为了很好地拟合数据,每颗树的深度都要很大
随机森林中的回归问题与分类问题

对于回归问题,我们可以对这些结果取平均值作为最终预测。

对于分类问题,则采用了"软投票"(soft voting)策略。即每个算法做出"软"预测,给出每个可能的输出标签的概率。对所有树的预测概率取平均值,然后将概率最大的类别作为预测结果。

sklearn实现、分析随机森林

from sklearn.ensemble import RandomForestClassifier      #引入随机森林分类器
from sklearn.datasets import make_moons         #引入sklearn中的数据集
from sklearn.model_selection import train_test_split     #引入拆分数据集方法


X, y = make_moons(n_samples=100, noise=0.25, random_state=3)       #随机生成100个数据点

#拆分数据集为训练集与测试集, "stratify"的意思为分层
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

#"estimators"的意思估计量、估计函数
forest = RandomForestClassifier(n_estimators=5, random_state=2)
forest.fit(X_train, y_train)

print(forest.estimators_)     #森林的树均被保存在forest.estimators_中
[DecisionTreeClassifier(max_features='auto', random_state=1872583848), 
DecisionTreeClassifier(max_features='auto', random_state=794921487), 
DecisionTreeClassifier(max_features='auto', random_state=111352301), 
DecisionTreeClassifier(max_features='auto', random_state=1853453896), 
DecisionTreeClassifier(max_features='auto', random_state=213298710)]

由上可见,共存在5棵决策树,符合情理。

我们将每颗树学到的决策边界可视化,也将它们的总预测(即整个森林的预测)可视化

import matplotlib.pyplot as plt  #导入绘图包
import mglearn           #导入mglearn包

#生成 2 行 3 列的6个子图,子图的大小为20*10
fig, axes = plt.subplots(2, 3, figsize=(20, 10))



#zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
#如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表。
#参数 axes.ravel()表示 6 个画布, forest.estimators_表示 5 个森林, enumerate()方法,输出每个元素的下标和其对应的值
for i, (ax, tree) in enumerate(zip(axes.ravel(), forest.estimators_)):
    ax.set_title('Tree {}'.format(i))     #设置图形标题
    #画出树的部分图,数据为训练集,树为随机森林生成的子树,画在ax子图中
    mglearn.plots.plot_tree_partition(X_train, y_train, tree, ax=ax)

#画出随机森林的分界线
mglearn.plots.plot_2d_separator(forest, X_train, fill=True, ax=axes[-1, -1], alpha=.4)

#设置标题
axes[-1, -1].set_title('Random Forest')
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train)         #添加数据点, 横坐标,纵坐标,结果
[<matplotlib.lines.Line2D at 0x268d9ca6d68>,
 <matplotlib.lines.Line2D at 0x268d9cb2470>]

随机森林(RandomForestClassifier)----概述与应用

由上图可以看到,这5棵树学到的决策边界大不相同

每颗树都犯了一些错误,因为这里画出的一些训练点实际上并没有包含在这些数的训练集中,原因是自主采样

随机森林比单独每一棵树的过拟合都要小,给出的决策边界也更符合直觉。在任何实际应用中,我们会用到更多数(成百上千),从而得到更平滑的效果

假如我们把包含100棵树的随机森林应用在乳腺癌数据上,如下:

from sklearn.datasets import load_breast_cancer       #导入乳腺癌数据包


cancer = load_breast_cancer()        #加载乳腺癌数据集

#拆分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)

forest = RandomForestClassifier(n_estimators=100, random_state=0)      #生成随机森林
forest.fit(X_train, y_train)         #训练数据


print('Accuracy on training set: {:.3f}'.format(forest.score(X_train, y_train)))
print('Accuracy on test set: {:.3f}'.format(forest.score(X_test, y_test)))         #输出结果
Accuracy on training set: 1.000
Accuracy on test set: 0.972

在没有调节任何参数的情况下,随机森林的精度为 97%, 比线性模型或单颗决策树都要好,通常随机森林默认参数就可给出很好的结果

与决策树类似,随机森林也可以给出特征重要性,计算方法是将森林中所有数的特征重要性求和并取平均,通常随机森林给出的特征重要性更为可靠

import matplotlib.pyplot as plt
import numpy as np

def plot_feature_importance_cancer(model):
    
    #获取到特征的个数
    n_features = cancer.data.shape[1]
    
    #根据重要性进行绘图
    plt.barh(range(n_features), model.feature_importances_, align='center')
    
    plt.yticks(np.arange(n_features), cancer.feature_names)
    plt.xlabel('Feature importance')
    plt.ylabel('Feature')

#绘图画出重要性
plot_feature_importance_cancer(forest)

随机森林(RandomForestClassifier)----概述与应用

由上图可见,随机森林比单颗树更能从总体把握数据的特征

优点、缺点及参数

从本质上来看,随机森林拥有决策树的所有优点,同时弥补了决策树的一些缺陷,树越多,其鲁棒性越好,但要注意内存情况

随机森林不适合处理维度非常高的稀疏矩阵,另外训练和预测的速度也较慢

分类问题中,max_features = sqrt(n_features); 回归问题中,max_features = n_features;对于参数的设置,一般采取默认值即可文章来源地址https://www.toymoban.com/news/detail-413137.html

到了这里,关于随机森林(RandomForestClassifier)----概述与应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习算法】决策树和随机森林在计算机视觉中的应用

    决策树和随机森林在计算机视觉中有着广泛的应用。决策树作为一种简单而强大的分类模型,可以用于图像分类、目标检测、特征提取等任务。它能够根据图像的特征逐层进行判断和分类,从而实现对图像数据的智能分析和理解。随机森林作为一种集成学习方法,利用多棵决

    2024年04月13日
    浏览(44)
  • 模型应用系实习生-模型训练笔记(更新至线性回归、Ridge回归、Lasso回归、Elastic Net回归、决策树回归、梯度提升树回归和随机森林回归)

    本次训练的变量是一致对应的,训练准备通过后,后续建模都不会有报错的! scikit-learn包以及镜像 必须全部为数字类型且无空值才能进行训练,关于非数据类型需要进行相对处理例如:可以采用独热编码或者label编码进行处理。 本文演示的是pandas 的dataframe数据类型的操作,

    2024年02月06日
    浏览(31)
  • 基于随机森林的机器启动识别,基于随机森林的智能家居电器启动识别

    目录 背影 摘要 随机森林的基本定义 随机森林实现的步骤 基于随机森林的机器启动识别 代码下载链接: 基于随机森林的家用电器启动识别,基于RF的电器启动识别,基于随机森林的智能家居启动检测-深度学习文档类资源-CSDN文库 https://download.csdn.net/download/abc991835105/88245699

    2024年02月11日
    浏览(32)
  • python实现对森林生物量进行随机森林回归预测

    随机森林算法的基本思想是基于多颗决策树的集成学习过程,使用场景广泛,一般的分类回归问题都可以使用。我们以光学影像为例,来估测森林生物量。 1、线性关系:回归关系应该是线性的,即自变量和因变量之间的关系应该是线性的。 2、独立性:自变量之间应该是独立

    2024年02月17日
    浏览(30)
  • 6、机器学习之随机森林

    使用更复杂的机器学习算法。 本课程所需数据集夸克网盘下载链接:https://pan.quark.cn/s/9b4e9a1246b2 提取码:uDzP 决策树给你留下了一个困难的选择。一个深度很大、有很多叶子的树会因为每个预测都来自其叶子上仅有的几个房屋的历史数据而过拟合。但是一个浅树,叶子较少,

    2024年01月19日
    浏览(35)
  • 机器学习随机森林笔记

            随机森林(Random Forests)是一种集成学习方法,用于解决分类和回归问题。它是由Leo Breiman和Adele Cutler于2001年提出的,是集成学习中最受欢迎和广泛应用的算法之一。         随机森林通过组合多个决策树来进行预测。每个决策树都是独立地从原始数据的随机

    2024年02月15日
    浏览(32)
  • 机器学习——决策树/随机森林

    决策树可以做分类也可以做回归,决策树容易过拟合 决策树算法的基本原理是依据信息学熵的概念设计的(Logistic回归和贝叶斯是基于概率论),熵最早起源于物理学,在信息学当中表示不确定性的度量,熵值越大表示不确定性越大。 ID3算法就是一种通过熵的变化,构造决策

    2024年02月07日
    浏览(27)
  • 机器学习笔记:随机森林

    集成学习通过构建多个学习器采用加权的方式来完成学习任务 一般来讲,多个学习器同属于一种模型,比如决策树,线性模型,而不会交叉用多种模型 为了保证集成学习的有效性,多个弱分类器之间应该满足两个条件 准确性 :个体学习器要有一定的准确性,这样才能有好的

    2024年02月16日
    浏览(50)
  • 【机器学习】随机森林

    集成学习方法通过建立几个模型组合来解决单一预测问题。它的工作原理就是生成多个分类器/模型,各自独立地学习和做出预测。这些预测最后结合成组合预测,因此优于任何一个单分类做出的预测。 在机器学习中,随机森林是一个包含多个决策树的分类器。并且其输出的

    2024年02月05日
    浏览(40)
  • 分类算法系列⑥:随机森林

    目录 集成学习方法之随机森林 1、集成学习方法 2、随机森林 3、随机森林原理 为什么采用BootStrap抽样 为什么要有放回地抽样 4、API 5、代码 代码解释 结果 6、随机森林总结   🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家博主,专注于Java领域学习,擅长web应用

    2024年02月10日
    浏览(22)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包