【Python】随机森林预测

这篇具有很好参考价值的文章主要介绍了【Python】随机森林预测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型,是bagging 思想和随机选择特征的结合。随机森林构造了多个决策树,当需要对某个样本进行预测时,统计森林中的每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果。
随机主要体现在以下两个方面:

1. 随机取特征
2. 随机取样本,让森林中的每棵树既有相似性又有差异性


一、为什么要使用RF

1.优点:

  1. 准确率高运行起来高效(树之间可以并行训练)

  2. 不用降维也可以处理高维特征

  3. 给出了度量特征重要性的方法

  4. 建树过程中内部使用无偏估计

  5. 有很好的处理缺失值的算法

  6. 对于类别不平衡数据能够平衡误差

  7. 能够度量样本之间的相似性,并基于这种相似性对于样本进行聚类和筛选异常值

  8. 提出了一种衡量特征交互性的经验方法(数据中存在冗余特征时能很好的处理)

  9. 可以被扩展到无监督学习

  10. 易于检测模型准确性(如ROC曲线)

以上优点基于总结和个人看法

2.缺点:

  1. 黑盒,不可解释性强,多个随机导致了非常好的效果
  2. 在某些噪声较大的分类和回归问题上会过拟合
  3. 模型会非常大,越准确意味着越多的数
  4. 所生成的决策树量较多,分析较为麻烦

二、使用步骤

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
import seaborn as sns
from six import StringIO
from IPython.display import Image
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import export_graphviz
import pydotplus
import os

2.读入数据

代码如下(示例):

data_train = pd.read_excel("data_train.xlsx")
# data_train.describe().to_excel('data_train_describe.xlsx')
# 数据描述性分析
print(data_train.describe())
# 数据完整性、数据类型查看
print(data_train.info())

运用统计学方法对数据进行整理和描述性分析


3.缺失值数据处理

# 数据缺失值个数
total = data_train.isnull().sum().sort_values(ascending=False)
# 缺失值数据比例
percent = (data_train.isnull().sum() / data_train.isnull().count()).sort_values(ascending=False)
print(total)
print(percent)

上一幅代码是对缺失值数据的统计,下一幅代码是对缺失值数据的填充。

# 缺失值填充
data_train['x1'] = data_train['x1'].fillna(0)
print(data_train.isnull().sum().max())

4.哑变量数据的处理

# 哑变量处理
data_train.loc[data_train['x10'] == '类别1', 'x10'] = 1
data_train.loc[data_train['x10'] == '类别2', 'x10'] = 2
a = pd.get_dummies(data_train['x10'], prefix="x10")
frames = [data_train, a]
data_train = pd.concat(frames, axis=1)
data_train = data_train.drop(columns=['x10'])
data_train.to_excel('data_train_yucl.xlsx')

5.特征变量

# 特征变量x1和标签变量y关系的散点图
var = 'x1'
data = pd.concat([data_train['y'], data_train[var]], axis=1)
data.plot.scatter(x=var, y='y')
plt.show()

# 特征变量x5和标签变量y关系的散点图
var0 = 'x5'
data0 = pd.concat([data_train['y'], data_train[var0]], axis=1)
data0.plot.scatter(x=var0, y='y')
plt.show()


# 特征数据和标签数据拆分
X = data_train.drop(columns=['y'])
y = data_train['y']

特征数据的分析是为了更好的找出变量的重要程度。feature selection 的本质就是对一个给定特征子集的优良性通过一个特定的评价标准(evaluation criterion)进行衡量.通过特征选择,原始特征集合中的冗余(redundant)特征和不相关(irrelevant)特征被除去。而有用特征得以保留。这样模型相同,数据相同,而特征变量的选取不同,将会对结果带来巨大的影响,这也说明了在不同环境下,选取不同的特征变量进行分析的重要性。

随机森林预测,【Python】,python,随机森林,机器学习
随机森林预测,【Python】,python,随机森林,机器学习
随机森林预测,【Python】,python,随机森林,机器学习

6.建模

#  建模
forest = RandomForestRegressor(
    n_estimators=100,
    random_state=1,
    n_jobs=-1)
forest.fit(X_train, Y_train)

score = forest.score(X_validation, Y_validation)
print('随机森林模型得分: ', score)
y_validation_pred = forest.predict(X_validation)

通过调用RandomForestRegressor,我们可以进行建模,当然这也是最基础的建模。

7.验证集结果输出对比

# 验证集结果输出与比对
plt.figure()
plt.plot(np.arange(1000), Y_validation[:1000], "go-", label="True value")
plt.plot(np.arange(1000), y_validation_pred[:1000], "ro-", label="Predict value")
plt.title("True value And Predict value")
plt.legend()
plt.show()

随机森林预测,【Python】,python,随机森林,机器学习

8.决策树

# 生成决策树
# dot_data = StringIO()
with open('./wine.dot','w',encoding='utf-8') as f:
    f=export_graphviz(pipe.named_steps['regressor'].estimators_[0], out_file=f)
# graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
# graph.write_png('tree.png')
# Image(graph.create_png())

9.模型特征重要性

col = list(X_train.columns.values)
importances = forest.feature_importances_
x_columns = ['x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x9', 'x10_类别1', 'x10_类别2']
# print("重要性:", importances)
# 返回数组从大到小的索引值

随机森林预测,【Python】,python,随机森林,机器学习

总结

通过随机森林模型的预测,可以发现所预测数据和真实的数据很接近,并且得分较高。文章来源地址https://www.toymoban.com/news/detail-812491.html

到了这里,关于【Python】随机森林预测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python实现对森林生物量进行随机森林回归预测

    随机森林算法的基本思想是基于多颗决策树的集成学习过程,使用场景广泛,一般的分类回归问题都可以使用。我们以光学影像为例,来估测森林生物量。 1、线性关系:回归关系应该是线性的,即自变量和因变量之间的关系应该是线性的。 2、独立性:自变量之间应该是独立

    2024年02月17日
    浏览(30)
  • 使用python中的随机森林进行数据分类预测

    以下是使用Python中的随机森林进行数据分类预测的示例代码: 这个示例代码使用 sklearn 库中的 RandomForestClassifier 类来构建随机森林模型。首先,将数据集划分为训练集和测试集,然后创建一个随机森林模型,并使用训练集对其进行训练。最后,用测试集数据进行预测,并计算

    2024年02月16日
    浏览(29)
  • python机器学习——分类模型评估 & 分类算法(k近邻,朴素贝叶斯,决策树,随机森林,逻辑回归,svm)

    交叉验证:为了让被评估的模型更加准确可信 交叉验证:将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。 通常情

    2024年02月03日
    浏览(52)
  • 机器学习实战(入门级) ------ Kaggle 泰坦尼克号幸存者预测 (随机森林,KNN,SVM)

    本篇将注重于机器学习预测模型的过程、数据分析以及项目实战落地。对于各种所使用的算法直接调用sklearn包,在这里不会说算法的原理和过程。有想看原理和过程的可以看我这两天整理的学习笔记。 KNN K邻近 学习笔记 各种聚类 学习笔记 决策树与随机森林 学习笔记 SVM 支

    2024年02月03日
    浏览(40)
  • 机器学习实战13-超导体材料的临界温度预测与分析(决策树回归,梯度提升回归,随机森林回归和Bagging回归)

    大家好,我是微学AI,今天给大家介绍一下机器学习实战13-超导体材料的临界温度预测与分析(决策树回归,梯度提升回归,随机森林回归和Bagging回归),这几天引爆网络的科技大新闻就是韩国科研团队宣称发现了室温超导材料-LK-99,这种材料在常压情况下,127摄氏度就可以达到超

    2024年02月14日
    浏览(42)
  • 利用Python对含有地理信息的遥感影像,使用随机森林模型回归,并保存预测影像

    最近在做随机森林回归实验时,遇到了一个问题: 在做回归时,用的是excel点数据做的回归,像这样: 但是如何把这个训练好的模型应用到整幅含有地理信息的遥感影像上去,并保存这个预测图像呢?对这个问题,展开了一些思考,废话不多说,直接上代码。 导入数据,这

    2024年04月16日
    浏览(30)
  • Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化...

    自2019年12月以来,传染性冠状病毒疾病2019(COVID-19)迅速席卷全球,并在短短几个月内达到了大流行状态 ( 点击文末“阅读原文”获取完整 代码数据 )。 相关视频 迄今为止,全球已报告了超过6800万例病例。为了应对这一大流行病,实施了公共卫生政策,通过实施“居家令

    2024年02月10日
    浏览(23)
  • 机器学习随机森林笔记

            随机森林(Random Forests)是一种集成学习方法,用于解决分类和回归问题。它是由Leo Breiman和Adele Cutler于2001年提出的,是集成学习中最受欢迎和广泛应用的算法之一。         随机森林通过组合多个决策树来进行预测。每个决策树都是独立地从原始数据的随机

    2024年02月15日
    浏览(32)
  • 机器学习——决策树/随机森林

    决策树可以做分类也可以做回归,决策树容易过拟合 决策树算法的基本原理是依据信息学熵的概念设计的(Logistic回归和贝叶斯是基于概率论),熵最早起源于物理学,在信息学当中表示不确定性的度量,熵值越大表示不确定性越大。 ID3算法就是一种通过熵的变化,构造决策

    2024年02月07日
    浏览(27)
  • 机器学习笔记:随机森林

    集成学习通过构建多个学习器采用加权的方式来完成学习任务 一般来讲,多个学习器同属于一种模型,比如决策树,线性模型,而不会交叉用多种模型 为了保证集成学习的有效性,多个弱分类器之间应该满足两个条件 准确性 :个体学习器要有一定的准确性,这样才能有好的

    2024年02月16日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包