【机器学习笔记】8 决策树

这篇具有很好参考价值的文章主要介绍了【机器学习笔记】8 决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

决策树原理

决策树是从训练数据中学习得出一个树状结构的模型。
决策树属于判别模型。
决策树是一种树状结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。
以下小美相亲的例子就是决策树
【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘
出有用的规则,用于对新数据进行预测。
决策树算法属于监督学习方法。 决策树归纳的基本算法是贪心算法,自顶向下来构建决策树。
贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。
在决策树的生成过程中,分割方法即属性选择的度量是关键。

  • 决策树的优点:
    推理过程容易理解,计算简单,可解释性强。
    比较适合处理有缺失属性的样本。
    可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,
    减少变量的数目提供参考。
  • 决策树的缺点:
    容易造成过拟合,需要采用剪枝操作。
    忽略了数据之间的相关性。
    对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值的特征。
  • 决策树的三种基本类型
    建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数 , 建立决策树主要有以下三种算法: ID3(IterativeDichotomiser)、C4.5、CART(Classification And Regression Tree)。
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树

ID3算法

ID3 算法最早是由罗斯昆(J. Ross Quinlan)于1975年提出的一种决策树构建算法,算法的核心是“信息熵”,期望信息越小,信息熵越大,样本纯度越低。。
ID3 算法是以信息论为基础,以信息增益为衡量标准,从而实现对数据的归纳分类。
ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。

ID3算法的大致步骤

  1. 初始化特征集合和数据集合;
  2. 计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当前决策节点;
  3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不同分支的数据集合);
  4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
  • ID3算法的缺点
    ID3 没有剪枝策略,容易过拟合;
    信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1;
    只能用于处理离散分布的特征;
    没有考虑缺失值

C4.5算法

  • C4.5 算法是 Ross 对 ID3 算法的改进。
    信息增益率来选择属性。ID3选择属性用的是子树的信息增益,而C4.5用的是信息增益率
    在决策树构造过程中进行剪枝
    非离散数据也能处理。
    能够对不完整数据进行处理。
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树

过拟合的原因:
为了尽可能正确分类训练样本,节点的划分过程会不断重复直到不能再分,这样就可能对训练样本学习的“太好”了,把训练样本的一些特点当做所有数据都具有的一般性质,从而导致过拟合。
剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning)通过剪枝处理去掉一些分支来降低过拟合的风险。

预剪枝(prepruning)

预剪枝不仅可以降低过拟合的风险而且还可以减少训练时间,但另一方面它是基于“贪心”策略,会带来欠拟合风险。
【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树

  • 剪枝策略
    在节点划分前来确定是否继续增长,及早停止增长
    主要方法有:
    • 节点内数据样本低于某一阈值;
    • 所有节点特征都已分裂;
    • 节点划分前准确率比划分后准确率高。
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树

后剪枝

在已经生成的决策树上进行剪枝,从而得到简化版的剪枝决策树。后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下,后剪枝的欠拟合风险更小,泛化性能往往优于预剪枝决策树

  • 剪枝方法
    在已经生成的决策树上进行剪枝,从而得到简化版的剪枝决策树。
    C4.5 采用的悲观剪枝方法,用递归的方式从低往上针对每一个非叶子节点,评估用一个最佳叶子节点去代替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降,则这棵子树就可以被替换掉。C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。
    后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
  • 缺点
    • 剪枝策略可以再优化;
    • C4.5 用的是多叉树,用二叉树效率更高;
    • C4.5 只能用于分类;
    • C4.5 使用的熵模型拥有大量耗时的对数运算,连续值还有排序运算;
    • C4.5 在构造树的过程中,对数值属性值需要按照其大小进行排序,从中选择一个分割点,所以只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。

CART算法

Classification and Regression Tree (CART) 是决策树的一种。
基尼指数来选择属性(分类),或用均方差来选择属性(回归)。
顾名思义,CART算法既可以用于创建分类树,也可以用于创建回归树,两者在构建的过程中稍有差异。
如果目标变量是离散的,称为分类树
如果目标变量是连续的,称为回归树

CART算法——分类

【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
例子
【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树

CART算法——回归

均方差来选择属性
对于连续值的处理,CART 分类树采用基尼系数的大小来度量特征的各个划分点。
对于任意划分特征 𝐴,对应的任意划分点𝑠 两边划分成的数据集 𝐷1和𝐷2 ,求出使𝐷1和𝐷2各自集合的均方差最小,同时 𝐷1和𝐷2的均方差之和最小所对应的特征和特征值划分点。表达式为:
【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树
其中,𝑐1为𝐷1数据集的样本输出均值,𝑐2为𝐷2 数据集的样本输出均值。

  • 预测方式
    对于决策树建立后做预测的方式,上面讲到了 CART 分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。
    而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果

CART算法采用一种“基于代价复杂度的剪枝”方法进行后剪枝,这种方法会生成一系列树,每个树都是通过将前面的树的某个或某些子树替换成一个叶节点而得到的,这一系列树中的最后一棵树仅含一个用来预测类别的叶节点。然后用一种成本复杂度的度量准则来判断哪棵子树应该被一个预测类别值的叶节点所代替。
这种方法需要使用一个单独的测试数据集来评估所有的树,根据它们在测试数据集熵的分类性能选出最佳的树。文章来源地址https://www.toymoban.com/news/detail-830709.html

  • CART剪枝具体流程:
    (1)计算每一个结点的条件熵
    (2)递归的从叶子节点开始往上遍历,减掉叶子节点,然后判断损失函数的值是否减少,如果减少,则将父节点作为新的叶子节点
    (3)重复(2),直到完全不能剪枝.
    【机器学习笔记】8 决策树,机器学习,机器学习,笔记,决策树

决策树的差异

  • 划分标准的差异
    ID3 使用信息增益偏向特征值多的特征,C4.5 使用信息增益率克服信息增益的缺点,偏向于特征值小的特征,CART 使用基尼指数克服, C4.5 需要求 log 的巨大计算量,偏向于特征值较多的特征。
  • 使用场景的差异
    ID3 和 C4.5 都只能用于分类问题,CART 可以用于分类和回归问题;ID3 和 C4.5 是多叉树,速度较慢,CART 是二叉树,计算速度很快;
  • 样本数据的差异
    ID3 只能处理离散数据且缺失值敏感,C4.5 和 CART 可以处理连续性数据且有多种方式处理缺失值;从样本量考虑的话,小样本建议 C4.5、大样本建议 CART。C4.5 处理过程中需对数据集进行多次扫描排序,处理成本耗时较高,而 CART 本身是一种大样本的统计方法,小样本处理下泛化误差较大 ;
  • 样本特征的差异
    ID3 和 C4.5 层级之间只使用一次特征,CART 可多次重复使用特征;
  • 剪枝策略的差异
    ID3 没有剪枝策略,C4.5 是通过悲观剪枝策略来修正树的准确性,而 CART 是通过代价复杂度剪枝

到了这里,关于【机器学习笔记】8 决策树的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习——决策树/随机森林

    决策树可以做分类也可以做回归,决策树容易过拟合 决策树算法的基本原理是依据信息学熵的概念设计的(Logistic回归和贝叶斯是基于概率论),熵最早起源于物理学,在信息学当中表示不确定性的度量,熵值越大表示不确定性越大。 ID3算法就是一种通过熵的变化,构造决策

    2024年02月07日
    浏览(39)
  • 【机器学习】决策树(理论)

    决策树(Decision Tree)是一种分类和回归方法,是基于各种情况发生的所需条件构成决策树,以实现期望最大化的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。它的运行机制非常通俗易懂,因此被誉为机器学习中,最“友好”的算法。下面通过一个

    2024年02月04日
    浏览(52)
  • 机器学习:分类、回归、决策树

            如:去银行借钱,会有借或者不借的两种类别         如:去银行借钱,预测银行会借给我多少钱,如:1~100000之间的一个数值         为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个 “ 最佳 ” 的指标 叫

    2024年02月02日
    浏览(49)
  • 机器学习实战-决策树

    1.概念         决策树(Decision Tree)是在已知各种情况发生概率的基础上 ,通过构成决策树来求取净现值的期望值大于等于零的 概率 ,评价 项目 风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决

    2024年04月16日
    浏览(34)
  • 机器学习模型—决策树

    决策树是最强大和最流行的算法之一。Python 决策树算法属于监督学习算法的范畴。它适用于连续输出变量和分类输出变量也就是可以处理分类和回归任务。在本文中,我们将在 UCI 上提供平 衡秤体重和距离数据 库上用 Python 算法实现决策树。 决策树算法,是模拟人们做决策

    2024年03月14日
    浏览(90)
  • 【机器学习】决策树实验报告

    三、实验目的 利用决策树算法对数据进行训练建模,并实现输入一组数据就能预测出结果。 四、实验内容 1 、实验背景与问题提出 决策树是一种非参数化监督学习方法,用于分类和回归。目标是创建一个模型,通过学习从数据功能推断出的简单决策规则来预测目标变量的值

    2024年02月08日
    浏览(54)
  • 机器学习(十六):决策树

    全文共18000余字,预计阅读时间约36~60分钟 | 满满干货,建议收藏! 树模型是目前机器学习领域最为重要的模型之一,同时它也是集成学习中最常用的基础分类器。 与线性回归、逻辑回归等算法不同,树模型并不只是一种特定的算法,而是一种涵盖了多种算法的模型族。 树模

    2024年02月16日
    浏览(14)
  • 机器学习小结之决策树

    决策树(Decision Trees) 是一种基于树结构的机器学习算法,它是近年来最常见的数据挖掘算法,可以用于分类和回归问题。 它可以作为预测模型,从样本的观测数据推断出该样本的预测结果。 按预测结果的差异,决策树学习可细分两类。 分类树,其预测结果仅限于一组离散数

    2024年02月12日
    浏览(33)
  • 机器学习 | 决策树算法

    1、树模型         决策树:从根节点开始一步步走到叶子节点(决策)。所有的数据最终都会落到叶子节点, 既可以做分类也可以做回归。         在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上

    2024年02月07日
    浏览(45)
  • 经典机器学习算法——决策树

    优质博文:IT-BLOG-CN 树模型是机器学习中最常用的一类模型,包括随机森林、AdaBoost、GBDT(XGBoost和Lightgbm)等,基本原理都是通过集成弱学习器的即式来进一步提升准确度。这里的弱学习器包括线性模型和决策树模型,本期介绍的就是决策树模型(DecisionTree)。 决策树属于有

    2024年04月29日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包