决策树--分类决策树

这篇具有很好参考价值的文章主要介绍了决策树--分类决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、介绍

① 定义

分类决策树通过树形结构来模拟决策过程,决策树由结点和有向边组成。结点有两种类型:内部结

点和叶结点。内部结点表示一个特征或属性叶子节点表示一个类

② 生成过程

用决策树分类,从根结点开始,对样本的某一特征进行测试,根据测试结果,将样本分配到其他子

结点;这时,每一个子结点对应着该特征的一个取值,如此递归地对样本进行分配,直至达到叶结

点。最后将实例分到叶结点的类中

③ 示意图

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

2、特征选择--信息增益或信息增益比

(1)信息增益

① 熵的定义

信息增益是由熵构建而成,熵起源于热力学,后来由香农引用到信息论中,表示的是「随机变量的

不确定性」,不确定性越大,代表着熵越大。

由于熵和随机变量的分布有关,所以我们就可以写成:

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

​​​​​​​​那么什么时候的熵最大呢? 结论是:随机变量的取值等概率分布时,相应的熵最大。 

② 信息增益算法

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

​可以看出,信息增益就是经验熵和经验条件熵的差值,他代表的是指:得知特征A而使类 Y的信息

的不确定性减少的程度。 

后者越小,说明对应的不确定性最小,意味着如果选择特征 A 为最优特征时,对于分的类是最为

确定的,对应的就希望这个信息增益是最大的。

③ 例题:对于上述表所给的训练数据集,根据信息增益准则选择最优特征。

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习​ 决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

④ 缺点:如果不同特征内的分类个数不同,那么取值个数较多的特征计算出的信息增益会更大。因此,信息增益会更倾向于取值较多的特征

(2)信息增益比

使用信息增益来作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。使用信息增

益比可以对这一问题进行校正,这是特征选择的另一准则。

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

文章来源地址https://www.toymoban.com/news/detail-777597.html

到了这里,关于决策树--分类决策树的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python机器学习决策树和SVM向量机算法实现红酒分类

    经典的红酒分类数据集是指UCI机器学习库中的Wine数据集。该数据集包含178个样本,每个样本有13个特征,可以用于分类任务。 具体每个字段的含义如下: alcohol:酒精含量百分比 malic_acid:苹果酸含量(克/升) ash:灰分含量(克/升) alcalinity_of_ash:灰分碱度(以mEq/L为单位)

    2024年02月08日
    浏览(42)
  • 机器学习实战3-利用决策树算法根据天气数据集做出决策

    大家好,我是微学AI,今天给大家介绍一下机器学习实战3-利用决策树算法根据天气数据集做出决策,决策树是一种广泛使用的机器学习算法,用于分类和回归问题。它的基本思想是通过对数据进行分而治之,把复杂的问题转化为简单的决策序列。 一、决策树的介绍 对于决策

    2024年02月08日
    浏览(44)
  • python机器学习——分类模型评估 & 分类算法(k近邻,朴素贝叶斯,决策树,随机森林,逻辑回归,svm)

    交叉验证:为了让被评估的模型更加准确可信 交叉验证:将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。 通常情

    2024年02月03日
    浏览(67)
  • 【Python机器学习】决策树、逻辑回归、神经网络等模型对电信用户流失分类实战(附源码和数据集)

    需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 该实例数据来自kaggle,它的每一条数据为一个用户的信息,共有21个有效字段,其中最后一个字段Churn标志该用户是否流失   可用pandas的read_csv()函数来读取数据,用DataFrame的head()、shape、info()、duplicated()、nunique()等来初步

    2024年02月03日
    浏览(49)
  • python机器学习(六)决策树(上) 构造树、信息熵的分类和度量、信息增益、CART算法、剪枝

    模拟相亲的过程,通过相亲决策图,男的去相亲,会先选择性别为女的,然后依次根据年龄、长相、收入、职业等信息对相亲的另一方有所了解。 通过决策图可以发现,生活中面临各种各样的选择,基于我们的经验和自身需求进行一些筛选,把判断背后的逻辑整理成结构图,

    2024年02月14日
    浏览(49)
  • 大数据机器学习深度解读决策树算法:技术全解与案例实战

    本文深入探讨了机器学习中的决策树算法,从基础概念到高级研究进展,再到实战案例应用,全面解析了决策树的理论及其在现实世界问题中的实际效能。通过技术细节和案例实践,揭示了决策树在提供可解释预测中的独特价值。 决策树算法是机器学习领域的基石之一,其强

    2024年02月04日
    浏览(50)
  • 【AI机器学习入门与实战】机器学习算法都有哪些分类?

    👍【 AI机器学习入门与实战 】目录 🍭 基础篇 🔥 第一篇:【AI机器学习入门与实战】AI 人工智能介绍 🔥 第二篇:【AI机器学习入门与实战】机器学习核心概念理解 🔥 第三篇:【AI机器学习入门与实战】机器学习算法都有哪些分类? 🔥 第四篇:【AI机器学习入门与实战】

    2024年02月12日
    浏览(41)
  • 机器学习-KNN算法(鸢尾花分类实战)

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 K近邻(K Nearest Neighbors,KNN)算法是最简单的分类算法之一,也就是根据现有训练数据判断输入样本是属于哪一个类别。 “近朱者赤近墨者黑\\\",所谓的K近邻,也就

    2023年04月08日
    浏览(72)
  • 七个常用的机器学习算法详解:决策树与随机森林的深入解析

    hello宝子们...我们是艾斯视觉擅长ui设计和前端开发10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 在机器学习中,决策树和随机森林是两个非常常用的算法。它们都属于监督学习的范畴,可以用于分类和回归问题。本文将对

    2024年02月19日
    浏览(47)
  • 机器学习 C4.5算法原理 + 决策树分裂详解(离散属性+连续属性) 附python代码

    一.C4.5算法的简介: C4.5并不是单单一个算法而是 一套算法 ,主要用于对机器学习和数据挖掘中的分类问题。它是一种有监督的学习,也就是说对于该算法我们需要 先给它们提供一个数据集 ,这个数据集包含多个实例,每个实例都包含多个属性,该实例用这些属性描述, 根

    2024年02月08日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包