决策树———用基尼系数建立决策树

这篇具有很好参考价值的文章主要介绍了决策树———用基尼系数建立决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

       第一、什么是决策树?

              简单来说就是用于解决分类问题的算法。

       第二、什么是基尼指数?

              是用于划分属性纯度的一个工具(基尼指数越小,则纯度越高说明该属性越优)

             公式如下

决策树———用基尼系数建立决策树对于各种不同的属性来计它的基尼指数,然后来创建一棵决策树。

决策树———用基尼系数建立决策树

例如label=0 和 label=1 都是5份的时候,每份的概率是0.5 使用基尼指数公式计算后,算出该属性的基尼指数为0.5

同理可得后面的两个例子,Gini=0.32 和0 。从这三个样本中看,我们可以观察出这个属性的纯度是越来越高的过程,而我们就是要使用基尼指数去判别某一个属性的纯度,或者说Gini值的大小,选择其为区分的属性节点。

 

决策树———用基尼系数建立决策树

例如此表中有各种各样的属性,最后又一个判定标签即是否拖欠贷款。 

             我们应该先分析有房者,婚姻,年收入三个属性哪一个更优一点,然后来判断谁可以来充当根节点。

  那我们就来,从年收入开始用基尼指数来建立一棵决策树,label的值为是否拖欠贷款

决策树———用基尼系数建立决策树

第一选择有房者这个属性,按照是否有房分为两类并记下其数量如图 有房的有3人,没有房的有7人,然后根据标签值分为四类人

有房拖欠贷款的0人,有房不拖欠贷款的3人,无房拖欠贷款的3人,无房不拖欠贷款的4人。分别计算有房者的基尼指数为0和无房者的基尼指数为24/49。最后进行加权平均如上图所示,可以得到有房这个属性的Gini加权值为12/35。

同理我们可以得到婚姻的Gini加权值为3/10,年收入的加权值为12/35。由于婚姻的Gini指数最低,或者说婚姻这个属性更纯,所以我们选择婚姻这个属性来当作根节点。

决策树———用基尼系数建立决策树

根据已婚 和(单身/离异)这两个条件分析它们label值,在已婚这边我们可以看到,四个人的标签均为否,所以可以直接把它的标签标记为否,剩下的6条数据继续进行基尼指数的计算来划分出一个更纯的属性。计算结果如下,计算过程与上面同理。

决策树———用基尼系数建立决策树 

 故有房成为第二个选择的属性节点。因为已经只剩下了一个属性,所以它成为了第三个属性节点,我们最终构建的决策树如下:

决策树———用基尼系数建立决策树

如果此时有了新的数据到来,我们就可以直接按照这棵决策树的判断条件,一直判断直到可以知道它的label值为是或者否为止。 文章来源地址https://www.toymoban.com/news/detail-497399.html

到了这里,关于决策树———用基尼系数建立决策树的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 决策树分类算法(一)(信息熵,信息增益,基尼指数计算)

    觉得有用的请先点赞后收藏!不要只收藏不点赞! 例子: : I ( x ) = log ⁡ 2 1 p = − log ⁡ 2 p I(x)=log_{2}{frac{1}{p}}=-log_{2}{p} I ( x ) = lo g 2 ​ p 1 ​ = − lo g 2 ​ p 假设中国足球队和巴西足球队曾经有过8次比赛,其中中国队胜1次。以U表示未来的中巴比赛中国队胜的事件,那么U的先

    2024年01月16日
    浏览(44)
  • 决策树(Decision Tree)原理解析:从基本概念到建立模型

    决策树是一种常用的机器学习算法,用于解决分类和回归问题。它基于树形结构进行决策,通过一系列的分裂和判断条件来预测目标变量的值。本文将详细解析决策树的原理,从基本概念到建立模型的过程 决策树由节点和边组成,其中节点表示特征或属性,边表示特征的取值

    2024年02月10日
    浏览(45)
  • 第一章 建立数学模型

    究竟什么是模型 我们平常看见的各种东西其实都是模型,比如玩具车、照片等就是实物模型;地图、化学学习中的分子结构图就属于符号模型;在物理学习中的各个我们常说的模型实际上就属于物理模型。 将以上概念的共同点进行汇总能得出:模型是为了一定目的,对客观

    2024年01月19日
    浏览(36)
  • 模式识别 —— 第一章 贝叶斯决策理论

    新的学期开始了,当然是要给不爱吃香菜的月亮记录学习笔记呀~ 没多久了,待夏花绚烂之时~人山人海,我们如约而至! 以后清河海风 溶溶月色 共赏之人 就在身侧 mua~ 先验概率 先验概率就是人们根据一些先验知识预先知道的一些概率。比如,南理工男女比例7:3. 类条件概率

    2024年02月06日
    浏览(33)
  • 【数仓基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处

    数据仓库的主要作用: 数据仓库概念主要是解决多重数据复制带来的高成本问题。 在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。 数据仓库的概念: 数据仓库描述为一个 面向主

    2024年02月10日
    浏览(43)
  • 77.建立一个Web应用程序的布局第一部分

    本次我们需要设计的布局是这样样子,这个很想一个邮件系统的基本布局; ● 首先我们生成基础代码,基础代码很简单,不用过多解释 ● 我们分析一下下图,这个一个两行四列的一个布局,当然,我们肯定会选择使用CSS grid去实现这个布局,生成一个两行四列的一个布局

    2024年02月06日
    浏览(35)
  • 数据库第一次试验:数据库的建立与维护

    为了帮助同学们完成痛苦的实验课程设计,本作者将其作出的实验结果及代码贴至CSDN中,供同学们学习参考。如有不足或描述不完善之处,敬请各位指出,欢迎各位的斧正! 1、熟练掌握和使用 SQL 语言、SQL Server 企业管理器创建数据库、表、索引和修改表结构。 2、熟练掌握

    2024年02月06日
    浏览(44)
  • PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像...

    在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上 ( 点击文末“阅读原文”获取完整 代码数据 )。 “用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客户。但是企业在不惜代价发展新用户的过程中,往往会忽视或无暇

    2024年02月10日
    浏览(48)
  • 微机实验第一章:汇编程序的建立和简单的顺序结构汇编程序设计(B站)

    作为一名在校大学生,我将近期所学的知识进行总结。 一年之后我再看这些代码,我发现这些代码对于初学者十分友好。因此,我将这些代码分享给大家,希望大家能有所收获。如有不足,欢迎交流。 推荐可以看这位B站up主的视频学习汇编 B站up主 提示:以下是本篇文章正文

    2024年02月06日
    浏览(52)
  • 什么是决策树

    在游戏中遇到敌人是选择攻击还是逃跑?如果选择攻击,是选择普通的物理攻击还是魔法攻击?为达到目标根据一定的条件进行选择的过程,就是决策树(DT Tree)。 决策树模型非常经典,在机器学习中常被用于分类,构成它的元素是节点和边,节点会根据样本的特征做出判断,

    2024年02月11日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包