吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树

9月前作者：rookie_coder_996 分类：Toy博客阅读(51) 违法举报

这篇具有很好参考价值的文章主要介绍了吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录

一、基本概念

1.1 什么是信息熵？

1.2 决策树的定义与构造

二、决策树算法

2.1 ID3 决策树

2.2 C4.5 决策树

2.3 CART 决策树

一、基本概念

1.1 什么是信息熵？

信息熵:

熵是度量样本集合纯度最常用的一种指标，代表一个系统中蕴含多少信息量，信息量越大表明一个系统不确定性就越大，就存在越多的可能性，即信息熵越大。

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

1.2 决策树的定义与构造

决策树是一种基于树形结构来进行决策的算法，它的主要原理是将数据集划分为一系列小的子集，每个子集称为一个决策树的“节点”，决策树的分支表示不同的决策路径，叶节点表示最终的决策结果。

在决策树的建立过程中，通常采用的是自顶向下的贪心策略，即每次选择最优的划分特征来进行节点的分裂，直到满足停止条件为止。

在选择最优的划分特征时，需要使用一些评估指标，如信息增益、基尼指数等来评估每个特征的划分能力，并选择具有最大划分能力的特征作为节点的分裂特征。

文章来源地址https://www.toymoban.com/news/detail-676875.html

一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;

叶结点对应于决策结果,其他每个结点则对应于一个属性测试:

每个结点包含的样本集合根据属性测试的结果被划分到子结点中

根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列，决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树，其基本流程遵循简单的“分而治之”

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

最关键的在第 8 行

如何选择最优划分属性

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

决策树的构造是一个递归的过程，有三种情形会导致递归返回：

(1) 当前结点包含的样本全属于同一类别，这时直接将该节点标记为叶节点，并设为相应的类别

对应第 2 行的 if 语句

(2) 当前属性集为空，或是所有样本在所有属性上取值相同，无法划分，这时将该节点标记为叶节点，并将其类别设为该节点所含样本最多的类别；

对应第 5 行的 if 语句

(3) 当前结点包含的样本集合为空，不能划分，这时也将该节点标记为叶节点，并将其类别设为父节点中所含样本最多的类别。

对应第 11 行的 if 语句

二、决策树算法

2.1 ID3 决策树

ID3 决策树使用信息增益为准则来选择划分属性

信息增益: 在已知属性 (特征)a的取值后的不确定性减少的量，也即纯度的提升

信息熵度量随机变量 X 的不确定性 越大越不确定！

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

信息增益越大，表示使用该属性划分样本集D的效果越好

因此ID3算法在递归过程中，每次选择最大信息增益的属性作为当前的划分属性

举例：

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

显然，属性“纹理”的信息增益最大，于是它被选为划分属性

划分结果：

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

2.2 C4.5 决策树

ID3算法存在一个问题，就是偏向于取值数目较多的属性，例如：如果存在一个唯一标识，这样样本集D将会被划分为|D|个分支，每个分支只有一个样本，这样划分后的信息熵为零，十分纯净，但是对分类毫无用处。

因此C4.5算法使用了“增益率”（gain ratio）来选择划分属性，来避免这个问题带来的困扰。

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

C4.5决策树并未完全使用“增益率”代替“信息增益”，而是采用一种启发式的方法先选出信息增益高于平均水平的属性，然后再从中选择增益率最高的。

首先使用ID3算法计算出信息增益高于平均水平的候选属性，接着C4.5计算这些候选属性的增益率。

2.3 CART 决策树

CART决策树使用“基尼指数”（Gini index）来选择划分属性，基尼指数反映的是从样本集D中随机抽取两个样本，其类别标记不一致的概率，因此Gini(D)越小越好，越小表明碰到的异类的概率越小，纯度就越高

吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树,# 吃透西瓜书,决策树,算法,机器学习,人工智能

基尼指数越小，表明集合越纯

选择基尼指数最小的属性作为最优划分属性

到了这里，关于吃透《西瓜书》第四章决策树定义与构造、ID3决策树、C4.5决策树、CART决策树的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

在西瓜数据集上用Python实现ID3决策树算法完整代码

在西瓜数据集上用Python实现ID3决策树算法完整代码 1、决策树算法代码ID3.py 2、可视化决策树代码visual_decision_tree.py 3、贴几张运行结果图 1、生成的可视化决策树 2、代码运行结果输出每次划分的每个属性特征的信息增益以及最后的决策树 3、记事本上手动跑程序的草图

2024年02月08日
浏览(47)
四，Eureka 第四章

2.3.4修改主启动类标注为Eureka客户端 springcloud-eureka-sever-7001 springcloud-eureka-sever-7001 springcloud-eureka-sever003 5.25编写PaymentMapper接口 5.

2024年02月15日
浏览(84)
第四章 Text

在本章中，您将学习如何在页面上绘制文本。绘图文本是 PDF 图形中最复杂的部分，但它也是帮助 PDF 击败竞争对手成为当今国际标准的原因。当其他原始播放器将文本转换为光栅图像或矢量路径（以保持视觉完整性）时，PDF 的发明者知道用户需要可以搜索和复制的文本，而

2024年02月06日
浏览(50)
计网：第四章网络层

基于湖科大教书匠b站计算机网络教学视频以及本校课程老师ppt 整合出的计算机网络学习笔记根据文章目录，具体内容都在附赠的pdf文件中，适合日常学习、考前冲刺一下是第四章笔记中大概的知识点内容，欢迎查漏补缺^^ 可以在电脑网页端进行下载哦~ 目录 1.网络层概述

2024年01月24日
浏览(73)
第四章路由基础

目录 4.1 路由器概述 4.1.1 路由器定义 4.1.2 路由器工作原理 4.1.3 路由表的生成方式（1）直连路由（2）静态路由（3）动态路由 4.1.4 路由器的接口（1）配置接口（2）局域网接口（3）广域网接口 4.1.5 路由器的硬件连接（1）局域网线缆：双绞线（2）广域网接口（3）配置专

2024年02月08日
浏览(67)
第四章单例模式

代码示例优缺点：可能会造成内存的浪费，但也只能浪费内存代码示例代码示例缺点：多线程不安全缺点效率太低在类加载时，静态内部类没有调用是不会进行类加载的，当被调用时才会被加载，而且只加载一次，加载时线程安全优缺点

2023年04月21日
浏览(60)
第四章-边界安全

1）什么是防火墙墙，始于防，忠于守。从古至今，墙予人以安全之意。防御外网对内网的入侵防火墙是一种网络安全设备或系统，用于监控和控制网络流量，防止未经授权的访问和攻击。防火墙可以根据预定的规则和策略，过滤入站和出站数据包，保护网络的安全性和完

2024年01月19日
浏览(53)
第四章 RPC 调用

通过以上案例我们发现，Http请求调用服务实例属实过于麻烦。其实对于请求同一个服务，很多步骤都是相同的，例如：服务名，地址，httpClient 创建步骤等。 RPC的出现，就是为了解决这一问题。 RPC: 即我们常说的远程过程调用，就是像调用本地方法一样调用远程方法，通信协

2024年02月04日
浏览(53)
Linux第四章

ctrl+c ：强制停止（Linux某些程序的运行；命令输入错误） ctrl+d ：退出或登出（退出账户的登录；或者退出某些特定程序的专属页面) history ：查看历史输入过的命令(!命令前缀，自动执行上一次匹配前缀的命令,不能搜索太久的) ctrl+r ：输入内容去匹配历史命令(如果搜索到的内

2024年02月01日
浏览(47)
linux第四章（网络）

在配置前首先查看本机的ensXX信息：cat ens160.nmconnection 看本机配置：cd /etc/NetworkManager/ cd system-connextions/ ls 一。接口管理命令：ip命令/nmcli命令/nmtui命令 1.对IP地址进行操作: ip的命令： IP link：显示网络设备的运行状态 ip -s show ens160:查看设备（en

2024年01月19日
浏览(52)