决策树--分类决策树

10月前作者：bb8886 分类：Toy博客阅读(24) 违法举报

这篇具有很好参考价值的文章主要介绍了决策树--分类决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1、介绍

① 定义

分类决策树通过树形结构来模拟决策过程，决策树由结点和有向边组成。结点有两种类型：内部结

点和叶结点。内部结点表示一个特征或属性，叶子节点表示一个类。

② 生成过程

用决策树分类，从根结点开始，对样本的某一特征进行测试，根据测试结果，将样本分配到其他子

结点；这时，每一个子结点对应着该特征的一个取值，如此递归地对样本进行分配，直至达到叶结

点。最后将实例分到叶结点的类中。

③ 示意图

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

2、特征选择--信息增益或信息增益比

（1）信息增益

① 熵的定义

信息增益是由熵构建而成，熵起源于热力学，后来由香农引用到信息论中，表示的是「随机变量的

不确定性」，不确定性越大，代表着熵越大。

由于熵和随机变量的分布有关，所以我们就可以写成：

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

那么什么时候的熵最大呢？结论是：随机变量的取值等概率分布时，相应的熵最大。

② 信息增益算法

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

可以看出，信息增益就是经验熵和经验条件熵的差值，他代表的是指：得知特征A而使类 Y的信息

的不确定性减少的程度。

后者越小，说明对应的不确定性最小，意味着如果选择特征 A 为最优特征时，对于分的类是最为

确定的，对应的就希望这个信息增益是最大的。

③ 例题：对于上述表所给的训练数据集，根据信息增益准则选择最优特征。

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

④ 缺点：如果不同特征内的分类个数不同，那么取值个数较多的特征计算出的信息增益会更大。因此，信息增益会更倾向于取值较多的特征。

（2）信息增益比

使用信息增益来作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增

益比可以对这一问题进行校正，这是特征选择的另一准则。

决策树--分类决策树,机器学习算法详解+实战,决策树,算法,机器学习

文章来源地址https://www.toymoban.com/news/detail-777597.html

到了这里，关于决策树--分类决策树的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

python机器学习决策树和SVM向量机算法实现红酒分类

经典的红酒分类数据集是指UCI机器学习库中的Wine数据集。该数据集包含178个样本，每个样本有13个特征，可以用于分类任务。具体每个字段的含义如下： alcohol：酒精含量百分比 malic_acid：苹果酸含量（克/升） ash：灰分含量（克/升） alcalinity_of_ash：灰分碱度（以mEq/L为单位）

2024年02月08日
浏览(42)
机器学习实战3-利用决策树算法根据天气数据集做出决策

大家好，我是微学AI，今天给大家介绍一下机器学习实战3-利用决策树算法根据天气数据集做出决策，决策树是一种广泛使用的机器学习算法，用于分类和回归问题。它的基本思想是通过对数据进行分而治之，把复杂的问题转化为简单的决策序列。一、决策树的介绍对于决策

2024年02月08日
浏览(44)
python机器学习——分类模型评估 & 分类算法（k近邻，朴素贝叶斯，决策树，随机森林，逻辑回归，svm）

交叉验证：为了让被评估的模型更加准确可信交叉验证：将拿到的数据，分为训练和验证集。以下图为例：将数据分成5份，其中一份作为验证集。然后经过5次(组)的测试，每次都更换不同的验证集。即得到5组模型的结果，取平均值作为最终结果。又称5折交叉验证。通常情

2024年02月03日
浏览(67)
【Python机器学习】决策树、逻辑回归、神经网络等模型对电信用户流失分类实战（附源码和数据集）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 该实例数据来自kaggle，它的每一条数据为一个用户的信息，共有21个有效字段，其中最后一个字段Churn标志该用户是否流失可用pandas的read_csv()函数来读取数据，用DataFrame的head()、shape、info()、duplicated()、nunique()等来初步

2024年02月03日
浏览(49)
python机器学习（六）决策树(上) 构造树、信息熵的分类和度量、信息增益、CART算法、剪枝

模拟相亲的过程，通过相亲决策图，男的去相亲，会先选择性别为女的，然后依次根据年龄、长相、收入、职业等信息对相亲的另一方有所了解。通过决策图可以发现，生活中面临各种各样的选择，基于我们的经验和自身需求进行一些筛选，把判断背后的逻辑整理成结构图，

2024年02月14日
浏览(49)
大数据机器学习深度解读决策树算法：技术全解与案例实战

本文深入探讨了机器学习中的决策树算法，从基础概念到高级研究进展，再到实战案例应用，全面解析了决策树的理论及其在现实世界问题中的实际效能。通过技术细节和案例实践，揭示了决策树在提供可解释预测中的独特价值。决策树算法是机器学习领域的基石之一，其强

2024年02月04日
浏览(50)
【AI机器学习入门与实战】机器学习算法都有哪些分类？

👍【 AI机器学习入门与实战】目录 🍭 基础篇 🔥 第一篇：【AI机器学习入门与实战】AI 人工智能介绍 🔥 第二篇：【AI机器学习入门与实战】机器学习核心概念理解 🔥 第三篇：【AI机器学习入门与实战】机器学习算法都有哪些分类？ 🔥 第四篇：【AI机器学习入门与实战】

2024年02月12日
浏览(41)
机器学习-KNN算法（鸢尾花分类实战）

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。 K近邻（K Nearest Neighbors，KNN）算法是最简单的分类算法之一，也就是根据现有训练数据判断输入样本是属于哪一个类别。 “近朱者赤近墨者黑\\\"，所谓的K近邻，也就

2023年04月08日
浏览(72)
七个常用的机器学习算法详解：决策树与随机森林的深入解析

hello宝子们...我们是艾斯视觉擅长ui设计和前端开发10年+经验！希望我的分享能帮助到您！如需帮助可以评论关注私信我们一起探讨！致敬感谢感恩！在机器学习中，决策树和随机森林是两个非常常用的算法。它们都属于监督学习的范畴，可以用于分类和回归问题。本文将对

2024年02月19日
浏览(47)
机器学习 C4.5算法原理 + 决策树分裂详解（离散属性+连续属性）附python代码

一.C4.5算法的简介： C4.5并不是单单一个算法而是一套算法，主要用于对机器学习和数据挖掘中的分类问题。它是一种有监督的学习，也就是说对于该算法我们需要先给它们提供一个数据集，这个数据集包含多个实例，每个实例都包含多个属性，该实例用这些属性描述，根

2024年02月08日
浏览(55)