机器学习实录——决策树

1年前作者：Flyinggg_love分类：Toy博客阅读(7)违法举报

这篇具有很好参考价值的文章主要介绍了机器学习实录——决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.基本概念

（1）定义：决策树:基于树结构进行决策的处理机制，不断根据某属性进行划分的过程，通常会进行一系列的判断或是“子决策”。

（2）策略：“分而治之”，递归进行。

（3）解释：如下图，当我们需要判断一个西瓜是否为好瓜，我们先判断色泽是否为青绿，如果为正，我们继续进行下一个判断。

显然，我们能够明白每一个决策都是建立在之前决策的基础之上的，决策树的最终目的是将样本越分越”纯“。

机器学习实录——决策树,机器学习,人工智能,决策树

从逻辑角度，是if-else语句的组合
从几何角度，是根据某种准则划分特征空间

（4）递归停止条件：

对于一个节点，全是同类样本，那不用执行下一步细分判断
对于一个节点，仍然有异类样本，但是没有下一个属性去判断了，也要终止
对于一个属性的其中一个分类，若数据集中的数据完全没有对应分类中的数据，即空集，那也要终止。

信息论知识补充：

自信息：机器学习实录——决策树,机器学习,人工智能,决策树 ,本质上就是一个单位，当b=2时单位为bit,当b=e时单位为nat

随机变量X的每个取值x都对应一个p(x)

信息熵（自信息的期望）：度量随机变量X的不确定性，信息熵越大越不确定。公式如下：

机器学习实录——决策树,机器学习,人工智能,决策树对信息熵的理解：其实我们看随机变量X，注意它是一个变量，它是不确定的，当我们某个取值最大时，比如等于p（x=a）=1,那么变量就变成了常量，那其他x取值的概率都等于0，此时信息熵是最小的。当所有可能取值的概率都相等时，信息熵最大，不确定性最大。

机器学习实录——决策树,机器学习,人工智能,决策树

熵的增益：上一层的熵-当前一层熵的总和

数学意义：熵的变化量
决策树：根节点的熵-当前子节点的熵的和

众所周知，一个数据集/事物涵盖了许多属性，如何确定划分属性？

比如，一个西瓜的属性有根蒂，敲声，纹理，颜色，触感等等

总体思路：计算每个属性的信息增益，比较其大小，大者则被选为划分属性

如何计算：

机器学习实录——决策树,机器学习,人工智能,决策树

我们看如下例子：

机器学习实录——决策树,机器学习,人工智能,决策树

分析数据集，有17个训练样例|y|=2，正例8个，占8/17，反例9个，占9/17

对于根节点，其信息熵为：

机器学习实录——决策树,机器学习,人工智能,决策树

以属性“色泽”为例，

机器学习实录——决策树,机器学习,人工智能,决策树

机器学习实录——决策树,机器学习,人工智能,决策树

机器学习实录——决策树,机器学习,人工智能,决策树

由上例，可以计算出每一个属性的信息增益，然后比较其大小，大的就被作为“划分属性”

机器学习实录——决策树,机器学习,人工智能,决策树

实际上，信息增益追求的就是每次能尽可能的将划分结果分的干净一点。

但是，我们进一步想，这样做会不会使得其划分属性会尽可能多呢？，因为属性越多越精细自然分到每个属性的数据量越少，也就越干净。

比如说，我们拿到了人这个数据集，那如果根据【电话号码】这个属性进行划分，可想而知，每个电话号码下对应一个人，是足够干净的，但是我们并不想这样做，别忘了机器学习的目的是根据已有样本对未知数据进行预测，如果此时再来一个人的数据，我们无法对他进行分类，那这个模型的构建显然是泛化能力极低的。

所以我们提出对ID3算法的进一步改进，即增益率\

机器学习实录——决策树,机器学习,人工智能,决策树

其中IV（a）指的是分支率，Gain指的是增益大小，我们希望的是，分支尽可能少而且增益尽可能大

对于C4.5算法中，我们采用启发式的办法：先从候选划分属性中找出信息增益水平高于平均水平的，在从中选取增益率最高的。

技巧：其实，上述行为体现的是一种规范化的思想，本来对于不同属性，其分支不同，是不能直接比较的，但是我们将其规范化，就变得可比较了

特殊形式：归一化:将数值规范到【0,1】之间

其他划分标准：基尼指数：从一个袋子里随便抓两个球，若为同类则表示纯度为1，用1-纯度，则表示其不纯度，我们将其最小化，则Gini越小，数据集的纯度越高。

机器学习实录——决策树,机器学习,人工智能,决策树

决策树剪枝（pruning）

目的：防止决策树过拟合的最根本方法
做法：因为可能会导致分支过多，所以主动去掉一些分支

通常，使用单只决策树的时候是需要进行剪枝操作的

基本策略：
- 预剪枝（pre-pruning）:提前终止某些分支的生长
- 后剪枝（post-pruning）:生成一棵完全树，再“回头”剪枝

当处理多维数据时，我们经常会遇到样本属性值缺失的问题，如果直接扔掉，会造成对数据的极大浪费

如何解决？涉及到以下两个问题：

Q1：如何进行划分属性选择？

Q2:定划分属性，若样本在该属性上的值缺失，如何进行划分？

基本思路：样本赋权，权重划分

机器学习实录——决策树,机器学习,人工智能,决策树

机器学习实录——决策树,机器学习,人工智能,决策树文章来源地址https://www.toymoban.com/news/detail-834768.html

到了这里，关于机器学习实录——决策树的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

机器学习入门教学——人工智能、机器学习、深度学习
1、人工智能人工智能相当于人类的代理人，我们现在所接触到的人工智能基本上都是弱AI，主要作用是正确解释从外部获得的数据，并对这些数据加以学习和利用，以便灵活的实现特定目标和任务。例如：阿尔法狗、智能汽车简单来说：人工智能使机器像人类一样进行感
2024年02月09日
浏览(39)
人工智能|机器学习——基于机器学习的舌苔检测
基于深度学习的舌苔检测毕设留档.zip资源-CSDN文库目前随着人们生活水平的不断提高，对于中医主张的理念越来越认可，对中医的需求也越来越多。在诊断中，中医通过观察人的舌头的舌质、苔质等舌象特征，了解人体内的体质信息从而对症下药。传统中医的舌诊主要依赖
2024年02月22日
浏览(37)
机器学习--人工智能概述
入门人工智能，了解人工智能是什么。为啥发展起来，用途是什么，是最重要也是最关键的事情。大致有以下思路。人工智能发展历程机器学习定义以及应用场景监督学习，无监督学习监督学习中的分类、回归特点知道机器学习的开发流程人工智能在现实生活中的应用
2024年01月19日
浏览(14)
人工智能与机器学习
欢迎关注博主 Mindtechnist 或加入【Linux C/C++/Python社区】一起探讨和分享Linux C/C++/Python/Shell编程、机器人技术、机器学习、机器视觉、嵌入式AI相关领域的知识和技术。专栏：《机器学习》 ☞什么是人工智能、机器学习、深度学习人工智能这个概念诞生于1956年的达特茅斯
2024年02月02日
浏览(40)
【机器学习】人工智能概述
🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.人工智能概述 1.1 机器学习、人工智能与深度学习 1.2 机器学习、深度学习能做些什么
2024年02月09日
浏览(12)
人工智能与机器人|机器学习
原文链接： https://mp.weixin.qq.com/s/PB_n8woxdsWPtrmL8BbehA 机器学习下包含神经网络、深度学习等，他们之间的关系表示如图2-7所示。图2-7 关系图那么什么是机器学习、深度学习、他们的区别又是什么呢？ 2.7.1 什么是机器学习？机器学习是人工智能 (AI) 和计算机科学的一个分支，
2024年02月06日
浏览(13)
人工智能、机器学习、深度学习的区别
人工智能涵盖范围最广，它包含了机器学习；而机器学习是人工智能的重要研究内容，它又包含了深度学习。人工智能是一门以计算机科学为基础，融合了数学、神经学、心理学、控制学等多个科目的交叉学科。人工智能是一门致力于使计算机能够模拟、模仿人类智能的学
2024年02月08日
浏览(11)
【人工智能技术】机器学习工具总览
当谈到训练计算机在没有明确编程的情况下采取行动时，存在大量来自机器学习领域的工具。学术界和行业专业人士使用这些工具在MRI扫描中构建从语音识别到癌症检测的多种应用。这些工具可在网上免费获得。如果您感兴趣，我已经编制了这些的排名（请参阅本页底部）以
2024年02月04日
浏览(39)
人工智能与开源机器学习框架
链接：华为机考原题 TensorFlow是一个开源的机器学习框架，由Google开发和维护。它提供了一个针对神经网络和深度学习的强大工具集，能够帮助开发人员构建和训练各种机器学习模型。 TensorFlow的基本概念包括：张量（Tensor）：张量是TensorFlow中的核心数据结构，它表示多维数
2024年02月22日
浏览(11)
12、人工智能、机器学习、深度学习的关系
很多年前听一个机器学习的公开课，在QA环节，一个同学问了老师一个问题“ 机器学习和深度学习是什么关系 ”？老师先没回答，而是反问了在场的同学，结果问了2-3个，没有人可以回答的很到位，我当时也是初学一脸懵，会场准备的小礼品也没有拿到。后来老师解释“机
2024年02月05日
浏览(16)