机器学习实录——决策树

这篇具有很好参考价值的文章主要介绍了机器学习实录——决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.基本概念

(1)定义:决策树:基于树结构进行决策的处理机制,不断根据某属性进行划分的过程,通常会进行一系列的判断或是“子决策”。

(2)策略:“分而治之”,递归进行。

(3)解释:如下图,当我们需要判断一个西瓜是否为好瓜,我们先判断色泽是否为青绿,如果为正,我们继续进行下一个判断。

显然,我们能够明白每一个决策都是建立在之前决策的基础之上的,决策树的最终目的是将样本越分越”纯“

机器学习实录——决策树,机器学习,人工智能,决策树

  • 从逻辑角度,是if-else语句的组合

  • 从几何角度,是根据某种准则划分特征空间

(4)递归停止条件:

  1. 对于一个节点,全是同类样本,那不用执行下一步细分判断

  2. 对于一个节点,仍然有异类样本,但是没有下一个属性去判断了,也要终止

  3. 对于一个属性的其中一个分类,若数据集中的数据完全没有对应分类中的数据,即空集,那也要终止。

信息论知识 补充:

自信息:机器学习实录——决策树,机器学习,人工智能,决策树,本质上就是一个单位,当b=2时单位为bit,当b=e时单位为nat

随机变量X的每个取值x都对应一个p(x)

信息熵(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定。公式如下:

机器学习实录——决策树,机器学习,人工智能,决策树对信息熵的理解:其实我们看随机变量X,注意它是一个变量,它是不确定的,当我们某个取值最大时,比如等于p(x=a)=1,那么变量就变成了常量,那其他x取值的概率都等于0,此时信息熵是最小的。当所有可能取值的概率都相等时,信息熵最大,不确定性最大。

机器学习实录——决策树,机器学习,人工智能,决策树

熵的增益:上一层的熵-当前一层熵的总和

  • 数学意义:熵的变化量

  • 决策树:根节点的熵-当前子节点的熵的和

众所周知,一个数据集/事物涵盖了许多属性,如何确定划分属性?

比如,一个西瓜的属性有根蒂,敲声,纹理,颜色,触感等等

总体思路:计算每个属性的信息增益,比较其大小,大者则被选为划分属性

如何计算:

机器学习实录——决策树,机器学习,人工智能,决策树

我们看如下例子:

机器学习实录——决策树,机器学习,人工智能,决策树

分析数据集,有17个训练样例|y|=2,正例8个,占8/17,反例9个,占9/17

对于根节点,其信息熵为:

机器学习实录——决策树,机器学习,人工智能,决策树

以属性“色泽”为例,

机器学习实录——决策树,机器学习,人工智能,决策树

机器学习实录——决策树,机器学习,人工智能,决策树

机器学习实录——决策树,机器学习,人工智能,决策树

由上例,可以计算出每一个属性的信息增益,然后比较其大小,大的就被作为“划分属性”

机器学习实录——决策树,机器学习,人工智能,决策树

实际上,信息增益追求的就是每次能尽可能的将划分结果分的干净一点。

但是,我们进一步想,这样做会不会使得其划分属性会尽可能多呢?,因为属性越多越精细自然分到每个属性的数据量越少,也就越干净。

比如说,我们拿到了人这个数据集,那如果根据【电话号码】这个属性进行划分,可想而知,每个电话号码下对应一个人,是足够干净的,但是我们并不想这样做,别忘了机器学习的目的是根据已有样本对未知数据进行预测,如果此时再来一个人的数据,我们无法对他进行分类,那这个模型的构建显然是泛化能力极低的。

所以我们提出对ID3算法的进一步改进,即增益率\

机器学习实录——决策树,机器学习,人工智能,决策树

其中IV(a)指的是分支率,Gain指的是增益大小,我们希望的是,分支尽可能少而且增益尽可能大

对于C4.5算法中,我们采用启发式的办法:先从候选划分属性中找出信息增益水平高于平均水平的,在从中选取增益率最高的。

技巧:其实,上述行为体现的是一种规范化的思想,本来对于不同属性,其分支不同,是不能直接比较的,但是我们将其规范化,就变得可比较了

特殊形式:归一化:将数值规范到【0,1】之间

其他划分标准:基尼指数:从一个袋子里随便抓两个球,若为同类则表示纯度为1,用1-纯度,则表示其不纯度,我们将其最小化,则Gini越小,数据集的纯度越高。

机器学习实录——决策树,机器学习,人工智能,决策树

决策树剪枝(pruning)

  • 目的:防止决策树过拟合的最根本方法

  • 做法:因为可能会导致分支过多,所以主动去掉一些分支

通常,使用单只决策树的时候是需要进行剪枝操作的

  • 基本策略:

    • 预剪枝(pre-pruning):提前终止某些分支的生长

    • 后剪枝(post-pruning):生成一棵完全树,再“回头”剪枝

当处理多维数据时,我们经常会遇到样本属性值缺失的问题,如果直接扔掉,会造成对数据的极大浪费

如何解决?涉及到以下两个问题:

Q1:如何进行划分属性选择?

Q2:定划分属性,若样本在该属性上的值缺失,如何进行划分?

基本思路:样本赋权,权重划分

机器学习实录——决策树,机器学习,人工智能,决策树

机器学习实录——决策树,机器学习,人工智能,决策树文章来源地址https://www.toymoban.com/news/detail-834768.html

到了这里,关于机器学习实录——决策树的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 机器学习入门教学——人工智能、机器学习、深度学习

    机器学习入门教学——人工智能、机器学习、深度学习

    1、人工智能 人工智能相当于人类的代理人,我们现在所接触到的人工智能基本上都是弱AI,主要作用是正确解释从外部获得的数据,并对这些数据加以学习和利用,以便灵活的实现特定目标和任务。 例如: 阿尔法狗、智能汽车 简单来说: 人工智能使机器像人类一样进行感

    2024年02月09日
    浏览(39)
  • 人工智能|机器学习——基于机器学习的舌苔检测

    人工智能|机器学习——基于机器学习的舌苔检测

    基于深度学习的舌苔检测毕设留档.zip资源-CSDN文库 目前随着人们生活水平的不断提高,对于中医主张的理念越来越认可,对中医的需求也越来越多。在诊断中,中医通过观察人的舌头的舌质、苔质等舌象特征,了解人体内的体质信息从而对症下药。 传统中医的舌诊主要依赖

    2024年02月22日
    浏览(37)
  • 机器学习--人工智能概述

    机器学习--人工智能概述

    入门人工智能,了解人工智能是什么。为啥发展起来,用途是什么,是最重要也是最关键的事情。大致有以下思路。 人工智能发展历程 机器学习定义以及应用场景 监督学习,无监督学习 监督学习中的分类、回归特点 知道机器学习的开发流程 人工智能在现实生活中的应用

    2024年01月19日
    浏览(14)
  • 人工智能与机器学习

    人工智能与机器学习

    欢迎关注博主 Mindtechnist 或加入【Linux C/C++/Python社区】一起探讨和分享Linux C/C++/Python/Shell编程、机器人技术、机器学习、机器视觉、嵌入式AI相关领域的知识和技术。 专栏:《机器学习》 ​ ​ ☞什么是人工智能、机器学习、深度学习 人工智能这个概念诞生于1956年的达特茅斯

    2024年02月02日
    浏览(40)
  • 【机器学习】人工智能概述

    【机器学习】人工智能概述

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.人工智能概述 1.1 机器学习、人工智能与深度学习 1.2 机器学习、深度学习能做些什么

    2024年02月09日
    浏览(12)
  • 人工智能与机器人|机器学习

    人工智能与机器人|机器学习

    原文链接: https://mp.weixin.qq.com/s/PB_n8woxdsWPtrmL8BbehA 机器学习下包含神经网络、深度学习等,他们之间的关系表示如图2-7所示。 图2-7 关系图 那么什么是机器学习、深度学习、他们的区别又是什么呢? 2.7.1 什么是机器学习? 机器学习是 人工智能 (AI) 和计算机科学的一个分支,

    2024年02月06日
    浏览(13)
  • 人工智能、机器学习、深度学习的区别

    人工智能、机器学习、深度学习的区别

    人工智能涵盖范围最广,它包含了机器学习;而机器学习是人工智能的重要研究内容,它又包含了深度学习。 人工智能是一门以计算机科学为基础,融合了数学、神经学、心理学、控制学等多个科目的交叉学科。 人工智能是一门致力于使计算机能够模拟、模仿人类智能的学

    2024年02月08日
    浏览(11)
  • 【人工智能技术】机器学习工具总览

    【人工智能技术】机器学习工具总览

    当谈到训练计算机在没有明确编程的情况下采取行动时,存在大量来自机器学习领域的工具。学术界和行业专业人士使用这些工具在MRI扫描中构建从语音识别到癌症检测的多种应用。这些工具可在网上免费获得。如果您感兴趣,我已经编制了这些的排名(请参阅本页底部)以

    2024年02月04日
    浏览(39)
  • 人工智能与开源机器学习框架

    链接:华为机考原题 TensorFlow是一个开源的机器学习框架,由Google开发和维护。它提供了一个针对神经网络和深度学习的强大工具集,能够帮助开发人员构建和训练各种机器学习模型。 TensorFlow的基本概念包括: 张量(Tensor):张量是TensorFlow中的核心数据结构,它表示多维数

    2024年02月22日
    浏览(11)
  • 12、人工智能、机器学习、深度学习的关系

    12、人工智能、机器学习、深度学习的关系

    很多年前听一个机器学习的公开课,在QA环节,一个同学问了老师一个问题“ 机器学习和深度学习是什么关系 ”? 老师先没回答,而是反问了在场的同学,结果问了2-3个,没有人可以回答的很到位,我当时也是初学一脸懵,会场准备的小礼品也没有拿到。 后来老师解释“机

    2024年02月05日
    浏览(16)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包