【人工智能】机器学习中的决策树

这篇具有很好参考价值的文章主要介绍了【人工智能】机器学习中的决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

特征选择

特征选择

树的生成

树的剪枝

特征如何选择

计算信息增益

样本集的基尼值

决策树生成

三种算法对比

决策树剪枝

预剪枝(pre-pruning)

后剪枝(post-pruning)

案例—红酒分类

案例—带噪正弦曲线拟合


前言

本次实验是由python语言为基础学习网站分享给大家

点击右边链接进行学习牛客网学习python跳转链接

【人工智能】机器学习中的决策树

 

特征选择

决策树学习通常包括三个步骤(过程)或称三要素:特征选择、树的生成(构造)、树的剪枝。

特征选择

选择最优的划分特征与条件。父结点(根结点和中间结点)把待分数据集按照选定的特征和测试条件切分成若干数据子集分别进入若干子结点。从根结点到每个叶结点对应一个判定测试序列,如何选择每次测试采用的特征呢,优先测试哪个特征呢?

树的生成

按照特征选择标准,采用递归方式、按照一定策略生成决策树。

树的剪枝

决策树容易发生过拟合,需要采用的一定的剪枝策略来防止过拟合。

特征如何选择

一棵决策树包括一个根结点、若干内部结点、若干叶结点;叶结点对应于决策结果,其它每个结点则对应于一个属性测试;每个父结点所包含的样本集根据属性测试的结果,被划分到子结点中;根结点包含样本全集,从根结点到每个叶结点对应一个判定测试序列。
决策树学习的关键之一是如何选择最优划分特征,对于连续型特征还要找到最优切分点。随着划分过程不断进行,希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。
信息熵(information entropy)和基尼指数(Gini index)是度量样本集合不纯度(impurity)的常用指标。

假设当前样本集合D中第k类样本所占比例为  ( k=1,2,3,......,K ),则D 的信息熵定义为

 【人工智能】机器学习中的决策树

上述定义中的概率由数据估计得到,故称为样本集的经验熵。样本的类别分布越均匀,熵越大,样本集越混杂,纯度越低,不纯度越高;当样本属于每个类别的比例相同时,熵值最大,当所有样本都属于同一类别时,熵值为0。

【人工智能】机器学习中的决策树

 【人工智能】机器学习中的决策树

 使用特征A对于对样本集D进行划分所获得的信息增益定义为

【人工智能】机器学习中的决策树

计算信息增益

【人工智能】机器学习中的决策树

原始样本集共8个样本,标签“是”有3个,标签“否”有5个

【人工智能】机器学习中的决策树

 原始样本集8个样本,按照特征“拥有房产” ,可划分成2个子集

【人工智能】机器学习中的决策树

列表如下:

 【人工智能】机器学习中的决策树

【人工智能】机器学习中的决策树

使用房产特征划分原始样本集后所得信息增益=0.9544-0.6068= 0.3476

决策树学习算法ID3(Iterative Dichotomizer 3)就是按信息增益最大准则来选取划分特征。
信息增益最大准则倾向于选择具有大量不同取值的特征,从而产生许多小而纯的子集。例如,若把客户ID作为划分特征,切分后的条件信息熵为零,能获得最大信息增益,但是这样做毫无意义。

但信息增益比最大准则对可取值数目较少的特征有所偏好。因此,C4.5算法先从候选划分属性中找出信息增益高于平均水平的特征,再从中选择增益比最高的特征作为划分特征。

样本集的基尼值

【人工智能】机器学习中的决策树

 取V个离散值的特征A对于数据集D的基尼指数

【人工智能】机器学习中的决策树

基尼指数越大,样本的不确定性也就越大。决策树学习算法CART(Classification And Regression Tree)根据基尼指数最小来选择最优划分特征

决策树生成

三种算法对比

ID3决策树:使用信息增益作为特征选择标准
C4.5决策树在ID3决策树基础上有三点改进,其它部分相同。
(1)ID3容易偏向于优先选取取值种类较多的特征。为此,C4.5先从候选划分特征中找出信息增益高于平均水平的特征,再从中选择信息增益比最高的特征作为划分特征。
(2)ID3不能处理连续型特征。为此,C4.5对连续型特征的取值排序后按区间和阀值进行离散化。
(3)ID3决策树容易过拟合。决策树分叉过细会导致最后生成的决策树模型对训练集数据拟合特别好,但是对新数据的预测效果较差,即模型泛化能力不好。为此,C4.5引入了正则化系数进行初步的剪枝来缓解过拟合问题。

CART(Classification And Regression Tree分类回归树)
(1)ID3和C4.5计算熵值时需要计算对数,CART采用基尼系数,简化了计算。
(2)ID3和C4.5采用多叉树进行特征划分,即特征有几种类别取值就划分几棵子树,并且该特征在后续算法执行过程中被排除在候选特征之外,这种划分方式过于粗糙,特征信息的利用率较低;C4.5对连续值采用区间离散化,或多或少会损失一部分信息。CART采用二叉树对每个特征进行划分
      例如某离散特征取值{1,2,3},则分别对{1}和{2,3},{2}和{1,3},{3}和{1,2}三种情况计算,从中选择基尼系数最小的组合进行二切分,生成两个二叉子树。

        对于连续特征,对其n个取值排序后,依次取每两个相邻值的中间值作为划分点,比较这n-1次划分对应的基尼系数,选最小基尼系数对应的划分点生成二叉子树。因此,每次进行特征选择的最小单位是某个特征下的某个最优二切分点,使得CART可以对同一特征进行多次利用。
(3)ID3和C4.5只能用于分类任务。CART则可用于分类和回归。CART用于回归预测时,采用平方误差最小的划分为最优划分
    给定数据集D,m个样本,每个样本n个特征。对于每个特征,计算每种二叉划分对应的平方误差,取最小者对应的划分点;在所有特征上,选择最小者,从而得到最佳划分特征及其划分点。

(4)CART预测输出
    分类预测:每个叶子结点所含全部样本中标签类别占多数者作为它对应的标签类别预测输出。
    回归预测:每个叶子结点所含全部样本对应标签值的平均值或中位数作为它对应的标签值预测输出。

决策树剪枝

如果不限制树的规模,决策树将会一直分裂下去,直到每个叶子结点只包含一个样本为止。在理想情况下,这样做能够把训练集中的所有样本完全分开,因为每个样本各自占据一个叶子结点。这样的决策树出现完全过拟合,在测试集上的效果会很差。
剪枝策略对决策树影响巨大,是优化决策树算法的核心。有两种常见方法

预剪枝(pre-pruning)

在生成决策树的过程中提前停止树的增长。

预剪枝思想:在树中结点进行分裂之前,先计算当前划分是否能够带来模型泛化能力的提升,如果不能,则不再继续生长。此时结点中可能包括不同类别的样本,按照多数投票的原则判断该结点所属类别。停止决策树生长的常用判断条件有:树达到一定深度;当前结点的样本数量小于某个阀值;计算每次分裂对测试集的准确率提升,当小于某个阀值时,不再继续扩展。

后剪枝(post-pruning)

在已生成的过拟合决策树上进行剪枝,得到简化版的剪枝决策树。

后剪枝思想:生成一颗完全生长的决策树后,从最底层向上计算是否剪枝。剪枝过程就是把子树删除,用一个叶结点替代,该结点的类别同样按多数投票原则确定。若剪枝后在测试集上准确率有所提升,则进行剪枝。

案例—红酒分类

【人工智能】机器学习中的决策树

【人工智能】机器学习中的决策树

 【人工智能】机器学习中的决策树

 【人工智能】机器学习中的决策树

 【人工智能】机器学习中的决策树

 【人工智能】机器学习中的决策树

调参没有固定方法,一切都是看数据本身。
如果数据集非常巨大,你已经预测到无论如何都是要剪枝的,那提前设定这些参数来控制树的复杂性和大小会比较好。

案例—带噪正弦曲线拟合

Sklearn回归树衡量最佳结点和分枝的指标有
(1)criterion= “ mse ” ,使用均方误差MSE,父节点和子节点之间的均方误差的差额被用来作为划分特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。(不填该参数,则默认mse)
(2)criterion= " friedman_mse " ,使用费尔德曼均方误差(针对潜在分枝中的问题改进后的均方误差)
(3)criterion= " mae "使用平均绝对误差MAE,使用叶节点的中值来最小化L1损失。

【人工智能】机器学习中的决策树

 【人工智能】机器学习中的决策树

 【人工智能】机器学习中的决策树

跟博主一起来学习吧点击跳转文章来源地址https://www.toymoban.com/news/detail-444266.html

到了这里,关于【人工智能】机器学习中的决策树的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据一致性在人工智能与机器学习中的应用

    数据一致性是指在分布式系统中,当多个节点或进程访问和修改共享数据时,确保所有节点或进程看到的数据都是一致的状态。在人工智能(AI)和机器学习(ML)领域,数据一致性是一个重要且复杂的问题。随着数据规模的增加,分布式计算变得越来越普遍,这使得数据一致性问

    2024年02月21日
    浏览(57)
  • 人类大脑与机器学习的对话:认知过程在人工智能中的应用

    人工智能(Artificial Intelligence, AI)是一门研究如何让机器具有智能行为的科学。智能可以被定义为能够处理复杂问题、学习新知识以及适应新环境的能力。人类大脑是一个复杂的神经网络,它能够进行许多高级认知任务,如学习、记忆、推理、决策等。因此,研究人类大脑如何

    2024年02月21日
    浏览(57)
  • 【人工智能的数学基础】瑞利商在机器学习中的应用

    Rayleigh Quotient and Generalized Rayleigh Quotient. 瑞利商的定义 瑞利商的性质 广义瑞利商 瑞利商在机器学习中的应用 对于一个 Hermitan 矩阵

    2024年02月07日
    浏览(64)
  • 【人工智能的数学基础】机器学习中的假设检验(Hypothesis Test)

    Hypothesis Test in Machine Learning. 在统计学中,总体分布往往是未知的,只能从中进行有限的抽样从而获得部分样本的信息。有时需要对总体的特征做出某种假设,如何判断该假设是正确的还是错误的?需要借助 假

    2024年02月07日
    浏览(48)
  • 软件工程中的人工智能与机器学习:未来研发效能的驱动力

    人工智能(Artificial Intelligence, AI)和机器学习(Machine Learning, ML)在过去的几年里已经成为软件工程中最热门的话题之一。随着数据量的增加,计算能力的提升以及算法的创新,人工智能和机器学习技术已经成为软件开发过程中不可或缺的一部分。 在软件工程中,人工智能和机器学

    2024年02月21日
    浏览(50)
  • 人工智能在金融投资决策中的应用与未来

    随着人工智能(AI)技术的不断发展和进步,金融领域也逐渐开始利用这一技术来提高投资决策的效率和准确性。AI在金融投资决策中的应用主要体现在数据分析、风险管理、交易策略优化等方面。本文将从以下几个方面进行阐述: 背景介绍 核心概念与联系 核心算法原理和具体

    2024年02月20日
    浏览(63)
  • 决策树在社交网络和人工智能中的应用

    决策树是一种常用的机器学习算法,它可以用于解决各种分类和回归问题。在社交网络和人工智能领域,决策树算法被广泛应用于多种场景,例如用户行为预测、推荐系统、文本分类、图像识别等。本文将从以下几个方面进行阐述: 背景介绍 核心概念与联系 核心算法原理和

    2024年02月22日
    浏览(54)
  • 【人工智能】监督学习、分类问题、决策树、信息增益

    什么是决策树 —— 基本概念 非叶节点:一个属性上的测试,每个分枝代表该测试的输出 叶节点:存放一个类标记 规则:从根节点到叶节点的一条属性取值路径 模型训练:从已有数据中生成一棵决策树 分裂数据的特征,寻找决策类别的路径 相同的数据,根据不同的特征顺

    2024年02月16日
    浏览(58)
  • 《人工智能专栏》必读150篇 | 专栏介绍 & 专栏目录 & Python与PyTorch | 机器与深度学习 | 目标检测 | YOLOv5及改进 | YOLOv8及改进 | 关键知识点 | 工具

    各位读者们好,本专栏最近刚推出,限于个人能力有限,不免会有诸多错误,敬请私信反馈给我,接受善意的提示,后期我会改正,谢谢,感谢。 第一步 :[ 购买点击跳转 ] 第二步 : 代码函数调用关系图(全网最详尽-重要) 因文档特殊,不能在博客正确显示,请移步以下链接

    2024年02月02日
    浏览(78)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包