sklearn-决策树

这篇具有很好参考价值的文章主要介绍了sklearn-决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

决策树算法关键

特征维度&判别条件

决策树算法:选择决策条件

纯度的概念

信息增益

增益率:

基尼指数:

纯度度量方法

1) 纯度函数

2) 纯度度量函数


sklearn-决策树,2021 AI python,sklearn,决策树,人工智能

决策树算法关键

了解了“if-else”原理,下面我们进一步认识决策树算法。决策树算法涉及了几个重要的知识点:“决策树的分类方法”,“分支节点划分问题”以及“纯度的概念”。当然在学习过程中还会涉及到“信息熵”、“信息增益”、“基尼指数”的概念,相关知识在后面会逐一介绍。

特征维度&判别条件

我们知道分类问题的数据集由许多样本构成,而每个样本数据又会有多个特征维度,比如前面例子中马的“声音”,“眼睛”都属于特征维度,在决策算法中这些特征维度属于一个集合,称为“特征维度集”。数据样本的特征维度与最终样本的分类都可能存在着某种关联,因此决策树的判别条件将从特征维度集中产生。

在机器学习中,决策树算法是一种有监督的分类算法,我们知道机器学习其实主要完成两件事,一个是模型的训练与测试,另外一个是预测数据的(分类问题,预测类别),因此对于决策树算法而言,我们要考虑如何学会自动选择最合适的判别条件,如图 1 所示,只利用前三个特征就完成了分类的预测。这也将是接下来要探讨的重要问题。

决策树算法:选择决策条件

首先来看一个“我想你来猜”的游戏,游戏规则很简单:一个人从脑海中构建一个事物,另外几个人最多可以向他提问 20 个问题,游戏规定,问题的答案只能用是或者否来回答。问问题的人通过回答者的“答案”来推分析、逐步缩小待猜测事物的范围,从而来判断他想的是什么。其实这个游戏与决策树工作过程相似。

那么你有没有考虑过要怎样选择“问什么问题”呢,在这里“问什么问题”就相当于决策树算法中的“判别条件”。选择什么判别条件,可以让我们又快又准确的实现分类,这是本节介绍的重点知识。

纯度的概念

决策树算法引入了“纯度”的概念,“纯”指的是单一,而“度”则指的是“度量”。“纯度”是对单一类样本在子集内所占重的的度量。

在每一次判别结束后,如果集合中归属于同一类别的样本越多,那么就说明这个集合的纯度就越高。

比如,二元分类问题的数据集都会被分成两个子集,我们通过自己的纯度就可以判断分类效果的好与坏,子集的纯度越高,就说明分类效果越好。

上一节我们提到过,决策树算法是一类算法,并非某一种算法,其中最著名的决策树算法有三种,分别是 ID3、C4.5 和 CART。虽然他们都属于决策树算法,不过它们之间也存在着一些细微的差别,主要是体现在衡量“纯度”的方法上,它们分别采用了

sklearn-决策树,2021 AI python,sklearn,决策树,人工智能

信息增益

某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,

熵越大,样本的不确定性就越大。

因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。
通俗的讲:

  1. 熵可以指的是某个信息的信息熵
  2. 条件熵指的是在某种条件下信息熵的大小
  3. 信息增益 = 信息熵 - 条件熵
  4. sklearn-决策树,2021 AI python,sklearn,决策树,人工智能

机器学习:决策树之信息熵、信息增益、信息增益率、基尼指数分析_信息熵增益率_示木007的博客-CSDN博客

增益率:

当特征值种类较多时,大幅度降低其重要性。调整后的信息增益,我们叫做信息增益率。

增益率:增益率是用前面的信息增益Gain(D, a)和属性a对应的"固有值"(intrinsic value)的比值来共同定义的。

基尼指数:

CART 决策树 [Breiman et al., 1984] 使用"基尼指数" (Gini index)来选择划分属性.

CART 是Classification and Regression Tree的简称,这是一种著名的决策树学习算法,分类和回归任务都可用

基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率。故,Gini(D)值越小,数据集D的纯度越高。

数据集 D 的纯度可用基尼值来度量:

sklearn-决策树,2021 AI python,sklearn,决策树,人工智能

纯度度量规则

那么我们应该采取什么样的方法去“衡量”某个集合中某一类别样本的纯度呢?当我们学习完机器学习之后,我们总不能还使用人工的方式去验证吧,那可真是徒劳无功了。
要想明确纯度的衡量方法,首先我们要知道一些度量“纯度”的规则。下面我们将类别分为“正类与负类”,如下所示:

  • 某个分支节点下所有样本都属于同一个类别,纯度达到最高值。
  • 某个分支节点下样本所属的类别一半是正类一半是负类,此时,纯度取得最低值。
  • 纯度代表一个类在子集中的占比多少,它并不在乎该类究竟是正类还是负类。比如,某个分支下不管是正类占比 60% 还是负类占比 60%,其纯度的度量值都是一样的。


决策树算法中使用了大量的二叉树进行判别,在一次判别后,最理想的情况是分支节点下包含的类完全相同,也就是说不同的类别完全分开,但有时我们无法只用一个判别条件就让不同的类之间完全分开,因此选择合适判别条件区划分类是我们要重点掌握的。

纯度度量方法

根据之前学习的机器学习算法,如果要求得子集内某一类别所占比最大或者最小,就需要使用求极值的方法。因此,接下来探讨使得纯度能够达到最大值和最小值的“纯度函数”。

1) 纯度函数

现在我们做一个函数图像,横轴表示某个类的占比,纵轴表示纯度值,然后我们根据上面提出的“纯度度量规则”来绘制函数图像:

首先某个类达到最大值,或者最小值时,纯度达到最高值,然后,当某一个类的占比达到 0.5 时,纯度将取得最低值。由这两个条件,我们可以做出 a/b/c 三个点,最后用一条平滑的曲线将这三个点连接起来。如下所示:
 

sklearn-决策树,2021 AI python,sklearn,决策树,人工智能


图1:纯度函数图像
 

如上图,我们做出了一条类似于抛物线的图像,你可以把它看做成“椭圆”的下半部分。当在 a 点时某一类的占比纯度最小,但是对于二元分类来说,一个类小,另一个类就会高,因此 a 点时的纯度也最高(与 b 恰好相反),当某类的纯度占比在 c 点时,对于二元分类来说,两个类占比相同,此时的纯度值最低,此时通过 c 点无法判断一个子集的所属类别。

2) 纯度度量函数

前面在学习线性回归算法时,我们学习了损失函数,它的目的是用来计算损失值,从而调整参数值,使其预测值不断逼近于误差最小,而纯度度量函数的要求正好与纯度函数的要求相反,因为纯度值越低意味着损失值越高,反之则越低。所以纯度度量函数所作出来的图像与纯度函数正好相反。如下图所示:
 

sklearn-决策树,2021 AI python,sklearn,决策树,人工智能


图2:纯度度量函数

上图就是纯度度量函数,它与纯度函数恰好相反。纯度度量函数图像适应于所有决策树算法,比如 ID3、C4.5、CART 等经典算法。文章来源地址https://www.toymoban.com/news/detail-651249.html

到了这里,关于sklearn-决策树的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能基础_机器学习003_有监督机器学习_sklearn中线性方程和正规方程的计算_使用sklearn解算八元一次方程---人工智能工作笔记0042

    然后我们再来看看,如何使用sklearn,来进行正规方程的运算,当然这里 首先要安装sklearn,这里如何安装sklearn就不说了,自己查一下 首先我们还是来计算前面的八元一次方程的解,但是这次我们不用np.linalg.solve这个 解线性方程的方式,也不用 直接 解正规方程的方式: 也就是上面这种

    2024年02月08日
    浏览(39)
  • 自动化决策支持:人工智能帮助制造业做出最佳决策

    作者:禅与计算机程序设计艺术 近年来,人工智能领域的高新技术、大数据技术和机器学习技术越来越成熟,而这些技术也正在改变着制造业的各个环节。自动化决策支持技术就是利用人工智能技术解决制造业中最棘手的问题——如何做出正确的决策,从而提升生产效率、降

    2024年02月06日
    浏览(54)
  • 【人工智能】机器学习中的决策树

    目录 特征选择 特征选择 树的生成 树的剪枝 特征如何选择 计算信息增益 样本集的基尼值 决策树生成 三种算法对比 决策树剪枝 预剪枝(pre-pruning) 后剪枝(post-pruning) 案例—红酒分类 案例—带噪正弦曲线拟合 本次实验是由python语言为基础学习网站分享给大家 点击右边链接进行

    2024年02月04日
    浏览(46)
  • 【人工智能】监督学习、分类问题、决策树、信息增益

    什么是决策树 —— 基本概念 非叶节点:一个属性上的测试,每个分枝代表该测试的输出 叶节点:存放一个类标记 规则:从根节点到叶节点的一条属性取值路径 模型训练:从已有数据中生成一棵决策树 分裂数据的特征,寻找决策类别的路径 相同的数据,根据不同的特征顺

    2024年02月16日
    浏览(37)
  • 人工智能决策系统的未来:如何改善人类直觉

    人工智能(Artificial Intelligence, AI)是一种使计算机能够像人类一样学习、理解和应用自然语言的技术。人工智能决策系统(Artificial Intelligence Decision Systems, AIDS)是一种利用人工智能技术来支持和自动化决策过程的系统。这些系统可以帮助组织更有效地利用数据、信息和知识来

    2024年02月03日
    浏览(35)
  • 解密人工智能:决策树 | 随机森林 | 朴素贝叶斯

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 机器学习算法是一种基于数据和经验的算法,通过对大量数据的学习和分析,自动发现数据中的模式、规律和关联,并利用这些模式和规律来进行预测、分类或优化

    2024年01月21日
    浏览(36)
  • 人工智能与人类合作:提高决策效率的关键

    人工智能(Artificial Intelligence, AI)是一种使计算机能够像人类一样思考、学习和理解自然语言的技术。人工智能的主要目标是让计算机能够自主地进行决策和问题解决,以及与人类进行自然的交互。随着数据量的增加和计算能力的提升,人工智能技术在各个领域取得了显著的进

    2024年01月16日
    浏览(87)
  • 人工智能专栏第十讲——马尔可夫决策过程

    马尔可夫决策过程(Markov Decision Process, MDP)是一类用于描述决策问题的数学模型。该模型可以将决策问题的状态、决策、动作、收益等概念进行形式化,并通过数学方法进行求解,得到一个最优的决策策略。马尔可夫决策过程广泛应用于智能控制、机器学习、人工智能等领域

    2024年02月08日
    浏览(30)
  • 人工智能与计算机辅助决策的技术融合

    人工智能(Artificial Intelligence, AI)和计算机辅助决策(Computer-Aided Decision, CAD)是两个不同的领域,但它们之间存在密切的联系和相互作用。人工智能主要关注于模拟和创造人类智能的机器,包括学习、理解自然语言、视觉识别、推理和决策等方面。而计算机辅助决策则关注于利用

    2024年02月22日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包