【python库学习】 sklearn中的决策树Decision Trees

这篇具有很好参考价值的文章主要介绍了【python库学习】 sklearn中的决策树Decision Trees。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、 原理

一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列.
sklearn 决策树,决策树,python,机器学习

  • 划分准则
    决策树构建的关键是每个节点的划分准则,常用的划分准则有信息增益,信息增益率,基尼指数.
    假定当前样本集合 D中第k 类样本所占的比例为 Pk,其信息熵定义如下,信息熵越小,D的纯度越高:
    E n t ( D ) = − ∑ k = 1 ∣ y ∣ ( p k l o g 2 p k ) Ent(D)=-\displaystyle\sum_{k=1}^{|y|}(p_klog_2p_k) Ent(D)=k=1y(pklog2pk)
    由此通过划分,划分后的信息熵与划分前的信息熵差,其差为信息增益,增益越大,说明划分结果越纯.其信息增益如下,a为划分属性,V为a属性下的不同取值数. G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D,a)=Ent(D)-\displaystyle\sum_{v=1}^{V}{{|D^v| \above {1pt}|D| }Ent(D^v)} Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)
    实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,加入了对每个属性取值数进行归一化的处理,加入该处理的结果称为信息增益率,具体公式如下:
    sklearn 决策树,决策树,python,机器学习
    需注意的是,增益率准则对可取值数目较少的属性有所偏好,因此 C4.5 算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的.
    基尼指数
    sklearn 决策树,决策树,python,机器学习

  • 剪枝
    决策树剪枝是为了防止过拟合而对决策树进行优化的方法。决策树的剪枝可以分为预剪枝和后剪枝两种方法。
    预剪枝(Pre-pruning):在构造决策树的过程中,在节点划分之前,先对当前节点进行评估,如果该节点的划分不能带来决策树泛化性能的提升,那么该节点就不会被划分,直接作为叶子节点结束。
    后剪枝(Post-pruning):在决策树生成完全后,通过对整棵树进行自下而上的剪枝,将一些叶子节点替换成父节点,从而简化决策树的结构。后剪枝的常用方法是使用验证集进行评估,通过计算剪枝前后的预测准确率差异,若剪枝后的预测准确率上升则将剪枝后的节点作为叶节点。
    两个方法的差异在,预剪枝容易造成欠拟合,因为常发生当前划分点没有提升性能,然在后续划分中有提升;后剪枝是需要先生成一颗完整复杂的决策树后再进行剪枝,其计算量较大.
    在经典的CART树剪枝中,采用的就是后剪枝的方法,先生成一个最复杂的树,然后跟逐次剪掉最弱联系(衡量准则如误差发生变化时对应的最小复杂度)的树,直到只剩最后一个终结点。然后按一定准则(如测试集检测,K折交叉验证或者一个标准差准则)在一系列剪枝后的树里选择最优树作为剪枝后的输出。

  • 缺失值处理
    (1) 如何在属性值缺失的情况 进行划分属性选择?
    c4.5用了以下方案:
    该方法的关键是采用对应特征非缺失值样本计算划分准则,并采用缺失权重进行矫正.
    如属性A有缺失,则在待划分节点重新计算属性A信息熵1(采用剔除缺失后样本),然后计算属性A下的非缺失取值的信息熵2,缺失信息增益=信息熵1-信息熵2权重2,其中权重2等于属性A下某取值样本数➗(总非缺失值值样本数);最终信息增益=缺失信息增益权重1,其中权重1为总非缺失值值样本数➗总样本数.
    (2) 缺失样本如何划分到子节点中?
    同样的关键是赋予权重,非缺失样本权重均为1,缺失的样本同时放入该节点产生的所有子节点中,并赋予权重2.

  • 连续值处理
    采用离散方法进行处理,如c4,5用的是二分法,对连续值排序后,取两个连续值中间值作为划分点,计算增益.连续值特别的是在该节点得到最佳划分点划分后,还能在后面的子节点继续作为候选特征进行划分,区别是取值为上一节点划分后的子区间.

二、常见类型

常用的决策树类型包括:

  • ID3决策树:一种最早被提出的决策树算法,使用信息增益来选择特征。

  • C4.5决策树:ID3决策树的改进版本,使用信息增益率来选择特征。

  • CART决策树:以Gini指数或基尼系数为划分准则,既可以用于分类问题,也可以用于回归问题。是一种二叉树.

  • CHAID决策树:它是一种多叉树,可以用于分类和回归分析。树中每个节点都是一个特征,并通过卡方检验来确定每个特征的分裂点。通过计算每个分裂点的卡方值,选择卡方值最大的特征作为当前节点的分裂特征,然后将数据集根据该特征的不同取值分裂成多个子节点。
    CHAID决策树的主要优点是能够处理分类变量和连续变量,且可适应多叉树结构。
    首先,它对变量的多样性较为敏感,因此在处理高维度或者特征较多的数据时可能容易过拟合。
    此外,CHAID决策树在处理缺失值时需要进行数据填充,处理不完整的数据可能会影响结果的准确性。

  • MARS决策树:多自适应回归样条(Multivariate Adaptive Regression Splines),主要用于回归问题。MARS决策树节点的划分首先选择最重要的特征,然后使用样条函数插值确定划分点完成的。通过将数据划分为不同的子空间,拟合局部线性模型,MARS决策树能够适应非线性关系和高维度特征。对计算资源的需求较高,对异常值较敏感.
    节点的划分是通过以下两个步骤完成的:
    特征选择(Feature Selection):MARS决策树使用一种称为逆向逐步建模(Backward stepwise modeling)的方法来选择特征。首先,将所有特征视为自变量构建回归模型,计算每个特征的评估指标(如t值)。然后,剔除最不重要的特征(如t值小于阈值),重新构建回归模型,直到满足迭代停止条件,最终剩余的特征为重要特征。
    插值(Interpolation):在选择了划分特征之后,对每一个划分点进行二分,使用样条函数(splines)来拟合子区间的局部线性关系。通常使用最小二乘法来拟合样条函数,选择使残差平方和最小化的划分点为最佳的划分点。
    sklearn 决策树,决策树,python,机器学习

三、 优缺点

优点

  1. 根据树结构可以得到数据更多的洞察,可解释性强
  2. 无需要求对数据进行标准化,空值处理
  3. 可以同时应用分类特征与连续特征
  4. 对异常点容错性强
  5. 支持分类任务,回归任务,多输入多输出任务
  6. 拟合时间复杂度是0(logN) N为样本数.

缺点

  1. 一是不加限制会学到复杂的树结构,需要注意控制过拟合问题;
  2. 二是样本稍微变动,决策树结构就会发生变化,不太稳定,通过集成学习可以得到一定的缓解;
  3. 三是决策树的决策边界是非顺滑非连续的,这个特点使得它较难扩展;
  4. 四是决策树的构建原理是采用启发式算法如贪婪算法在单个节点上优化,这点得到的决策树可能不是全局最优的拟合,该问题同样可以通过集成学习得到缓解;
  5. 五是决策树会偏向某些样本比例大的特征,在面对不平衡的数据集,决策树偏差会比较大,建议训练前进行数据平衡处理;
  6. 最后决策树的构建原理使得它对一些特别的情况难以拟合,如异或关系。

四、sklearn.tree

本库的决策树通过分段常数逼近目标分布,深度越大,其分段越细致,同时复杂度越大,拟合越好,过拟合风险上升。决策树易于理解与解释,且生成的决策树可以可视化;无需做数据标准化处理,空值剔除等,注意的是本库不支持缺失值;其拟合时间复杂度是0(logN) N为样本数;可以处理多输出问题,可以同时接受连续值与类别型数据,注意本库不支持类别型数据;对数据假设要求不严格,在部分违反下,表现仍然不错。当然根据决策树的原理,也有一些缺点,一是不加限制会学到复杂的树结构,需要注意控制过拟合问题;二是决策树不太稳定,通过集成学习可以得到一定的缓解;三是决策树的预测是非顺滑非连续的,这个特点使得它较难扩展;四是决策树的构建原理是采用启发式算法如贪婪算法在单个节点上优化,这点得到的决策树可能不是全局最优的拟合,该问题同样可以通过集成学习得到缓解;五是在面对不平衡的数据集,决策树偏差会比较大,建议训练前进行数据平衡处理;最后决策树的构建原理使得它对一些特别的情况难以拟合,如异或关系。

sklearn 决策树,决策树,python,机器学习

分类器

本库的使用方法如下方代码示例显示,其拟合预测操作模式保持sklearn的经典方式,拟合好的树可以绘制下方形式,也可以输出txt的格式;若要更生动的树展示,或者输出为pdf格式的树,则需要借助额外的库,通过conda install python-graphviz或者pip install graphviz安装,使用方法见第二段代码示例。

>>> from sklearn.datasets import load_iris
>>> from sklearn import tree
>>> from sklearn.tree import export_text
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> clf = tree.DecisionTreeClassifier()
>>> clf = clf.fit(X, y)
>>> clf.predict([[2., 2.]]) #输出类别预测结果
>>> clf.predict_proba([[2., 2.]]) #输出各类别预测的概率
>>> tree.plot_tree(clf) #绘制决策树
>>>  #输出txt格式的决策树
>>> r = export_text(clf, feature_names=iris['feature_names'])
>>> print(r)
|--- petal width (cm) <= 0.80
|   |--- class: 0
|--- petal width (cm) >  0.80
|   |--- petal width (cm) <= 1.75
|   |   |--- class: 1
|   |--- petal width (cm) >  1.75
|   |   |--- class: 2

sklearn 决策树,决策树,python,机器学习

# 可以对树输出进行个性化设置
>>> dot_data = tree.export_graphviz(clf, out_file=None, 
...                      feature_names=iris.feature_names,  
...                      class_names=iris.target_names,  
...                      filled=True, rounded=True,  
...                      special_characters=True)  
>>> graph = graphviz.Source(dot_data) 
>>> graph.render("iris")  #输出pdf文件
>>> graph 

回归

其调用方法如下代码,不再细说。

>>> from sklearn import tree
>>> X = [[0, 0], [2, 2]]
>>> y = [0.5, 2.5]
>>> clf = tree.DecisionTreeRegressor()
>>> clf = clf.fit(X, y)
>>> clf.predict([[1, 1]])
array([0.5])

多输出问题

针对多输出的问题最直观的想法是,针对单个输出独立建模。但是实际中,多维输出之间可能存在相关性,因此可以选择拟合一个同时输出多维目标值的模型,这样更短的训练时间(只需要训练一个模型),而且表现上通常优于单个输出独立建模的方式。本库决策树通过改变下面两点实现多输出拟合:
1.叶结点上存储n维输出而不是1维
2.在树分裂时对n维输出计算评判标准,然后取平均作为最终分裂判断标准
在遇见多输出时,前面的分类与回归方法均支持,目标输入由 (n_samples,)变为 (n_samples, n_outputs),使用方法与1维的类似,不再细谈。

时间复杂度

根据决策树的构建原理,容易得到一个节点,对每个个特征计算最佳评判标准值,需要计算N_features次,计算一个特征的一个分割点的评判标准值为O(N_samples),计算一个特征最佳分割点需要计算log(N_samples)次的评判标准值,因此构建一个节点需要O(N_featuresN_sampleslog(N_samples)),构建一棵树为O(N_featuresN_samples^2log(N_samples)).当树是均衡的二叉树时,其时间复杂度为O(N_featuresN_sampleslog(N_samples))+log(N_samples)。

实际应用注意点

参数列表

共12个参数

参数名 含义 应用说明
criterion 判定准则 {“gini”, “entropy”, “log_loss”},该库中实现的是CART树,因此默认”gini”
splitter 节点划分策略 {“best”, “random”},默认”best”
max_depth 树深 默认”None”,应用见4,不设置则持续分裂到最低阈值(见应用6)
min_samples_split 最小分割样本量 默认2,可设置为整数或者小数,整数为样本数,小数为输入样本比例
min_samples_leaf 最小叶结点样本量 默认1,用法同min_samples_split
min_weight_fraction_leaf 最小叶结点样本权重 默认0,为叶结点样本权重总和,应用见6点
max_features 节点划分最大特征集数 int, float or {“auto”, “sqrt”, “log2”}, default=None,其中小数为特征数比例
random_state 随机状态 主要用于在选择候选特征时,设置后提高划分的一致性
max_leaf_nodes 最大叶结点数 int, default=None,建议根据非纯度下降情况进行设置
min_impurity_decrease 划分非纯度最小下降值 float, default=0.0,设置后对结点是否能分裂添加纯度提升阈值判定,小于阈值不进行结点分裂
class_weight 类权重 dict, list of dict or “balanced”, default=None,对多类分类时,接受[{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] 输入而不是[{1:1}, {2:5}, {3:1}, {4:1}].
ccp_alpha 最小成本计算复杂度剪枝参数 non-negative float, default=0.0,见最小成本计算复杂度剪枝内容
  1. 树对有大量特征的情况下容易过拟合,因此注意样本数与特征数的比例,样本数少维度高的时候容易过拟合
  2. 可以考虑在树拟合前进行降维处理(PCA, ICA, or Feature selection),这样树拟合的时候找到有区别的特征的几率更大
  3. 理解树的结构有助于在树做预测时获得更多的洞察,这对数据特征重要性的理解很重要
  4. 在首次拟合树时,可以设置最大深度为3,输出树的拟合样子,有助于理解模型是如何拟合数据集的;然后再逐步加深树
  5. 记住树每加深一层,所需样本数翻倍,根据该点去限制最大深度预防过拟合
  6. 使用参数 min_samples_split (最小分割样本量)或者min_samples_leaf (最小叶结点样本量)防止过拟合;在大型数据集下,可以尝试设置 min_samples_leaf=5;这两个参数的差别在于前者可以得到任意样本数的叶结点,后者确保每一个叶结点样本数的下限,这避免了在回归任务中的出现过拟合,低方差的叶结点;在分类任务中通常设置 min_samples_leaf=1;当样本带有样本权重时,考虑设置参数min_weight_fraction_leaf 或者 min_impurity_decrease 。
  7. 在数据不平衡的场景下,建议在训练前对训练集进行数据平衡处理,如从每类中采样同样数量的样本,或者将每个类的样本权重之和归一化为相同的值;注意使用基于权重的预剪枝min_weight_fraction_leaf参数,得到的树模型偏差要小于非权重的预剪枝 min_samples_leaf。
  8. 本库所有决策树采用的是np.float32数据集,如果训练集不是该类型,将对训练集生成副本。这在大型数据集下需要考虑空间资源的问题。
  9. 如果训练集X非常稀疏,建议在拟合前转化为稀疏的csc_matrix矩阵,在预测前将预测集转化为csr_matrix矩阵,如此在有许多样本中含0 的场景下,使用稀疏矩阵训练可以快几个数量级。

树算法ID3, C4.5, C5.0 and CART

本库实现的是CART树

  • ID3是多分枝树,每个节点基于分类型目标计算分类型特征的最大信息增益得到分割点,树先构建到最大尺寸,然后进行后剪枝操作。
  • C4.5相比于ID3,取消了特征必须是分类型的限制,对于数值型特征采用分段离散的方法进行处理;采用的是信息增益率而非信息增益考虑到了特征差异值较多信息增益天然高的问题。C4.5将训练好的树转化为if else的规则集,然后按顺序对每条规则进行验证,当去除该条规则,准确度上升则删除该条规则(类似后剪枝)。
  • C5.0在C4.5的基础上使用内存更小,产出的规则集更小,准确度更高。
  • CART树构造二叉树,支持数值型的目标变量,分类任务使用基尼指数进行构造,回归时采用平方误差进行构造;不会计算规则集。

最小成本计算复杂度剪枝

其原理可以参考这篇文章CART树剪枝,总的原理是代价,复杂度,与剪枝间的关系,代价是每个叶结点错误分类的权重均值 R ( T ) R(T) R(T) ;复杂度由参数 α \alpha α进行控制,按照下方公式进行复杂度计算;剪枝则为将非叶结点做为叶结点,这样该结点后面的部分被丢弃;这样每一次剪枝对应一个新的复杂度(通过下方包含了代价与复杂参数的公式计算)。
sklearn 决策树,决策树,python,机器学习
总的剪枝流程是,先生成一个最复杂的树,然后跟逐次剪掉最弱联系(复杂度发生变化时对应最小的 α \alpha α)的树,直到只剩最后一个终结点。然后按一定准则(如测试集检测,K折交叉验证或者一个标准差准则)在一系列剪枝后的树里选择最优树作为剪枝后的输出。文章来源地址https://www.toymoban.com/news/detail-860555.html

到了这里,关于【python库学习】 sklearn中的决策树Decision Trees的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习算法之决策树(decision tree)

    决策树(Decision Tree,又称为判定树)算法是机器学习中常见的一类算法,是一种以树结构形式表达的预测分析模型。决策树属于监督学习(Supervised learning),根据处理数据类型的不同,决策树又为分类决策树与回归决策树。最早的的决策树算法是由Hunt等人于1966年提出,Hunt算法

    2024年02月13日
    浏览(48)
  • 【机器学习】决策树(Decision Tree,DT)算法介绍:原理与案例实现

    前言   决策树算法是机器学习领域中的一种重要分类方法,它通过树状结构来进行决策分析。决策树凭借其直观易懂、易于解释的特点,在分类问题中得到了广泛的应用。本文将介绍决策树的基本原理,包括熵和信息熵的相关概念,以及几种经典的决策树算法。   在进

    2024年04月11日
    浏览(42)
  • 机器学习集成学习——GBDT(Gradient Boosting Decision Tree 梯度提升决策树)算法

    机器学习神经网络——Adaboost分离器算法 机器学习之SVM分类器介绍——核函数、SVM分类器的使用 机器学习的一些常见算法介绍【线性回归,岭回归,套索回归,弹性网络】 文章目录 系列文章目录 前言 一、GBDT(Gradient Boosting Decision Tree) 梯度提升决策树简介 1.1、集成学习 1.2、

    2024年02月09日
    浏览(51)
  • 机器学习--sklearn(决策树)

    决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。 节点 根节点:没有进边,有出边。包含最初的,针对特征的提问。 中间节点:既有进边也有出边,进

    2023年04月18日
    浏览(34)
  • sklearn的系统学习——决策树分类器(含有python完整代码)

    目录 一、什么是决策树 二、怎么使用决策树解决分类问题 1、重要参数 (1)Criterion (2)random_state (3)splitter   (4)   剪枝参数 (5)目标权重参数 2、重要接口 3、重要属性 三、决策树的优缺点以及适用场景 四、代码 使用原因 :python可以实现算法,但是比较复杂,耗时耗

    2023年04月10日
    浏览(35)
  • 什么是机器学习?监督学习的定义、概率论的基本概念以及模型选择、过拟合与欠拟合的问题。常见的监督学习算法,包括朴素贝叶斯(Naive Bayes)、决策树(Decision Tree)支持向量机随机森林

    作者:禅与计算机程序设计艺术 什么是机器学习?从定义、发展历程及目前的状态来看,机器学习由3个主要分支组成:监督学习(Supervised Learning),无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)。这三类学习都可以使计算机系统根据输入数据自动分析和改

    2024年02月09日
    浏览(53)
  • sklearn机器学习库(二)sklearn中的随机森林

    集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果, 以此来获取比单个模型更好的回归或分类表现 。 多个模型集成成为的模型叫做集成评估器(ensemble estimator),组成集成评估器的每个模型都叫做基评估器(base estimator)。通常来说,有三类集成算法:

    2024年02月12日
    浏览(46)
  • 头歌机器学习---sklearn中的kNN算法

    第1关 使用sklearn中的kNN算法进行分类 第2关 使用sklearn中的kNN算法进行回归

    2024年02月06日
    浏览(48)
  • 【机器学习】进阶学习:详细解析Sklearn中的MinMaxScaler---原理、应用、源码与注意事项

    【机器学习】进阶学习:详细解析Sklearn中的MinMaxScaler—原理、应用、源码与注意事项 这篇文章的质量分达到了 97分 ,虽然满分是100分,但已经相当接近完美了。 请您耐心阅读,我相信您一定能从中获得不少宝贵的收获和启发~ 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matp

    2024年03月12日
    浏览(56)
  • 【机器学习】详细解析Sklearn中的StandardScaler---原理、应用、源码与注意事项

    【机器学习】详细解析Sklearn中的StandardScaler—原理、应用、源码与注意事项 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订阅和支持~ 💡 创作高质量博文(平均质量分92+),分

    2024年03月20日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包