目录
一,决策数的剪枝
二,CART算法
1.CART生成
(1)回归树的生成
(2)分类树的生成
2.CART剪枝
(1)剪枝,形成一个子树序列
(2)在剪枝得到的子树序列T0,T1-----,Tn中通过交叉验证选取最优子树Ta
一,决策数的剪枝
好的决策树不高不宽
柳建男的”后剪枝“挥手创作
1.预剪枝
如果划分之前的泛化能力更强,就作为叶结点,就停止生长
我们可以通过ID3算法来生成一颗决策树模型:
深度就是4.
如果将阈值设定为0.4
以为数据集里面的坏瓜是多于好瓜的
所以我们可以得到单节点树坏瓜
这就是第二种方法,通过控制阈值控制深度进行预剪枝
假设信息增益最大的特征为脐部
以之为根节点
向下生长
将训练集的决策树拿给测试集比较
误差率为2/7,
当决策树为单节点时,如果将结果选定为好瓜,误差率为4/7
所以支持接着划分这个决定
第二层
将色泽特征变为内部节点
- 画出的决策树域测试集比较
- 此时的误差率为3/7
- 我们记得两层的决策树误差率为2/7
- 那么泛化性能变差了
我们如果选择根蒂作为下一层特征
那么
误差率为2/7,与两层时相同
出于奥卡姆剃刀原理,模型越简单越好,不向它延伸。
那么基于测试集的误差率剪枝所得到的决策树就是这样了。
2.后剪枝(自下而上的一个过程)
(1)降低错误剪枝(REP)
与误差率的唯一区别就是
自下而上
原本的完整的决策树:
此刻决策树的深度为4,那么深度能够变为3吗?
我们用基于训练集生成的决策树进行判别:
用预测计算出误差率,我们发现都错误了,误差率为1
那么我们就可以剪枝为3了。
我们回到训练集,我们发现
我们将叶节点变为好瓜
错误的
文章来源:https://www.toymoban.com/news/detail-632775.html
文章来源地址https://www.toymoban.com/news/detail-632775.html
(2)PEP
(3)MEP
(4)EBP
(5)CCP
二,CART算法
1.CART生成
(1)回归树的生成
(2)分类树的生成
2.CART剪枝
(1)剪枝,形成一个子树序列
(2)在剪枝得到的子树序列T0,T1-----,Tn中通过交叉验证选取最优子树Ta
到了这里,关于(统计学习方法|李航)第五章决策树——四五节:决策树的剪枝,CART算法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!