决策树(实验室会议小记)

这篇具有很好参考价值的文章主要介绍了决策树(实验室会议小记)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

特征选择

为什么要进行特征选择?

特征过多导致过拟合、有一些特征是噪音。

特征选择技术:

1、 尝试所有组合:也是全局最优

2、贪心算法:每次决策都是基于当前情况去寻找最优解。计算过程:把特征加进去→是否更优?→是:加入模型/否:淘汰

3、L1正则:目标函数为损失函数;特点:具有稀疏性

4、决策树:节点代表每个特征选择。优点:便于处理高维数据

5、相关性计算:一种脱离模型内部结构而直接分析特征\(x_i\)和标签y的相关性的方法。主要是计算向量相似度的方法。

总结:都是对比了各个特征的优劣,如何计算优劣的方法不同。

L1正则化

次梯度下降

L1正则特征选择问题

弹性网络回归

1、计算上:

(1)相关性:计算\(x_i、y_i\),扔掉差的

(2)主成分:只计算\(x_i\)

问题:

(1) 为什么信息熵这么计算?

决策树(实验室会议小记)

信息熵在神经网络里面也叫交叉熵,所有二分类问题都是这么算的。交叉熵在预测对的时候p为0/1,如果是0.5那么是不对的。

(2) 贪心算法为什么降低了复杂度?

决策树(实验室会议小记)

假设使用贪心算法,有ABCDE五个选项,并两两组合。第一次先选D做组合,即DA、DB、DC、DE,下一次再选C做组合,这时候只用考虑CA、CB、CE,不用考虑CD,以此类推。

(3) L1正则化有什么缺点?

决策树(实验室会议小记)

有一些点被扔掉了,而且是随机扔掉的。我们希望挑一个全局最好的扔掉,但是它是挑一个局部最好的扔掉。

决策树

决策树的定义

决策树的分类:

1、分类决策树 / 回归决策树

2、二叉树 / 多叉树

决策树算法:

CART算法只能构建二叉树,其他算法可以构建多叉树

有些只可以做回归或者分类

一颗决策树对应的决策边界:

需要学习:1.树的形状 2. 每一个决策的阈值\(\theta_1\) 3. 叶节点的值

好的特征特点:

分类后不确定性变小

不确定性——信息熵

事情发生的概率很低:信息熵很高

事情发生的概率很高:信息熵很低

log取2信息量是比特,取1是奈特

决策树:原来的不确定性(划分前的)-分割后的不确定性(划分后的)=不确定性的减小(信息熵-条件熵=信息增益)

信息增益最大的作为根节点:\(f_2>f_1\),所以\(f_2\)作为根节点

问题:

(1)决策树的根节点和叶节点代表什么?

根节点:输入方向;叶节点:判别指标,就是分为哪一类。也就是说,根节点是指标,最后那个叶节点是标签。根节点是输入,叶节点是输出。

(2)决策树的作用

决策树的作用:分类和回归。注意:三种树只有CART才能做回归。

(3)决策树的决策边界和线性回归的边界有什么区别?

之前线性回归边界都是二分类,现在决策边界可以包含多分类,可以有多个区域。

(4)信息熵为什么取对数?

避免他们之间的差距过大,比如一个概率是log0.01,另一个是log0.09。
决策树(实验室会议小记)

上面0.01次方和0.02次方差距会很明显,混乱程度会加剧,从而更容易做决策。

数据处理取对数:核心是为了差距变得更大(0-1之间)或更小(1以上)

(5)信息熵是做什么的?

信息熵就是在算平均信息量。

构建决策树

问题:

(1)特征一样、标签不一样的数据要不要删除?

这种数据不能删,因为这种数据会提供一定的不确定性,如果删掉信息熵会一下子降低,会导致结果变得很差。

(2)决策树中唯一路径是什么?

给一条路径,可以一条路走到底的。

(3)什么是深度?

做几次判断,深度就有多少。最大的判断值为树的深度。

(4)什么时候不用继续分类?

一条路走到底,都是F或者都是N,就可以不用继续分类。

(5)同一个样本,结果既是F也是N,这是什么情况?

同个标签但又F和N,这条样本是在决策边界上,这类数据的作用是告诉你什么地方是决策边界。这类样本是不能删除的。

决策树性能

决策树性能:提升性能——防止过拟合,越简单越好

如何避免决策树的过拟合?

最大深度对模型准确率的影响

问题:

(1)决策树过拟合有哪些原因?

  1. 数据不行:有用的特征都没有,如学习成绩和他平时吃什么。

  2. 特征样本里出现噪声

  3. 某个地方信息熵有错误,随着迭代错误越来越放大

解决方法:

  1. 剪枝(修改一些叶节点)

  2. 设置最大深度

  3. 集成学习

(2)多重比较是什么?

每次进行比较的时候都会出现错误,树的深度一旦大了,会涉及到一个过多的比较过程,错误会越来越多,误差也会随之累加起来,变得越来越大。

回归树如何构建

回归问题中量化不确定性:标准差(分类是信息熵)

问题:

(1)回归树和分类树的区别?

计算方法:回归树选择根节点是用标准差来选,分类树是信息熵去选。条件熵是差不多的

(2)回归树中如何确定标签?

决策树分裂完是同一个标签,是或者否。而回归树是有一个阈值的,就是标准差小于某个数字,那么分类就结束了。

决策树(实验室会议小记)文章来源地址https://www.toymoban.com/news/detail-479100.html

到了这里,关于决策树(实验室会议小记)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 智慧校园实验室安全综合管理平台如何保障实验室安全?

    一、建设思路 实验室安全综合管理平台是基于以实验室安全,用现代化管理思想与人工智能、大数据、互联网技术、物联网技术、云计算技术、人体感应技术、语音技术、生物识别技术、手机APP、自动化仪器分析技术有机结合,通过建立以实验室为中心的管理体系,从人员、

    2024年01月20日
    浏览(56)
  • 基于VR技术的新型实验室教学模式——VR线上生物实验室

    随着科技的发展,虚拟现实技术已经逐渐走进了我们的生活。在教育领域中,虚拟现实技术也被广泛应用于各种学科的教学中。其中,VR线上生物实验室是广州华锐互动开发的,一种基于VR技术的新型教学模式,它能够为学生提供更加真实、生动的实验体验,同时也能够更好地

    2024年02月14日
    浏览(42)
  • 实验室安全

    [判断题] 基于安全考虑,每个实验房间每天最后一个离开的同学必须确保进行断电处理【4分】 正确答案:B 解析:暂无解析 [判断题] 实验用电烙铁应有专门搁架,用毕立即切断电源【4分】 正确答案:A 解析:暂无解析 [判断题] 集中供气是解决实验室存放过多气瓶的有效途径

    2024年02月08日
    浏览(40)
  • 新知实验室

    TUIRoom 是一个包含 UI 的开源音视频组件,通过集成 TUIRoom,可以在业务中快速上线音视频房间,屏幕分享,聊天等功能。 项目是开源的项目,根据自己 的需求设计项目。 创建步骤如下 : 一、  开通腾讯云实时音视频及即时通信服务 TUIRoom 基于腾讯云实时音视频和即时通信服

    2024年02月03日
    浏览(39)
  • 实验室安全考试

    1、[判断题] 火灾对实验室构成的威胁最为严重,最为直接。应加强对火灾三要素(易燃物、助燃物、点火源)的控制。 (分值1.0) 你的答案: 正确 2、[判断题] 50毫安的工频电流就可以使人遭到致命电击。 (分值1.0) 你的答案: 正确 3、[判断题] 用电安全的基本要素有:电

    2024年02月06日
    浏览(51)
  • 【新知实验室】TRTC腾讯实时音视频动手实验

    https://cloud.tencent.com/document/product/647/16788 应用 TRTC 通过应用的形式来管理不同的业务或项目。您可以在 TRTC 控制台 给不同的业务或项目分别创建不同的应用,从而实现业务或项目数据的隔离。每个腾讯云账号最多可以创建100个 TRTC 应用。 SDKAppID SDKAppID(应用标识/应用 ID)是腾

    2024年02月01日
    浏览(35)
  • 新知实验室-TRTC如此简单

    腾讯实时音视频(Tencent Real-Time Communication,TRTC),将腾讯多年来在网络与音视频技术上的深度积累,以多人音视频通话和低延时互动直播两大场景化方案,通过腾讯云服务向开发者开放,致力于帮助开发者快速搭建低成本、低延时、高品质的音视频互动解决方案。 1、多人音

    2023年04月27日
    浏览(62)
  • WebGL在实验室方向的应用

    WebGL在实验室方向的应用涉及到实验过程的可视化、数据分析、模拟等方面。以下是一些WebGL在实验室领域的应用示例,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.分子模型和化学反应模拟: 利用WebGL,实验室研究人员可以

    2024年01月24日
    浏览(35)
  • XShell连接实验室服务器

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 第一次连接实验室服务器跑代码,因pycharm专业版学生认证需要时间,所以自学了XShell连接服务器以及提交任务,现在终于装好了,趁着热乎劲儿总结下,也希望对你有用。作者是新手小白,如有疏漏

    2024年01月24日
    浏览(45)
  • 网络安全实验室2.基础关

    url:http://lab1.xseclab.com/base1_4a4d993ed7bd7d467b27af52d2aaa800/index.php 查看网页源代码的方式有4种,分别是:1、鼠标右击会看到”查看源代码“,这个网页的源代码就出现在你眼前了;2、可以使用快捷Ctrl+U来查看源码;3、在地址栏前面加上view-source,如view-source:https://www.baidu.com ;

    2023年04月17日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包