机器学习R简答-TYUT

这篇具有很好参考价值的文章主要介绍了机器学习R简答-TYUT。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

老师说的内容也不多,有遗漏欢迎补充。

第一章

1.什么是机器学习?

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

2.什么是版本空间?

  与训练集一致的假设集合,称为版本空间。

第二章

1.什么是过拟合和欠拟合?过拟合是由什么导致的?如何缓解过拟合?

过拟合:模型过于复杂,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样会导致泛化性能下降。

欠拟合:模型过于简单,没有很好地捕捉到训练样本中数据特征,不能很好地拟合数据。

造成过拟合的原因:

  1. 模型过于复杂
  2. 训练数据集样本单一或样本不足
  3. 数据噪声太大或干扰信息太多
  4. 训练迭代次数太多,对数据反复训练会让模型学到偶然的特征。

如何缓解过拟合?

  1. 采用合适的模型,控制模型复杂度
  2. 使用不同分布的数据训练。如数据增强,预训练。
  3. 使用图像裁剪方法对图像进行预处理
  4. 降低特征的数量
  5. L1、L2正则化,降低模型复杂度

2.什么是调参?

许多学习算法都有些参数,参数配置不同,学得模型的性能会有显著差异。进行模型评估和选择时,除了要对适用学习算法进行选择,还需要对算法的参数进行设定,这就是调参。

3.ROC曲线与P-R曲线的区别

P-R曲线对于各类别之间样本分布比例比较敏感,因为查准率同时和真值正负的样本都相关。

ROC曲线对于各类别之间样本分布比例不敏感,因为FPR和TPR各自只跟真值为负或真值为正的样本相关。

第三章

1.哑变量化的优点好处有哪些?

一是解决了模型不好处理特征数据的问题;二是降低特征中包含的噪声,提升特征的表达能力。

2.线性判别分析的基本原理是?

LDA是一种经典的线性学习方法。基本原理是给定训练样例集,将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例投影点尽可能远离;对新样本进行分类时,将其投影到同样的这条直线上,根据投影点的位置确定新样本的类别。

3.再缩放有哪三种做法?过程是怎样的?

(1)直接对训练集里的反类样例进行的欠采样。即去除一些反例使正反例数目接近,然后进行学习

(2)直接对训练集里的正类样例进行的过采样。即增加一些正例使正反例数目接近,然后进行学习

(3)阈值移动:基于原始训练集进行学习,在用训练好的分类器进行预测时,将执行式嵌入决策过程中。

4.多分类学习 

多分类学习,本质上是用二分类学习器解决多分类问题。首先对问题进行拆分,拆出的每个二分类任务训练一个分类器,在对每个分类器的预测结果进行集成得出最终结果。

一对一OVO

拆分时将N个类别分为N(N-1)/2个二分类任务和二分类分类器,测试时在N(N-1)/2个结果中投票,最多的结果即为最终结果。

一对多OVR

拆分时一个类为正例,其余为反例。将N个类别分为N个二分类任务和二分类分类器,测试时在N个结果中比较置信度,最高的结果即为最终结果。

多对多MVM 

拆分时若干为正例,若干为反例。N个类别作M次划分,M个训练集和二分类器。类别划分由编码矩阵指定。常见的二元码:正类反类,三元码:正类反类停用类。通过矩阵计算海明距离欧氏距离,取最小作为结果。

第四章

1.剪枝处理的基本策略

剪枝是应对过拟合的主要手段。分为预剪枝和后剪枝,预剪枝提前结束决策树的增长,而后剪枝决策树生长完成后再进行剪枝。

第六章

1.软间隔支持向量机和硬间隔支持向量机的区别。

支持向量机形式上要求所有样本均满足约束,即所有样本都必须划分正确,这称为“硬间隔”,它适用于训练数据线性可分;而软间隔则是允许某些样本不满足约束,适用于训练数据近似线性可分。文章来源地址https://www.toymoban.com/news/detail-487548.html

到了这里,关于机器学习R简答-TYUT的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 多模态机器学习对齐内容

    [1] Liang P P, Zadeh A, Morency L P. Foundations and recent trends in multimodal machine learning: Principles, challenges, and open questions[J]. arXiv preprint arXiv:2209.03430, 2022. [2] Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(2):

    2024年02月08日
    浏览(29)
  • 机器学习重要内容:特征工程之特征抽取

    目录 1、简介 2、⭐为什么需要特征工程 3、特征抽取 3.1、简介 3.2、特征提取主要内容 3.3、字典特征提取 3.4、\\\"one-hot\\\"编码 3.5、文本特征提取 3.5.1、英文文本 3.5.2、结巴分词 3.5.3、中文文本 3.5.4、Tf-idf ⭐所属专栏:人工智能 文中提到的代码如有需要可以私信我发给你噢😊 特

    2024年02月12日
    浏览(39)
  • 数据标注赋能机器学习进行内容审核

    数据标注一直以来都是人工智能的基础,是机器学习得以训练的不可或缺的步骤。随着互联网的兴起,如何创建和维护一个健康的网络环境将成为互联网平台不断解决的问题,但对于与日俱增的用户增长和铺天盖地的网络信息,人工审核内容变得不切实际,企业纷纷转向机器

    2024年02月09日
    浏览(35)
  • 垃圾邮件识别(一):用机器学习做中文邮件内容分类

    随着微信的迅速发展,工作和生活中的交流也更多依赖于此,但是由于邮件的正式性和规范性,其仍然不可被取代。但是不管是企业内部工作邮箱,还是个人邮箱,总是收到各种各样的垃圾邮件,包括商家的广告、打折促销信息、澳门博彩邮件、理财推广信息等等,不管如何

    2024年02月08日
    浏览(52)
  • 基于机器学习的内容推荐算法及其心理学、社会学影响闲谈

    基于机器学习的内容推荐算法目前在各类内容类APP中使用的非常普遍。在购物、时尚、新闻咨询、学习等领域,根据用户的喜好,进行较为精准的用户画像与内容推荐。此类算法不但可以较为准确的分析用户的特征,如年龄、性别等,还能通过长期的跟踪维护,大致确定用户

    2024年02月07日
    浏览(47)
  • JUC并发编程——集合类不安全及Callable(基于狂神说的学习笔记)

    List不安全 CopyOnWriteArrayList与vector对比,以下来自CSDN智能助手的回答: Java中的CopyOnWriteArrayList和Vector都是线程安全的动态数组,可以在多线程环境下使用。 CopyOnWriteArrayList使用了一种特殊的写时复制机制,它在对数组进行修改时,会创建一个新的副本,而不是直接在原数组上

    2024年02月07日
    浏览(55)
  • ROS机器人实战,对标古月老师HRMRP机器人(一)——机器人总体方案设计

    咳咳!这个是自己的毕业设计,内容比较多就拆开发。设计实现了一款SLAM移动机器人,加机械臂完成视觉识别抓取的,同时还有语音识别控制、QT上位机控制、Web网页控制。前几年看古月老师的视频,看到古月老师设计的HRMRP(混合实时移动机器人平台),就也来对标一下!

    2024年04月28日
    浏览(35)
  • 汪老师分享 - 51单片机具有避障控制及路径规划功能的清洁机器人设计

    序 🔥 毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的

    2024年02月03日
    浏览(43)
  • 区块链北大肖老师学习笔记3

    第四节:比特币的共识协议 数字货币和纸质货币区别是可以复制,叫作双花攻击  即double spending attack。 去中心化货币要解决两个问题:①数字货币的发行②怎么验证交易的有效性,防止double spending attack。    答案:①比特币的发行是由挖矿决定的 ②依靠区块链的数据结构 比特

    2024年02月09日
    浏览(29)
  • 区块链北大肖老师学习笔记4

    第五节 比特币系统的实现 区块链是去中心化的账本,比特币使用的是基于交易的这种账本模式(transaction[交易]-based ledger[账本])。系统当中并不会显示每个账户有多少钱。 比特币系统的全节点要维护一个叫UTXO(unspent transaction output)(还没有被花出去的交易的输出)的数据结构。区

    2023年04月19日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包