哈工大机器学习期末复习笔记(一)

这篇具有很好参考价值的文章主要介绍了哈工大机器学习期末复习笔记(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、贝叶斯估计

当我们需要对一个参数进行估计时,一种办法是概率论与数理统计课程中已经学过的极大似然估计(Maximum Likelihood Estimation,MLE)。例如,如果我们想估计扔硬币正面朝上的概率p,可以扔N次,记录正面朝上的次数M,再用M/N估计p。这种方法得到的参数估计是个固定的值,存在的问题就是,如果我们的样本数量不够大,参数估计就会出现过拟合。例如,我只扔了三次硬币,每次都是正面朝上(这个概率并不小),于是我就说扔硬币每次都会是正面朝上,这显然是不合理的。

解决这个问题的其中一个方法是,加入一些我们想象中的抛掷结果,比如,在我们的想象中应该有一半的次数是正面朝上,那么我们的估计就变成了

哈工大机器学习期末复习笔记(一)

这里面的n'完全是我们假想的。这种想象其实就是先验信息,将这个思路更一般化,我们可以把参数视为一个变量,用概率来描述它,这就是最大后验估计(Maximum A Posterior,MAP)。

现在,我们的问题从给定样本x给出参数y的估计值y*,变成了给定样本x,给出参数y的概率分布P(y|x),其中使得概率最大的那个y*就可以作为我们的估计结果,即,问题转化为求

此时有两种策略,我们可以直接求P(y|x)(决策树、BP神经网络等一类机器学习模型都是直接对它建模的),也可以用贝叶斯定理进行变形。

不难看出,只有分子的两项才与y有关,分母是与y无关的,对于给定的样本x,它是一个确定的值。事实上,它的作用是归一化,因为y的所有取值的概率之和一定是1。而第一项P(x|y)是样本x相对于参数y的条件概率,这个概率可以做各种假设。第二项P(y)就是前面我们“想象”的那个概率,即先验概率。如果我们假设它是均匀分布的,此时MAE=MLP。而P(y|x),我们就相应的称之为后验概率

假如我们有充足的独立同分布的样本x1,x2,x3...xn,那么原式就可以写成

可以看出,随着样本数量的增加,先验概率P(y)发挥的作用会越来越小,后验概率将主要由样本x决定。

综合比较MAP与MLE,极大似然估计的缺陷是小样本情况下的过拟合,而最大后验估计的问题是,如果两个人假设不同的先验概率分布,那他们就可能会得到不同的估计结果。

二、贝叶斯分类器

将贝叶斯估计用于分类任务,由于它给出的是一个概率分布,显然我们要做的是将样本归类到概率最大的那个类别中。如果我们认为一个样本x有p的概率属于类别c,那么实际上还有1-p的概率我们分错了,这就是将它分类为c所产生的期望损失(expected loss),也称为风险risk)。对于一个二分类问题,我们可以将风险表示为

如果分类为0和1的类条件概率分布分别是p1和p2,先验概率是π1和π2,那么对风险的期望就是

哈工大机器学习期末复习笔记(一)

 这实际上从理论上给出了分类器能达到的最好性能,也就是模型精度的理论上限。但在现实任务中,由于概率密度的估计及其积分都可能是非常复杂的,所以只能通过其他方法逼近这个上限。

三、朴素贝叶斯分类器

当我们的样本有很多维特征时,即x=[x1,x2,...xn],这时条件概率就会变成

这个联合概率的计算会遇到组合爆炸的问题,特征越多问题越严重。如果样本有n个特征,每个特征有是/否两种取法,需要将样本分成k类,我们就得估计个联合概率的值,这很难从有限的样本中直接得到。为此,朴素贝叶斯分类器就假设样本的特征之间彼此独立(尽管实际中这些特征经常不是真的相互独立的,但我们仍然做出这个假设,并且在很多时候仍然能得到很不错的结果),这样,后验概率就被写成

判定准则为

这样,我们在条件概率中需要估计的概率就只有个,无疑带来了巨大的简化。

朴素贝叶斯分类器有许多应用,例如文本的分类等,并且体现了不错的效果。

四、逻辑回归

继续对条件概率和先验概率的分布做出一些假设,就可以推导出逻辑回归模型。这就是实验二的内容,详细推导过程可以看大佬的博客实验二逻辑回归文章来源地址https://www.toymoban.com/news/detail-428269.html

到了这里,关于哈工大机器学习期末复习笔记(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [图论]哈尔滨工业大学(哈工大 HIT)学习笔记23-31

    视频来源:4.1.1 背景_哔哩哔哩_bilibili 目录 1. 哈密顿图 1.1. 背景 1.2. 哈氏图 2. 邻接矩阵/邻接表 3. 关联矩阵 3.1. 定义 4. 带权图 (1)以地球为建模,从一个大城市开始遍历其他大城市并且返回,每个顶点只能被通过一次 (1)定义:如果G中有生成圈,则称G为哈氏图 (2)和欧

    2024年02月22日
    浏览(55)
  • 哈工大2022秋自然语言处理NLP期末考试回忆版试题

    刚考完NLP,趁着还没忘记,写一个回忆版试题。 题型及得分:选择题20道,每道1分;填空题10道,每道1分;判断题15道,每道1分;简答题4道,每道5分;推理题2道,每道10分;综合题1道,15分。合计100分。 选择题主要考察知识点的记忆,考了“编辑距离”,“词向量one-hot表

    2024年02月09日
    浏览(36)
  • 【操作系统OS】学习笔记:第二章 进程与线程 (上)【哈工大李治军老师】

    基于本人观看学习 哈工大李治军老师主讲的操作系统课程 所做的笔记,仅进行交流分享 特此鸣谢李治军老师,操作系统的神作! 如果本篇笔记帮助到了你,还请点赞 关注 支持一下 ♡𖥦)!! 主页专栏有更多,如有疑问欢迎大家指正讨论,共同进步! 给大家跳段街舞感谢支持

    2024年02月02日
    浏览(58)
  • 哈工大信息内容安全实验

    前面的话:这次的实验是分为ABC三级,如图,大部分同学都会选择A或B级,本组选择微博管控(B级),但也成功实现对图片和视频的分析(A级)加入数据库,界面友好,对一种功能进行多种实现方式,选择最优效果(加分项),由于整个项目很大,这里仅提供我们小组的实验

    2024年02月01日
    浏览(40)
  • 哈工大操作系统实验三(整理自用)

    基于模板  process.c  编写多进程的样本程序,实现如下功能: + 所有子进程都并行运行,每个子进程的实际运行时间一般不超过 30 秒; + 父进程向标准输出打印所有子进程的 id,并在所有子进程都退出后才退出; 在  Linux0.11  上实现进程运行轨迹的跟踪。 + 基本任务是在内

    2024年02月11日
    浏览(40)
  • 哈工大CSAPP程序人生大作业

    正在上传…重新上传取消 计算机系统 大作业 题     目   程序人生 -Hello’s P2P  专       业    计算机科学与技术        学    号   2021110991             班    级      2103101             学       生         安心           指 导 教 师    

    2023年04月24日
    浏览(72)
  • 机器学习期末复习 贝叶斯分类器

    先验概率: 对于某一个概率事件,我们都会有基于自己已有的知识,对于这个概率事件会分别以什么概率出现各种结果会有一个预先的估计,而这个估计并未考虑到任何相关因素。 对于分类数据来说,先验概率就是取某一类的概率。 (基于自己已有的知识-已有的数据) (

    2024年02月06日
    浏览(44)
  • 哈工大csapp-LAB3程序优化

    实验报告 实 验(三) 题     目       优化                 专       业     人工智能(未来技术)     学    号    7203610716              班    级    20WJ102                学       生     孙铭蔚             指 导 教 师     刘宏伟

    2023年04月24日
    浏览(44)
  • 哈工大 计算机系统 二进制炸弹实验报告

    实验报告 实 验(三) 题     目  Binary Bomb          二进制炸弹   专       业      计算机学院          学    号               班    级                学       生              指 导 教 师                实 验 地 点        实 验 日 期     

    2023年04月15日
    浏览(48)
  • 2023哈工大软件工程考研 | 395+251 | 个人经验分享

    初试成绩 :395 政治 英语一 数学一 专业课 总分 71 76 130 118 395 复试成绩 :251(综合测试118 + 面试133) 排名 :软专1/12,本部7/83,一校三区33/262 一切都拉下帷幕了,从去年二月到今年三月,已经一年多了;中间有大起大落,有艰难曲折,但最终还算有个不错的结果。 没有感

    2023年04月09日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包