一、贝叶斯估计
当我们需要对一个参数进行估计时,一种办法是概率论与数理统计课程中已经学过的极大似然估计(Maximum Likelihood Estimation,MLE)。例如,如果我们想估计扔硬币正面朝上的概率p,可以扔N次,记录正面朝上的次数M,再用M/N估计p。这种方法得到的参数估计是个固定的值,存在的问题就是,如果我们的样本数量不够大,参数估计就会出现过拟合。例如,我只扔了三次硬币,每次都是正面朝上(这个概率并不小),于是我就说扔硬币每次都会是正面朝上,这显然是不合理的。
解决这个问题的其中一个方法是,加入一些我们想象中的抛掷结果,比如,在我们的想象中应该有一半的次数是正面朝上,那么我们的估计就变成了
这里面的n'完全是我们假想的。这种想象其实就是先验信息,将这个思路更一般化,我们可以把参数视为一个变量,用概率来描述它,这就是最大后验估计(Maximum A Posterior,MAP)。
现在,我们的问题从给定样本x给出参数y的估计值y*,变成了给定样本x,给出参数y的概率分布P(y|x),其中使得概率最大的那个y*就可以作为我们的估计结果,即,问题转化为求
此时有两种策略,我们可以直接求P(y|x)(决策树、BP神经网络等一类机器学习模型都是直接对它建模的),也可以用贝叶斯定理进行变形。
不难看出,只有分子的两项才与y有关,分母是与y无关的,对于给定的样本x,它是一个确定的值。事实上,它的作用是归一化,因为y的所有取值的概率之和一定是1。而第一项P(x|y)是样本x相对于参数y的条件概率,这个概率可以做各种假设。第二项P(y)就是前面我们“想象”的那个概率,即先验概率。如果我们假设它是均匀分布的,此时MAE=MLP。而P(y|x),我们就相应的称之为后验概率。
假如我们有充足的独立同分布的样本x1,x2,x3...xn,那么原式就可以写成
可以看出,随着样本数量的增加,先验概率P(y)发挥的作用会越来越小,后验概率将主要由样本x决定。
综合比较MAP与MLE,极大似然估计的缺陷是小样本情况下的过拟合,而最大后验估计的问题是,如果两个人假设不同的先验概率分布,那他们就可能会得到不同的估计结果。
二、贝叶斯分类器
将贝叶斯估计用于分类任务,由于它给出的是一个概率分布,显然我们要做的是将样本归类到概率最大的那个类别中。如果我们认为一个样本x有p的概率属于类别c,那么实际上还有1-p的概率我们分错了,这就是将它分类为c所产生的期望损失(expected loss),也称为风险(risk)。对于一个二分类问题,我们可以将风险表示为
如果分类为0和1的类条件概率分布分别是p1和p2,先验概率是π1和π2,那么对风险的期望就是
这实际上从理论上给出了分类器能达到的最好性能,也就是模型精度的理论上限。但在现实任务中,由于概率密度的估计及其积分都可能是非常复杂的,所以只能通过其他方法逼近这个上限。
三、朴素贝叶斯分类器
当我们的样本有很多维特征时,即x=[x1,x2,...xn],这时条件概率就会变成
这个联合概率的计算会遇到组合爆炸的问题,特征越多问题越严重。如果样本有n个特征,每个特征有是/否两种取法,需要将样本分成k类,我们就得估计个联合概率的值,这很难从有限的样本中直接得到。为此,朴素贝叶斯分类器就假设样本的特征之间彼此独立(尽管实际中这些特征经常不是真的相互独立的,但我们仍然做出这个假设,并且在很多时候仍然能得到很不错的结果),这样,后验概率就被写成
判定准则为
这样,我们在条件概率中需要估计的概率就只有个,无疑带来了巨大的简化。
朴素贝叶斯分类器有许多应用,例如文本的分类等,并且体现了不错的效果。
四、逻辑回归文章来源:https://www.toymoban.com/news/detail-428269.html
继续对条件概率和先验概率的分布做出一些假设,就可以推导出逻辑回归模型。这就是实验二的内容,详细推导过程可以看大佬的博客实验二逻辑回归文章来源地址https://www.toymoban.com/news/detail-428269.html
到了这里,关于哈工大机器学习期末复习笔记(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!