哈工大机器学习期末复习笔记（一）

这篇具有很好参考价值的文章主要介绍了哈工大机器学习期末复习笔记（一）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、贝叶斯估计

当我们需要对一个参数进行估计时，一种办法是概率论与数理统计课程中已经学过的极大似然估计（Maximum Likelihood Estimation，MLE）。例如，如果我们想估计扔硬币正面朝上的概率p，可以扔N次，记录正面朝上的次数M，再用M/N估计p。这种方法得到的参数估计是个固定的值，存在的问题就是，如果我们的样本数量不够大，参数估计就会出现过拟合。例如，我只扔了三次硬币，每次都是正面朝上（这个概率并不小），于是我就说扔硬币每次都会是正面朝上，这显然是不合理的。

解决这个问题的其中一个方法是，加入一些我们想象中的抛掷结果，比如，在我们的想象中应该有一半的次数是正面朝上，那么我们的估计就变成了

$哈工大机器学习期末复习笔记（一）$

这里面的n'完全是我们假想的。这种想象其实就是先验信息，将这个思路更一般化，我们可以把参数视为一个变量，用概率来描述它，这就是最大后验估计（Maximum A Posterior，MAP）。

现在，我们的问题从给定样本x给出参数y的估计值y*，变成了给定样本x，给出参数y的概率分布P（y|x），其中使得概率最大的那个y*就可以作为我们的估计结果，即，问题转化为求

此时有两种策略，我们可以直接求P（y|x）（决策树、BP神经网络等一类机器学习模型都是直接对它建模的），也可以用贝叶斯定理进行变形。

不难看出，只有分子的两项才与y有关，分母是与y无关的，对于给定的样本x，它是一个确定的值。事实上，它的作用是归一化，因为y的所有取值的概率之和一定是1。而第一项P（x|y）是样本x相对于参数y的条件概率，这个概率可以做各种假设。第二项P（y）就是前面我们“想象”的那个概率，即先验概率。如果我们假设它是均匀分布的，此时MAE=MLP。而P（y|x），我们就相应的称之为后验概率。

假如我们有充足的独立同分布的样本x1,x2,x3...xn，那么原式就可以写成

可以看出，随着样本数量的增加，先验概率P（y）发挥的作用会越来越小，后验概率将主要由样本x决定。

综合比较MAP与MLE，极大似然估计的缺陷是小样本情况下的过拟合，而最大后验估计的问题是，如果两个人假设不同的先验概率分布，那他们就可能会得到不同的估计结果。

二、贝叶斯分类器

将贝叶斯估计用于分类任务，由于它给出的是一个概率分布，显然我们要做的是将样本归类到概率最大的那个类别中。如果我们认为一个样本x有p的概率属于类别c，那么实际上还有1-p的概率我们分错了，这就是将它分类为c所产生的期望损失（expected loss），也称为风险（risk）。对于一个二分类问题，我们可以将风险表示为

如果分类为0和1的类条件概率分布分别是p1和p2，先验概率是π1和π2，那么对风险的期望就是

哈工大机器学习期末复习笔记（一）

这实际上从理论上给出了分类器能达到的最好性能，也就是模型精度的理论上限。但在现实任务中，由于概率密度的估计及其积分都可能是非常复杂的，所以只能通过其他方法逼近这个上限。

三、朴素贝叶斯分类器

当我们的样本有很多维特征时，即x=[x1,x2,...xn]，这时条件概率就会变成

这个联合概率的计算会遇到组合爆炸的问题，特征越多问题越严重。如果样本有n个特征，每个特征有是/否两种取法，需要将样本分成k类，我们就得估计个联合概率的值，这很难从有限的样本中直接得到。为此，朴素贝叶斯分类器就假设样本的特征之间彼此独立（尽管实际中这些特征经常不是真的相互独立的，但我们仍然做出这个假设，并且在很多时候仍然能得到很不错的结果），这样，后验概率就被写成

判定准则为

这样，我们在条件概率中需要估计的概率就只有个，无疑带来了巨大的简化。

朴素贝叶斯分类器有许多应用，例如文本的分类等，并且体现了不错的效果。

四、逻辑回归

继续对条件概率和先验概率的分布做出一些假设，就可以推导出逻辑回归模型。这就是实验二的内容，详细推导过程可以看大佬的博客实验二逻辑回归文章来源地址https://www.toymoban.com/news/detail-428269.html

到了这里，关于哈工大机器学习期末复习笔记（一）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！