【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型)

这篇具有很好参考价值的文章主要介绍了【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

四、评估(评估已建立的模型)

1.评估什么

在进行回归和分类时，为了进行预测，我们定义了函数 $f_θ(x)$ ，然后根据训练数据求出了函数的参数 θ。最后求出了参数更新表达式，然后不断重复更新参数。

但是我们不要忘了我们的目标是通过预测函数得到预测值。所以我们要评估的就是预测函数 $f_θ(x)$ 的正确性。

2.交叉验证

把全部训练数据分为测试数据和训练数据的做法称为交叉验证。

1 回归问题的验证

把获取的全部训练数据分成两份：一份用于测试，一份用于训练。然后用前者来评估模型。

【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

用一次函数预测的效果 $f_θ(x) = θ_0 + θ_1x^*$ ：

【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

二次函数预测的效果：
【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

那么，二次函数是只有对训练数据才是正确的。

如果只看训练数据，那么二次函数比一次函数拟合得更好。但是，如果将测试数据也考虑进来，那么二次函数就完全不行了。

模型评估就是像这样检查训练好的模型对测试数据的拟合情况。

评估：对于回归的情况，只要在训练好的模型上计算测试数据的误差的平方，再取其平均值就可以了。假设测试数据有 n 个，那么可以这样计算。
$\frac1n\sum_{i=1}^n\left(y^{(i)}-f_\theta(\boldsymbol{x}^{(i)})\right)^2$

这个值被称为均方误差或者 MSE，全称 Mean Square Error。
对于预测点击量的回归问题来说，y(i) 就是点击量，而 x(i) 是广告
费或广告版面的大小

【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

其实，回归的目标函数也是误差函数。因为他们要做的事情是一致的，为了让误差函数的值变小而更新参数时所做的事情是一样的。

2 分类问题的验证

首先还是数据的分配：

【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

对于分类的结果有以下几种情况：

【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

设横向的情况为正、非横向的情况为负，那么一般来说，二分类的结果可以用这张表来表示：

【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

即分类结果为正的情况是 Positive、为负的情况是 Negative。分类成功为 True、分类失败为 False。

那么精度Accuracy就可以表示成：
$Accuracy=\frac{\mathrm{TP}+\mathrm{TN}}{\mathrm{TP}+\mathrm{FP}+\mathrm{FN}+\mathrm{TN}}$
假如 100 个数据中 80 个被正确地分类了,那么精度就是：
$\frac{80}{100} = 0.8$

3 精确率和召回率

假设有 100 个数据，其中 95 个是 Negative。那么，哪怕出现模型把数据全部分类为 Negative 的极端情况，Accuracy 值也为 0.95，也就是说模型的精度是 95%

不管精度多高，一个把所有数据都分类为 Negative 的模型，不能算作一个好模型。

所以，我们要引入别的指标。

1.精确率Precision

$Precision=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}$

这个指标只关注 TP 和 FP(只关注分类为Positive的部分)
它的含义是在被分类为 Positive 的数据中，实际就是 Positive 的数据所占的比例
这个值越高，说明分类错误越少。假设TP = 1，FP = 2，那么Precision = 33.3%。虽然被分类为 Positive 的数据有 3 个，但其中只有 1 个是分类正确的。所以计算得出的精确率很低。

2.召回率Recall

$Recall=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}$

这个指标只关注 TP 和 FN
它的含义是在Positive 数据中，实际被分类为 Positive 的数据所占的比例
这个值越高，说明被正确分类的数据越多
假设TP = 1，FN = 4（FN是数据是Positive但被分类为Negative的个数），那么Recall = 1/5。
虽然 Positive 数据共有 5 个，但只有 1 个被分类为 Positive。所以计算得出的召回率也很低。

4 F值

精确率和召回率会一个高一个低，这时候就需要了评定综合性能的指标 F 值。
$Fmeasure=\frac2{\frac1{Precision}+\frac1{Recall}} = \frac{2\cdot Precision\cdot Recall}{Precision+Recall}$
精确率和召回率只要有一个低，就会拉低 F 值。

有时称 F 值为 F1 值会更准确，这一点需要注意。有的时候含义相同，有时候却并不相同。除 F1 值之外，还有一个带权重的 F 值指标：
$WeightedFmeasure=\frac{(1+\beta^2)\cdot Precision\cdot Recall}{\beta^2\cdot Precision+Recall}$

我们可以认为 F 值指的是带权重的 F 值，当权重为 1 时才是刚才介绍的 F1 值。
F1 值在数学上是精确率和召回率的调和平均值。

之前介绍的精确率和召回率都是以 TP 为主进行计算的，也能以 TN 为主：
$\begin{aligned} \text{Precision}& =\frac{\mathrm{TN}}{\mathrm{TN}+\mathrm{FN}} \\ \text{Recall}& =\frac{\mathrm{TN}}{\mathrm{TN}+\mathrm{FP}} \end{aligned}$
我们选择TP和TN的一个重要依据是当数据不平衡时，使用数量少的那个会更好。

5 K折交叉验证

把全部训练数据分为 K 份
将 K − 1 份数据用作训练数据，剩下的 1 份用作测试数据
每次更换训练数据和测试数据，重复进行 K 次交叉验证
最后计算 K 个精度的平均值，把它作为最终的精度

假如我们要进行 4 折交叉验证，那么就会这样测量精度：

【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

不切实际地增加 K 值会非常耗费时间，所以我们必须要确定一个合适的 K 值

3.正则化

模型只能拟合训练数据的状态被称为过拟合，英文是 overfitting。

避免过拟合的几种方法：

增加全部训练数据的数量
使用简单的模型
正则化

1 正则化的方法

回归的目标函数：
$E(\boldsymbol{\theta})=\frac12\sum_{i=1}^n\left(y^{(i)}-f_{\boldsymbol{\theta}}(\boldsymbol{x}^{(i)})\right)^2$
我们要向这个目标函数增加下面这样的正则化项：
$R(\boldsymbol{\theta})=\frac\lambda2\sum_{j=1}^m\theta_j^2$
就变成了：
$\begin{aligned} E(\boldsymbol{\theta})& \begin{aligned}=\frac{1}{2}\sum_{i=1}^{n}\left(y^{(i)}-f_{\boldsymbol{\theta}}(\boldsymbol{x}^{(i)})\right)^2+R(\boldsymbol{\theta})\end{aligned} \\ &=\frac12\sum_{i=1}^n\left(y^{(i)}-f_\theta(\boldsymbol{x}^{(i)})\right)^2+\frac\lambda2\sum_{j=1}^m\theta_j^2 \end{aligned}$
我们要对这个新的目标函数进行最小化，这种方法就称为正则化。

一般来说不对 $θ_0 $应用正则化。所以仔细看会发现 * j * 的取值是从 1 开始的。$ θ_0$ 这种只有参数的项称为偏置项，一般不对它进行正则化。
假如预测函数的表达式为 $fθ(x) = θ_0 + θ_1x + θ_2x^2$ ，那么 m = 2 就意味着正则化的对象参数为 θ1 和 θ2。
λ 是决定正则化项影响程度的正的常数。需要我们自行确定。

2 正则化的效果

把目标函数分成两个部分：
$\begin{aligned} &C(\boldsymbol{\theta}) =\frac12\sum_{i=1}^n\left(y^{(i)}-f_\theta(\boldsymbol{x}^{(i)})\right)^2 \\ &R(\boldsymbol{\theta}) =\frac\lambda2\sum_{j=1}^m\theta_j^2 \end{aligned}$

C(θ) 是本来就有的目标函数项，R(θ) 是正则化项

C(θ) 和 R(θ) 相加之后就是新的目标函数，所以我们实际地把这两个函数的图形画出来。

参数太多就画不出图来了，所以这里我们只关注 θ1。而且为了更加易懂，先不考虑 λ。

【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

从这个目标函数在没有正则化项时的形状来看， $θ_1 = 4.5$ 附近是最小值。

接下来是 R(θ)，它就相当于 $\frac{1}{2}\theta_1^2$ ，所以是过原点的简单二次函数。
【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

实际的目标函数是这两个函数之和 $E (θ) = C (θ) + R (θ)$

与加正则化项之前相比， $θ_1$ 更接近 0 了。本来是在 $θ_1 = 4.5$ 处最小，现在是在 $θ_1 = 0.9$ 处最小，的确更接近 0 了。

这就是正则化的效果。它可以防止参数变得过大，有助于参数接近较小的值。虽然我们只考虑了 $θ_1$ ，但其他 $θ_j$ 参数的情况也是类似的。

参数的值变小，意味着该参数的影响也会相应地变小。比如，有这样的一个预测函数 $f_θ(x)$ 。
$f_{\boldsymbol{\theta}}(\boldsymbol{x})=\theta_0+\theta_1x+\theta_2x^2$
极端一点，假设 $θ_2 = 0$ ，这个表达式就从二次变为一次了。这就意味着本来是曲线的预测函数变为直线了。

【白话机器学习的数学】读书笔记(4)评估(评估已建立的模型),白话机器学习的数学读书笔记,机器学习,人工智能

这正是通过减小不需要的参数的影响，将复杂模型替换为简单模型来防止过拟合的方式。

为了防止参数的影响过大，在训练时要对参数施加这样的一些惩罚。

λ 是可以控制正则化惩罚的强度。

令 λ = 0，那就相当于不使用正则化
λ 越大，正则化的惩罚也就越严厉

3 分类的正则化

前面讨论的是回归的情况，分类也是可以正则化的。

逻辑回归的目标函数：
$\log L(\boldsymbol{\theta})=\sum_{i=1}^n\left(y^{(i)}\log f_\theta(\boldsymbol{x}^{(i)})+(1-y^{(i)})\log(1-f_\theta(\boldsymbol{x}^{(i)}))\right)$
分类也是在这个目标函数中增加正则化项就行了：
$\begin{aligned}\log L(\theta)&=-\sum_{i=1}^n\left(y^{(i)}\log f_\theta(x^{(i)})+(1-y^{(i)})\log(1-f_\theta(x^{(i)}))\right)+\frac{\lambda}{2}\sum_{j=1}^m\theta_j^2\end{aligned}$

对数似然函数本来以最大化为目标。但是，这次我想让它变成和回归的目标函数一样的最小化问题，所以加了负号。

4 包含正则化项的表达式的微分

1 回归加入正则化后的更新表达式

目标函数的形式变了，参数更新的表达式也会变，不过只要再把正则化项的部分也微分。
$E(\boldsymbol{\theta})=C(\boldsymbol{\theta})+R(\boldsymbol{\theta})\\ \frac{\partial E(\boldsymbol{\theta})}{\partial\theta_j}=\frac{\partial C(\boldsymbol{\theta})}{\partial\theta_j}+\frac{\partial R(\boldsymbol{\theta})}{\partial\theta_j}$
第一部分：
$\frac{\partial C(\boldsymbol{\theta})}{\partial\theta_j}=\sum_{i=1}^n\Big(f_\theta(\boldsymbol{x}^{(i)})-y^{(i)}\Big)x_j^{(i)}$
第二部分：
$\begin{aligned} R(\boldsymbol{\theta})& =\frac\lambda2\sum_{j=1}^m\theta_j^2 \\ &=\frac\lambda2\theta_1^2+\frac\lambda2\theta_2^2+\cdots+\frac\lambda2\theta_m^2 \end{aligned} \\ \frac{\partial R(\boldsymbol{\theta})}{\partial\theta_j}=\lambda\theta_j$
整合：
$\frac{\partial E(\boldsymbol{\theta})}{\partial\theta_j}=\sum_{i=1}^n\left(f_{\boldsymbol{\theta}}(\boldsymbol{x}^{(i)})-y^{(i)}\right)x_j^{(i)}+\lambda\theta_j$
所以加入了正则化项的参数更新表达式：
$\begin{aligned}\theta_0&:=\theta_0-\eta\left(\sum_{i=1}^n\left(f_{\boldsymbol{\theta}}(\boldsymbol{x}^{(i)})-y^{(i)}\right)x_j^{(i)}\right)\\\\\theta_j&:=\theta_j-\eta\left(\sum_{i=1}^n\left(f_{\boldsymbol{\theta}}(\boldsymbol{x}^{(i)})-y^{(i)}\right)x_j^{(i)}+\lambda\theta_j\right)&(j>0)\end{aligned}$
一般不对 $θ_0$ 应用正则化。 $R (θ)$ 对 $θ_0$ 微分的结果为 0，所以 j = 0 时表达式中的 $λθ_j$ 就消失了。

2 逻辑回归包含正则化项的更新表达式

其实和回归的处理是一样的。
$\begin{aligned} &C(\boldsymbol{\theta}) \begin{aligned}=-\sum_{i=1}^n\left(y^{(i)}\log f_{\boldsymbol{\theta}}(\boldsymbol{x}^{(i)})+(1-y^{(i)})\log(1-f_{\boldsymbol{\theta}}(\boldsymbol{x}^{(i)}))\right)\end{aligned} \\ &R(\boldsymbol{\theta}) =\frac\lambda2\sum_{j=1}^m\theta_j^2 \\ &E(\boldsymbol{\theta}) =C(\boldsymbol{\theta})+R(\boldsymbol{\theta}) \end{aligned}$

然后求微分：
$\frac{\partial E(\boldsymbol{\theta})}{\partial\theta_j}=\frac{\partial C(\boldsymbol{\theta})}{\partial\theta_j}+\frac{\partial R(\boldsymbol{\theta})}{\partial\theta_j}$
现在考虑的是最小化问题，所以要注意在前面加上负号。也就是要进行符号的反转。
$\frac{\partial C(\boldsymbol{\theta})}{\partial\theta_j}=\sum_{i=1}^n\left(f_\theta(\boldsymbol{x}^{(i)})-y^{(i)}\right)x_j^{(i)} \\ \frac{\partial R(\boldsymbol{\theta})}{\partial\theta_j}=\lambda\theta_j$
所以更新表达式为：
$$

$\begin{aligned}\theta_0&:=\theta_0-\eta\left(\sum_{i=1}^n\left(f_{\boldsymbol{\theta}}(\boldsymbol{x}^{(i)})-y^{(i)}\right)x_j^{(i)}\right)\\\\\theta_j&:=\theta_j-\eta\left(\sum_{i=1}^n\left(f_{\boldsymbol{\theta}}(\boldsymbol{x}^{(i)})-y^{(i)}\right)x_j^{(i)}+\lambda\theta_j\right)(j>0)\end{aligned}$