机器学习笔记之优化算法(一)无约束优化概述-Toy模板网

这篇具有很好参考价值的文章主要介绍了机器学习笔记之优化算法(一)无约束优化概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言

从本节开始，将介绍优化算法 $(\text{Optimization Algorithm})$ 。

回顾：关于支持向量机的凸二次优化问题

基于支持向量机 $(\text{Support Vector Machine,SVM})$ 最大间隔分类器的朴素思想：从能够将所有样本点正确分类的直线中找到满足条件的一条直线：数据集 $\mathcal D$ 内的 $N$ 个样本点到直线对应的 $N$ 个距离中找出长度最小的距离，而从所有直线中找出最小距离长度最大的那条直线即为所求。

也就是说，在样本点分类正确的条件下，任意一条直线与 $\mathcal D$ 中的样本点之间均会存在一个最小距离，而‘最小距离’这个值最大意味着该直线是 $\mathcal D$ 划分正确的最优模型结果，无论是正类还是负类，该直线均与其保持一定距离。

关于数据集 $\mathcal D$ 的描述表示如下：
$\mathcal D = \left\{(x^{(i)},y^{(i)})\right\}_{i=1}^N \quad x^{(i)} \in \mathbb R^{p};y^{(i)} \in \{-1,+1\}$
关于模型的描述表示如下：
$\mathcal W^T x + b$
这意味着：若将 $\mathcal D$ 中所有样本点均分类正确 $\Leftrightarrow$ 每个样本的预测结果 $\mathcal W^T x^{(i)} + b$ 与对应标签同号。即：
$y^{(i)} \left(\mathcal W^T x^{(i)} + b\right) > 0 \quad \forall (x^{(i)},y^{(i)}) \in \mathcal D$
经过函数间隔 $(\text{Functional Margin})$ 的约束，对应最大间隔分类器的化简结果表示如下：
$\begin{aligned} & \begin{cases} \begin{aligned} & \mathop{\max}\limits_{\mathcal W,b} \frac{1}{||\mathcal W||} \mathop{\min}\limits_{(x^{(i)},y^{(i)}) \in \mathcal D} y^{(i)} (\mathcal W^T x^{(i)} + b) \\ & s.t. y^{(i)} (\mathcal W^T x^{(i)} + b) > 0 \end{aligned} \end{cases} \\ \Rightarrow & \begin{cases} \begin{aligned} & \mathop{\min}\limits_{\mathcal W,b} \frac{1}{2} \mathcal W^T \mathcal W \\ & s.t. \quad y^{(i)} (\mathcal W^T x^{(i)} + b) > 0 \end{aligned} \end{cases} \end{aligned}$

观察上式。很明显，它是一个包含 $N$ 个不等式约束的凸二次优化问题：

其中，目标函数 $\begin{aligned}\frac{1}{2} \mathcal W^T\mathcal W\end{aligned}$ 是一个二次型函数：
$\begin{aligned} f(\mathcal W) & = \frac{1}{2} \mathcal W^T\mathcal W \\ & = \frac{1}{2} (w_1^2 + w_2^2 + \cdots + w_p^2) \end{aligned}$
$N$ 个约束是由仿射函数 $(\text{Affine Function})$ 构成的不等式约束：
$\begin{aligned} g(\mathcal W,b) & = 1 - y^{(i)}(\mathcal W^T x^{(i)} + b) \\ & = 1 - y^{(i)} \left(w_1 \cdot x_1^{(i)} + \cdots + w_p \cdots x_p^{(i)} + b\right) \quad i \in \{1,2,\cdots,N\} \end{aligned}$
凸二次优化问题必然有解，因而可以对最优参数 $\mathcal W^*,b^*$ 进行求解。首先，通过 $\text{KKT}$ 条件求解 $\mathcal W^*$ 的解析解，并找出支持向量；将支持向量带入，对 $b^*$ 进行求解。
求解思路见传送门

无约束优化问题概述

在工程设计中的优化问题，其一般提法是要选择一组参数(变量)，在满足一系列的条件(约束)下，使设计指标(目标)达到最优值。

从是否存在约束条件的角度可将优化问题分为约束优化与无约束优化；从另一个角度也可以对优化问题进行划分：凸优化 $(\text{Convex Optimization})$ 与非凸优化。

解析解与数值解

从无约束条件的凸优化开始，系统地介绍优化问题。
关于凸优化问题的目标函数 $(\text{Objective Function})$ 表示如下：
这里对自变量 $\mathcal X$ 不进行过多约束，它仅是 $n$ 维实数空间中的点。
$\mathop{\min}\limits_{\mathcal X \in \mathbb R^n} f(\mathcal X)$

如果函数 $f(\mathcal X)$ 是一个凸函数，并且它足够简单：例如 $\mathcal X$ 是一个一维随机变量；而 $f(\mathcal X)$ 是一个一元的、二次的凸函数，并且 $\mathcal X$ 定义域中连续、可微。这种情况下，我们完全不需要去求解数值解，直接通过求其解析解的方式来求得使 $f(\mathcal X)$ 取得最值的最优解。
但实际上，更多的优化问题我们没有办法通过求解解析解的方式获得。更多的，我们会使用数值解通过迭代的方式来逼近近似解。

数值解的基本思路：给定一个初始值 $x_0$ ，通过某种具体策略对 $x_0$ 进行迭代： $x_1,x_2,x_3,\cdots$ 。而数值解自身就是迭代过程中产生的数列结果：

这里的 $\infty$ 仅仅是一种数学表达，从算法的角度，我们不可能让迭代无限地执行下去，在算法过程中，我们可能会设置一系列条件，当迭代结果 $x_k$ 达到条件时，我们则认为近似解 $x_k$ 已经足够精确，从而停止迭代过程。
迭代停止后，这个近似解 $x_k$ 有可能就是最优解 $x^*$ 自身;也有可能是一个满足条件的一个效果不错的极小值。
$\{x_k\}_{k=1}^{\infty}$

数值解的单调性

而单调性是指：随着迭代步骤的增加，数值解对应的函数结果尽量满足目标函数的优化方向。以上述目标函数 $\begin{aligned}\mathop{\min}\limits_{\mathcal X \in \mathbb R^n} f(\mathcal X)\end{aligned}$ 为例，理想状态下的图像描述表示如下：
这仅仅是一个抽象的图像描述。
机器学习笔记之优化算法(一)无约束优化概述,机器学习,深度学习,机器学习,算法,优化问题,线搜索方法,信赖域方法
从上图可以明显观察到：随着数值解迭代次数的增加，对应函数结果向目标函数的优化方向(最小值)靠近，但不否认的是：靠近的幅度也在逐渐减小，说明迭代的数值解正在逐步逼近最优解 $f^*$ 。可以看出，该单调性是一个严格的单调性，即：
$f(x_{k+1}) < f(x_k) \quad f(x_k),f(x_{k+1}) \in \{f(x_k)\}_{k=0}^{\infty}$

一些算法具备这种单调性的性质。如梯度下降法 $(\text{Gradient Descent,GD})$ ：
$\mathcal W^{(t+1)} \Leftarrow \mathcal W^{(t)} - \eta \cdot \nabla_{\mathcal W}\mathcal J(\mathcal W)$
这种方法必然会使迭代产生的数值解 $\mathcal W^{(1)},\mathcal W^{(2)},\cdots,\mathcal W^{(k)},\mathcal W^{(k+1)},\cdots$ 满足：

$\mathcal J(\mathcal W^{(k+1)}) < \mathcal J(\mathcal W^{(k)})$

但实际上，并不是所有算法都会严格按照上述单调性执行迭代。或者说，如果目标函数是复杂的(坑坑洼洼的，- -)，如果使用梯度下降法，它可能更容易地陷入到局部极小值中，也就是说，在复杂的函数环境下，这种严格的单调性可能是不可取的。

如何降低单调性的严格程度 $?$ 换句话说，我们是否可以增加一些关于单调性的容错率：从原始的严格单调性变为允许出现局部错误的单调性。也就是说：在迭代过程中，允许局部出现非单调性的情况，但整体趋势保持单调性。使用数学符号描述这一思想：依然以上述目标函数 $\begin{aligned}\mathop{\min}\limits_{\mathcal X \in \mathbb R^n} f(\mathcal X)\end{aligned}$ 为例，在迭代过程产生的一系列数值解 $x_1,x_2,\cdots,x_{k},x_{k+1},\cdots$ 会满足：
$f(x_{k+1}) < f(x_{k-m}) \quad f(x_{k+1}),f(x_{k-m}) \in \left\{f(x_k)\right\}_{k=0}^{\infty}; m \in [0,k]$
上式中的 $m$ 可以看作是调节单调性严格程度的一个参数：

当 $m = 0$ 时，迭代过程遵循严格的单调性；
随着 $m$ 的增加，从而削弱单调性的严格程度。例如： $m = 3$ ，仅需满足 $f(x_{k+1}) < f(x_{k-3})$ 即可，而 $f(x_{k+1})$ 与 $f(x_{k}),f(x_{k-1}),f(x_{k-2})$ 之间的大小关系并不是关注的重点。

关于优化问题的策略

需要区分的是：这里提到的策略并不是损失函数，而是数值解的迭代方法。也就是说：如何在迭代过程中，通过已知数值解 $x_k$ 得到新的数值解 $x_{k+1}$ 。数学符号描述如下：
$\begin{aligned}x_{k} \overset{\text{?}}{\Longrightarrow} x_{k+1}\end{aligned}$
这里介绍两种常见迭代策略：

线搜索方法

线搜索方法 $(\text{Line Search Method})$ 。该方法的特点是：数值解的方向与步长分开执行：先定方向，再定步长。对应数学符号表达如下：
~~我并没有看到方向与步长的先后顺序，仅观察到了它们的分开执行。
$x_{k+1} = x_{k} + \alpha_k \cdot \mathcal P_k$
其中 $\alpha_k > 0$ 表示步长(机器学习中的学习率，实数)； $\mathcal P_k$ 表示方向。针对线搜索方法，步长的重要程度高于方向。也就是说，步长相较于方向对数值解结果的影响更大。

原因在于：一旦策略被确定，方向的可操作空间是有限的。例如我们执行一个回归任务，我们使用的目标函数是均方误差 $(\text{Mean Squared Error})$ ，并使用梯度下降法作为优化策略。那么此时方向就是被约束的——目标函数最小值对应方向(负梯度方向)相关的方向。

相反，我们对于步长的要求更加严格。原因在于：
- 如果步长被设置的较大，可能会导致在数值解的迭代过程中错过最优值；甚至产生的新数值解不满足梯度下降法对应的严格的单调性；
  这在实际过程中会表现出：损失函数结果反弹，或者是震荡现象。
- 如果步长被设置的较小，这会产生很高的时间代价。而这个代价在数值解的迭代过程中，可能是没有必要的。

因而线搜索方法也被称作一维搜索方法。因为该搜索方法作用的对象并不是变量 $\mathcal X$ 自身，而是对应的步长 $\alpha$ 。由于 $\alpha$ 是人为设置的标量，是 $1$ 维特征，这也是一维搜索方法名称的由来。

信赖域方法

与线搜索方法中步长与方向分开执行不同的是，信赖域方法 $(\text{Trust-Region Method})$ 对方向与步长进行综合考量。
假设在变量 $\mathcal X$ 的空间中，目标函数 $f(\mathcal X)$ 对应函数的等高线表示如下：

需要注意的点：这里的变量 $\mathcal X$ 指的是模型的权重信息，而不是样本特征。因为样本是数据集给定的。
因而这个二维空间指的是权重空间，对应登高线是损失函数在权重空间中的解区域;而红色部分是最优解区域，也就是说，位于红色区域的权重可以使 $f(\mathcal X)$ 接近最优值，而红色区域的中心点对应的 $\mathcal X^*$ ,有 $\begin{aligned}f(\mathcal X^*) = \mathop{\min}\limits_{\mathcal X \in \mathbb R^2} f(\mathcal X)\end{aligned}$

以 $x_k$ 为圆心， $\Delta_k$ 为半径做圆，圆内的所有描述权重的点可看做关于 $x_k$ 的邻域，而这个邻域也被称作信赖域；定义 $n$ 维向量 $\mathcal P$ 是以 $x_k$ 为起始点， $x_k$ 邻域内某一点为终止点的一个向量。那么该向量 $\mathcal P$ 自然存在约束。即：该向量的大小(二范式)不超过半径 $\Delta_k$ 的大小。数学符号表达为：
$||\mathcal P|| \leq \Delta_k$
而我们要求解的目标是：在 $x_k$ 邻域中找到一个合适的点，该点与 $x_k$ 相连得到向量 $\mathcal P_k$ 。而这个向量 $\mathcal P_k$ 自身就是 $x_k$ 移动的方向与步长：
$x_{k+1} = x_k+ \mathcal P_k$
对应图像描述表示如下：
其中长蓝色实线表示 $x_k$ ;短蓝色实线表示 $\mathcal P_k$ ;长蓝色虚线表示 $x_k + \mathcal P_k$ .
机器学习笔记之优化算法(一)无约束优化概述,机器学习,深度学习,机器学习,算法,优化问题,线搜索方法,信赖域方法

也就是说：这个 $\mathcal P_k$ 必须满足:在半径 $\Delta_k$ 邻域范围内, $x_k$ 和 $\mathcal P_k$ 组成的新向量 $x_k + \mathcal P_k$ ，与整个邻域内的所有变量的目标函数结果相比最小。数学符号表达如下：
首先，邻域内的任意一点，都可以表示为 $x_k + \mathcal P$ 的形式。
$f(x_k + \mathcal P_k) = \mathop{\min}\limits_{\mathcal P;\Delta_k} f(x_k + \mathcal P)$
由于 $x_k$ 是上一时刻迭代产生的结果，是已知项，因此将上述表达转化为如下形式：
$\mathcal P_k = \mathop{\arg\min}\limits_{\mathcal P;\Delta_k} f(x_k + \mathcal P)$
而真实情况是：即便是仅在以 $x_k$ 为圆心， $\Delta_k$ 为半径的邻域内，目标函数 $f(\cdot)$ 可能依然是复杂的(坑坑洼洼的~)。因此，我们使用泰勒展开式对 $f(x_k + \mathcal P)$ 进行化简：

由于泰勒展开式可以无限展开，这里仅展开到二次项，使用 $\approx$ 表达。
其中 $\left[\nabla^2 f(x_k)\right]$ 在正则化——权重衰减角度中介绍过，被称作 $\text{Hession Matrix}$ ,这里使用 $\mathcal H_k$ 对其进行表示。
$\begin{aligned} f(x_k + \mathcal P) & \approx f(x_k) + \frac{1}{1!} \left[\nabla f(x_k)\right]^T \mathcal P + \frac{1}{2!} \mathcal P^T \left[\nabla^2 f(x_k)\right] \mathcal P \\ & \approx f(x_k) + \left[\nabla f(x_k)\right]^T \mathcal P + \frac{1}{2} \mathcal P^T \mathcal H_k \mathcal P \end{aligned}$

观察上式，它是关于 $\mathcal P$ 的一个二次函数。至此，我们记 $\mathcal M_k(\mathcal P)$ 是一个仅关于 $\mathcal P$ 的函数：
如果目标函数 $f(\mathcal X)$ 在 $\mathcal X$ 空间内连续可导，那么 $\mathcal H_k$ 就是一个实对称矩阵。这也意味着：如果变量(权重)的维度 $n$ 如果过高，那么 $\mathcal H_k$ 的计算代价也是极高的。
$\mathcal M_k(\mathcal P) = f(x_k) + \left[\nabla f(x_k)\right]^T \mathcal P + \frac{1}{2} \mathcal P^T \mathcal H_k \mathcal P$
至此，将上述优化问题化简为如下形式：
不要忘记 $\mathcal P$ 自身的约束条件，将 $\mathop{\arg\min}\limits_{\mathcal P;\Delta_k} f(x_k + \mathcal P)$ 中的 $\Delta_k$ 转化为约束条件。
$\begin{cases} \mathcal P_k = \mathop{\arg\min}\limits_{\mathcal P} \mathcal M_k(\mathcal P) \\ ||\mathcal P|| \leq \Delta_k \end{cases}$
很明显，这又是一个约束优化问题。我们假设这个 $\mathcal P_k$ 是可求的，并且我们也求解出了 $\mathcal P_k$ 。但回顾上述过程，由于我们仅将 $f(x_k + \mathcal P)$ 化简为二阶泰勒展开，因而我们不否认求解出的 $\mathcal P_k$ 依然是一个近似值。因此，我们需要验证：这个近似求解出的 $\mathcal P_k$ 是否有效。

如何判定 $\mathcal P_k$ 是否有效 $?$ 一个朴素的想法是：将求解出的 $\mathcal P_k$ 代入到 $x_{k+1} = x_k + \mathcal P_k$ 中，观察新数值解 $x_{k+1}$ 是否比 $x_k$ 更优秀即可。

我们构建这样一个评价函数 $\rho_k$ ：
$\rho_k = \frac{f(x_k) - f(x_k + \mathcal P_k)}{\mathcal M_k(0) - \mathcal M_{k}(\mathcal P_k)}$
观察：

其中分子均是目标函数 $f(\cdot)$ ；分母是由 $f(x_k + \mathcal P)$ 转化得到的 $\mathcal M_k(\cdot)$ 函数。
$\mathcal M_k(0)$ 意味着 $\mathcal P=0$ 时的 $\mathcal M_k(\mathcal P)$ 结果，我们可以将 $\mathcal M_k(0)$ 视作 $f(x_k)$ 的简化版——因为确实仅展开到二阶，高次项我们并没有展开。
关于分子： $f(x_k) - f(x_k + \mathcal P_k)$ ，它记录的是求解出的 $\mathcal P_k$ 在真实目标函数 $f(\cdot)$ 中的差异性结果；
如果差值较大，意味着 $f(x_{k+1})$ 不仅小于 $f(x_k)$ ,并且还相差很多。着反而说明我们求解的 $\mathcal P_k$ 很优秀;相反，如果差值很小，反正验证了求解的 $\mathcal P_k$ 并没有有效地进行优化。
关于分母，它和分子的思想基本相同，只不过使用的并不是真正的目标函数，而是一个对目标函数简化后的函数信息。

由于 $\mathcal P_k$ 是通过约束优化： $\begin{aligned} \begin{cases} \mathop{\arg\min}\limits_{\mathcal P} \mathcal M_k(\mathcal P) \\ s.t. \quad ||\mathcal P|| \leq \Delta_k \end{cases} \end{aligned}$ 产生的结果，那么关于 $\mathcal M_k(0) - \mathcal M_k(\mathcal P_k) > 0$ 恒成立。继续观察两者的比值 $\rho_k$ ，观察它具体意义：

如果 $\rho_k$ 是一个负值，这意味着 $f(x_k) - f(x_k + \mathcal P_k)$ 与 $\mathcal M_k(0) - \mathcal M_k(\mathcal P_k)$ 之间异号。但 $\mathcal M_k(0) - \mathcal M_k(\mathcal P_k) > 0$ 恒成立，那么会出现如下逻辑：在简化版本函数 $\mathcal M_k(\cdot)$ 中选择出的最优 $\mathcal P_k$ 在真实目标函数中反而没有起到优化作用，这意味着其他的 $\mathcal P_k$ 结果必然也不会起到优化作用。这意味着两个问题：
- $\mathcal P_k$ 是无效结果，本次迭代不执行，即 $x_{k+1} = x_k$ ；
- 为什么会出现这种情况：这说明真实目标函数 $f(\cdot)$ 与简化后的函数 $\mathcal M_k(\cdot)$ 之间差距极大。也就是说：简化函数 $\mathcal M_k(\cdot)$ 无法有效地对 $f(\cdot)$ 进行近似。这说明：被 $\Delta_k$ 所包含的邻域内，其真实目标函数 $f(\cdot)$ 在该邻域内依然是非常复杂的，复杂到其简化函数 $\mathcal M_k(\cdot)$ 无法对其进行近似。具体做法是：缩小 $\Delta_k$ 的数值，从而减小邻域范围，目的是使邻域内的真实目标函数 $f(\cdot)$ 的复杂度降低，从而更容易地被简化函数 $\mathcal M_k(\cdot)$ 近似。
如果 $\rho_k$ 是一个很小的正值，这意味着 $f(x_k) - f(x_k + \mathcal P_k)$ 与 $\mathcal M_k(0) - \mathcal M_k(\mathcal P_k)$ 之间虽然是同号，但 $\mathcal M_k(0) - \mathcal M_k(\mathcal P_k)$ 远大于 $f(x_k) - f(x_k + \mathcal P_k)$ 。

这种情况是第一种情况的缓和版。唯一的区别在于第一种情况是 $\mathcal P_k$ 纯粹的无效；这种情况是 $\mathcal P_k$ 起到的优化效果极小，几乎可以视作无效。处理方法与第一种情况相同；
$\rho_k$ 是一个不小的正值，这说明从 $\mathcal M_k(\cdot)$ 中选择的 $\mathcal P_k$ 对真实目标函数 $f(\cdot)$ 的优化同样有效。此时直接执行下一次迭代即可；
$\rho_k$ 是一个很大的正值，这正好和第一种情况相反： $\Delta_k$ 邻域范围内 $f(\cdot)$ 反而小于简化版 $\mathcal M_k(\cdot)$ 的复杂度，那么我们需要扩大邻域范围来增加 $f(\cdot)$ 的复杂度。具体做法是：执行下一次迭代，并且 $\Delta_{k+1} > \Delta_k$ 。
这种情况会使 $\mathcal P_k$ 点落在 $\Delta_k$ 邻域范围的边缘部分，实际上，它本可以落在更远的位置，只是 $\Delta_k$ 所在邻域限制住了它。