机器学习笔记之优化算法(十八)经典牛顿法-Toy模板网

这篇具有很好参考价值的文章主要介绍了机器学习笔记之优化算法(十八)经典牛顿法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言

本节将介绍优化算法——经典牛顿法 $(\text{Newton Method})$ 。

回顾：

下降方向

在线搜索方法——方向角度中介绍了下降方向 $(\text{Descent Direction})$ 的概念。首先，通过推导得到如果更新方向 $\mathcal P_k$ 与梯度方向 $\nabla f(x_k)$ 之间满足如下关系：
$[\nabla f(x_k)]^T \cdot \mathcal P_k <0$
那么称将更新方向 $\mathcal P_k$ 称作下降方向。
需要注意的是，下降方向是线搜索方法关于方向角度的一个概念，而不是仅存在于梯度下降法。而最速下降方向是与梯度方向相反的方向，也是梯度下降法的选择方向。

下降方向的几何意义

观察上述不等式左侧是向量 $\nabla f(x_k)$ 与向量 $\mathcal P_k$ 的内积形式，将其展开：
$||\nabla f(x_k)|| \cdot ||\mathcal P_k|| \cdot \cos \theta < 0$
这意味着向量 $-\nabla f(x_k)$ 与向量 $\mathcal P_k$ 之间的夹角是锐角。后续使用该方法判断牛顿方向是否为下降方向。

经典牛顿法整体介绍

在之前的系列中优化算法(十) $\Rightarrow$ (十七)介绍了梯度下降法。其迭代过程表示如下：
$x_{k+1} = x_k - \alpha \cdot \nabla f(x_k)$
从上式可以看出：梯度下降法的底层逻辑是借助了函数 $f(\cdot)$ 的一阶信息——在使用梯度下降法时，其前置条件是：函数 $f(\cdot)$ 至少是一阶可微的。
如果 $f(\cdot)$ 一阶不可微，那么 $\nabla f(\cdot)$ 不存在，自然也无法实现迭代求解。

而牛顿法对函数 $f(\cdot)$ 的要求是： $f(\cdot)$ 至少二阶可微。

而牛顿法同样作为线搜索方法，其数值解的迭代过程表示为如下形式：
$x_{k+1} = x_k + \alpha_k \cdot \mathcal P_k$
关于步长 $\alpha_k$ ，牛顿法与梯度下降法的处理方式相同。如非精确搜索的 $\text{Wolfe}$ 准则，这里不再赘述。作为经典牛顿法，与梯度下降法相反，它的步长并不是重点关注的对象。这里假设每次迭代步骤，其步长 $\alpha_k=1$ ：
$\alpha_k = 1 \quad k=1,2,3,\cdots$
关于方向 $\mathcal P_k$ ，它是牛顿法与梯度下降法作为线搜索方法的核心区别：

梯度下降法的方向就是函数 $f(\cdot)$ 在 $x_k$ 处的负梯度方向： $-\nabla f(x_k)$ ；
牛顿法的方向被称作牛顿方向。本节将介绍牛顿方向并讨论该方向是否为下降方向。

关于牛顿方向

首先将步长 $\alpha_k = 1$ 代入，得到 $x_{k+1}$ 与 $x_k$ 之间新的关系表达：
在当前迭代步骤下， $\mathcal P_k$ 并未求解出来，使用变量 $\mathcal P$ 进行替换。
$x_{k+1} = x_k + \mathcal P$
从而当前迭代步骤下的最优方向 $\mathcal P_k$ 表示为如下形式：
$\begin{aligned} \mathcal P_k & = \mathop{\arg\min}\limits_{\mathcal P} f(x_{k+1}) \\ & =\mathop{\arg\min}\limits_{\mathcal P} f(x_k + \mathcal P) \end{aligned}$
如果 $\mathcal P$ 足够小，可以对 $f(x_k + \mathcal P)$ 进行泰勒展开(二阶)：
其中 $\mathcal O(||\mathcal P||^2)$ 表示高阶无穷小; $\nabla^2 \mathcal P(x_k)$ 则表示 $x_k$ 处的 $\text{Hessian Matrix}$ ,一个实对称矩阵。
$\begin{aligned} \mathcal P_k & = \mathop{\arg\min}\limits_{\mathcal P} \left\{f(x_k) + \frac{1}{1!} [\nabla f(x_k)]^T \mathcal P + \frac{1}{2!} \mathcal P^T [\nabla^2 f(x_k)] \cdot \mathcal P + \mathcal O(||\mathcal P||^2)\right\} \\ & \approx \mathop{\arg\min}\limits_{\mathcal P} \left\{f(x_k) + \frac{1}{1!} [\nabla f(x_k)]^T \mathcal P + \frac{1}{2!} \mathcal P^T [\nabla^2 f(x_k)] \cdot \mathcal P\right\} \end{aligned}$
由于 $x_k$ 是上一次迭代产生的结果，是已知项；可以将上述大括号内的项看作关于 $\mathcal P$ 的函数：
$\begin{cases} \begin{aligned} \phi(\mathcal P) & = f(x_k) + \frac{1}{1!} [\nabla f(x_k)]^T \mathcal P + \frac{1}{2!} \mathcal P^T [\nabla^2 f(x_k)] \cdot \mathcal P \\ \quad \\ \mathcal P_k & \approx \mathop{\arg\min}\limits_{\mathcal P} \phi(\mathcal P) \end{aligned} \end{cases}$
很明显， $\phi(\mathcal P)$ 就是一个关于 $\mathcal P$ 的二次函数。并且开口向上，是一个凸二次函数，因此该函数有最小值。因此可以求解 $\phi(\mathcal P)$ 的最小值。
关于视频,这里有一些疑问：为什么该二次函数开口向上 $?$ 作为二次项系数的 $\begin{aligned}\frac{1}{2} [\nabla^2 f(x_k)]\end{aligned}$ 未知，怎么就开口向上了~欢迎小伙伴们一起讨论。

求解 $\phi(\mathcal P)$ 关于 $\mathcal P$ 的梯度 $\nabla \phi(\mathcal P)$ ：
$\nabla \phi(\mathcal P) = \nabla f(x_k) + [\nabla^2 f(x_k)] \cdot \mathcal P$
令 $\nabla \phi(\mathcal P) \triangleq 0$ ，有：
$\nabla^2 f(x_k) \cdot \mathcal P = -\nabla f(x_k)$
观察： $\text{Hessian Matrix}$ 是一个 $\times n$ 的实对称矩阵； $\mathcal P,-\nabla f(x_k)$ 均是 $\times 1$ 的列向量，因而 $\nabla^2 f(x_k) \cdot \mathcal P = -\nabla f(x_k)$ 表达的是一个方程组，我们也将方程组本身称作牛顿方程。关于牛顿方程的解，自然是 $\phi(\mathcal P)$ 的最小值。

从牛顿方程也可以看出：如果 $\text{Hassian Matrix} \Rightarrow \nabla^2 f(x_k)$ 是正定矩阵，完全可以通过两边求逆的方式求出 $\mathcal P$ 的最小解：
$\mathcal P = - [\nabla^2 f(x_k)]^{-1} \nabla f(x_k)$
相反，如果 $\text{Hessian Matrix} \Rightarrow \nabla^2 f(x)$ 是奇异矩阵，也就是说：该矩阵不满秩，无法求逆。那么只能说：牛顿方程 $\nabla^2 f(x_k) \mathcal P = -\nabla f(x_k)$ 的解，就是最小解 $\mathcal P_k$ 。

判断牛顿方向是否为下降方向

如果 $\nabla^2 f(x_k)$ 是正定的，因而本次迭代的最优方向 $\mathcal P_k = [\nabla^2 f(x_k)]^{-1} \nabla f(x_k)$ 。将 $\mathcal P_k$ 与负梯度方向 $-\nabla f(x_k)$ 作内积，观察两向量之间的夹角：
$\begin{aligned} [- \nabla f(x_k)]^T \cdot \mathcal P_k = -[\nabla f(x_k)]^T \cdot [\nabla^2 f(x_k)]^{-1} \cdot \nabla f(x_k) \end{aligned}$
由于 $[\nabla^2 f(x_k)]_{n \times n}$ 是正定矩阵，那么它的逆矩阵 $[\nabla^2 f(x_k)]_{n \times n}^{-1}$ 同样也是正定矩阵。根据正定矩阵的性质：如果 $\mathcal A$ 是正定矩阵，对于 $\forall x \in \mathbb R^n$ ，且 $\neq 0$ ，均有：
$x^T \mathcal A x > 0$
因此，项 $[\nabla f(x_k)]^T \cdot [\nabla^2 f(x_k)]^{-1} \cdot \nabla f(x_k) > 0$ 恒成立。从而 $\nabla f(x_k)]^T \cdot \mathcal P_k = -[\nabla f(x_k)]^T \cdot [\nabla^2 f(x_k)]^{-1} \cdot \nabla f(x_k) < 0$ 恒成立。因此 $\mathcal P_k$ 一定是下降方向。
如果 $\nabla^2 f(x_k)$ 是奇异矩阵，由于目标函数 $f(\cdot)$ 未知，从而无法得到牛顿方程的具体解结果。因此 $\mathcal P_k$ 未必是下降方向。