【Math】导数、梯度、雅可比矩阵、黑塞矩阵-Toy模板网

这篇具有很好参考价值的文章主要介绍了【Math】导数、梯度、雅可比矩阵、黑塞矩阵。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

导数、梯度、雅可比矩阵、黑塞矩阵都是与求导相关的一些概念，比较容易混淆，本文主要是对它们的使用场景和定义进行区分。

首先需要先明确一些函数的叫法（是否多元，以粗体和非粗体进行区分）：

一元函数： $f(x):\mathbb{R} \longrightarrow \mathbb{R}$
多元函数： $f(\mathbf{x}):\mathbb{R}^{n} \longrightarrow \mathbb{R}$
向量函数： $\mathbf{f(x)}:\mathbb{R}^{n} \longrightarrow \mathbb{R}^{m}$

例如：

函数 $y = x$ 为一元函数
函数 $y=x_1+2x_2$ 为多元函数
函数 $\begin{cases} y_1 =x_1+2x_2 \\ y_2=2x_1+x_2 \end{cases}$ 为向量函数

概念详解

导数

针对一元函数： $f(x):\mathbb{R} \longrightarrow \mathbb{R}$ ，近似：

$f(x)\approx f(x_{0})+f^{\prime}(x_{0})(x-x_{0})$

梯度

针对多元函数： $f(\mathbf{x}):\mathbb{R}^{n} \longrightarrow \mathbb{R}$ ，是导数的推广，它的结果是一个向量：

$\bigtriangledown f=\begin{bmatrix} \frac{\partial f}{\partial x_{1}} \\ \frac{\partial f}{\partial x_{2}} \\ ... \\ \frac{\partial f}{\partial x_{n}} \end{bmatrix}$

近似：

$f(\mathbf{x} )\approx f(\mathbf{x}_{0})+\bigtriangledown f(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}_{0})$

雅可比矩阵

针对向量函数： $\mathbf{f(x)}:\mathbb{R}^{n} \longrightarrow \mathbb{R}^{m}$

如果函数 $\mathbf{f(x)}:\mathbb{R}^{n} \longrightarrow \mathbb{R}^{m}$ 在点 $\mathbf{x}$ 处可微的话，在点 $\mathbf{x}$ 的雅可比矩阵即为该函数在该点的最佳线性逼近，也代表雅可比矩阵是一元函数的导数在向量函数的推广。在这种情况下，雅可比矩阵也被称作函数 $\mathbf{f}$ 在点 $\mathbf{x}$ 的微分或者导数，其中行数为 $\mathbf{f}$ 的维数；列数为 $\mathbf{x}$ 的维度。

$\mathbf{J}=\begin{bmatrix} \frac{\partial \mathbf{f}}{\partial x_{1}} & ... & \frac{\partial \mathbf{f}}{\partial x_{n}} \end{bmatrix} = \begin{bmatrix} \frac{\partial f_{1}}{\partial x_{1}} & ... & \frac{\partial f_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}} & ... & \frac{\partial f_{m}}{\partial x_{n}} \end{bmatrix}$

矩阵分量：

$\mathbf{J}_{ij}=\frac{\partial f_{i}}{\partial x_{j}}$

近似：

$\mathbf{f}(\mathbf{x} )\approx \mathbf{f}(\mathbf{x}_{0})+ \mathbf{J}(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}_{0})$

黑塞矩阵

针对多元函数： $f:\mathbb{R}^{n} \longrightarrow \mathbb{R}$ ，有点二阶导数的意思。

$\mathbf{H}=\begin{bmatrix} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1}\partial x_{2}} & ... & \frac{\partial^{2} f}{\partial x_{1}\partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2}\partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & ... & \frac{\partial^{2} f}{\partial x_{2}\partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n}\partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n}\partial x_{2}} & ... & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{bmatrix}$

矩阵分量：

$\mathbf{H}_{ij}=\frac{\partial^{2} f}{\partial x_{i}\partial x_{j}}$

近似：

$f(\mathbf{x} )\approx f(\mathbf{x}_{0})+\bigtriangledown f(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}_{0}) + \frac{1}{2}(\mathbf{x}-\mathbf{x}_{0})^{T}\mathbf{H}(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}_{0})$

实例

对于最简单的一元函数 $y = 2 x$ ，则该一元函数的导数为： $y^{\prime}=2$ 。这是最基础的了。

对于一个多元函数 $y=x_1^4x_2+3x_2+x_2e^{x_3}$ ，则：

该多元函数的梯度为：

$\bigtriangledown =\begin{bmatrix} \frac{\partial y}{\partial x_1} \\ \frac{\partial y}{\partial x_2} \\ \frac{\partial y}{\partial x_3} \end{bmatrix}=\begin{bmatrix} 4x_1^3x_2 \\ x_1^4+3+e^{x_3} \\ x_2e^{x_3}\end{bmatrix}$

该多元函数的黑塞矩阵为：

$\mathbf{H}=\begin{bmatrix} \frac{\partial^{2} y}{\partial x_{1}^{2}} & \frac{\partial^{2} y}{\partial x_{1}\partial x_{2}} & \frac{\partial^{2} y}{\partial x_{1}\partial x_{3}} \\ \frac{\partial^{2} y}{\partial x_{2}\partial x_{1}} & \frac{\partial^{2} y}{\partial x_{2}^{2}} & \frac{\partial^{2} y}{\partial x_{2}\partial x_{3}} \\ \frac{\partial^{2} y}{\partial x_{3}\partial x_{1}} & \frac{\partial^{2} y}{\partial x_{3}\partial x_{2}} & \frac{\partial^{2} y}{\partial x_{3}^{2}} \end{bmatrix} = \begin{bmatrix} 12x_1^2x_2 & 4x_1^3 & 0\\ 4x_1^3 & 0 & e^{x_3}\\ 0 & e^{x_3} & x_2e^{x_3} \end{bmatrix}$

视该多元函数的梯度为一个向量函数，即：

$\begin{cases} y_1 =4x_1^3x_2 \\ y_2=x_1^4+3+e^{x_3} \\ y_3=x_2e^{x_3} \end{cases}$

那么，该多元函数的雅可比矩阵为：

$\mathbf{J}= \begin{bmatrix} \frac{\partial y_{1}}{\partial x_{1}} & \frac{\partial y_{1}}{\partial x_{2}} & \frac{\partial y_{1}}{\partial x_{3}} \\ \frac{\partial y_{2}}{\partial x_{1}} & \frac{\partial y_{2}}{\partial x_{2}} & \frac{\partial y_{2}}{\partial x_{3}} \\ \frac{\partial y_{3}}{\partial x_{1}} & \frac{\partial y_{3}}{\partial x_{2}} & \frac{\partial y_{3}}{\partial x_{3}} \end{bmatrix} = \begin{bmatrix} 12x_1^2x_2 & 4x_1^3 & 0\\ 4x_1^3 & 0 & e^{x_3}\\ 0 & e^{x_3} & x_2e^{x_3} \end{bmatrix}$