矩阵求导常用公式-Toy模板网

这篇具有很好参考价值的文章主要介绍了矩阵求导常用公式。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1 引言

常见的求导有，标量对标量求导，向量对标量，矩阵对标量，标量对向量，向量对向量，标量对矩阵。求导的几种形式：
矩阵求导常用公式
字符标示:
A 大写粗体表示矩阵
a 小写粗体表示向量
a 小写粗体表示标量
tr(X) 表示迹，主对角线之和
det(X) or |X| 表示
字母表前面部分表示常量(如 a,b,c…),字母表后面部分表示变量(如 t,x,y,…)

2 向量的导数

2.1 向量对标量求导 Vector-by-scalar

y 向量为 $\mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}$ ，对 x 求导，结果为列

${\frac {\partial \mathbf {y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}\\{\frac {\partial y_{2}}{\partial x}}\\\vdots \\{\frac {\partial y_{m}}{\partial x}}\\\end{bmatrix}}$

2.2 标量对向量求导 Scalar-by-vector

y 为标量，对向量 $\mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}$ 求导，结果为行
矩阵求导常用公式

2.3 向量对向量求导 Vector-by-vector

输出向量为 $\mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}$ ，
输入向量为 $\mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}$
神经网络中全连接层的形式就是如此
矩阵求导常用公式
这种矩阵也称为雅各布矩阵

3 矩阵的导数

3.1 矩阵对标量求导 Matrix-by-scalar

矩阵求导常用公式

3.2 标量对矩阵求导 Scalar-by-matrix

矩阵求导常用公式

4 常用求导公式

字符标示:
a, b, c, d, and e 为常量, 标量 u, and v 由 x, x, or X中的一个计算而来;
a, b, c, d, and e 为常量向量, 向量 u, and v 由 x, x, or X中的一个计算而来;
A, B, B, D, and E 为常量矩阵, 向量 U, and V 由 x, x, or X中的一个计算而来;