【深度学习】动手学深度学习(PyTorch版)李沐 2.4.3 梯度【公式推导】-Toy模板网

这篇具有很好参考价值的文章主要介绍了【深度学习】动手学深度学习(PyTorch版)李沐 2.4.3 梯度【公式推导】。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

2.4.3. 梯度

我们可以连接一个多元函数对其所有变量的偏导数，以得到该函数的梯度（gradient）向量。具体而言，设函数 $f:\mathbb{R}^{n}\to\mathbb{R}$ 的输入是一个 $n$ 维向量 $\vec x=\begin{bmatrix} x_1\\x_2\\···\\x_n\end{bmatrix}$ ，输出是一个标量。函数 $f(\vec x)$ 相对于 $\vec x$ 的梯度是一个包含 $n$ 个偏导数的向量：
$\nabla_{\vec x} f(\vec x) = \begin{bmatrix}\frac{\partial f(\vec x)}{\partial x_1}\\\frac{\partial f(\vec x)}{\partial x_2}\\···\\ \frac{\partial f(\vec x)}{\partial x_n}\end{bmatrix}$
其中 $\nabla_{\vec x} f(\vec x)$ 通常在没有歧义时被 $\nabla f(\vec x)$ 取代。

假设 $\vec x$ 为 $n$ 维向量，在微分多元函数时经常使用以下规则:

一、对于所有 $\in \mathbb{R^{m\times n}}$ ，都有 $\nabla_{\vec x} A\vec x = A^\top$ ；

证明：设 $A_{(m,n)}$ = $\begin{bmatrix} a_{1,1}&a_{1,2}&···&a_{1,n} \\ a_{2,1}&a_{2,2}&···&a_{2,n} \\ ··· & ··· & ··· & ··· \\ a_{m,1} & a_{m,2} &···&a_{m,n} \end{bmatrix}$ ，
则 $A\vec x_{(m,1)}$ = $\begin{bmatrix} a_{1,1}x_1+a_{1,2}x_2+···+a_{1,n}x_n \\ a_{2,1}x_1+a_{2,2}x_2+···+a_{2,n}x_n \\ ··· \\ a_{m,1}x_1+a_{m,2}x_2+···+a_{m,n}x_n \end{bmatrix}$ ,
$\nabla_{\vec x}A\vec x$ = $\begin{bmatrix}\frac{\partial A\vec x}{\partial x_1}\\\frac{\partial A\vec x}{\partial x_2}\\···\\ \frac{\partial A\vec x}{\partial x_n}\end{bmatrix}$
= $\begin{bmatrix}\frac{\partial a_{1,1}x_1+a_{1,2}x_2+···+a_{1,n}x_n}{\partial x_1}& \frac{\partial a_{2,1}x_1+a_{2,2}x_2+···+a_{2,n}x_n}{\partial x_1}&···&\frac{\partial a_{m,1}x_1+a_{m,2}x_2+···+a_{m,n}x_n}{\partial x_1}\\ \frac{\partial a_{1,1}x_1+a_{1,2}x_2+···+a_{1,n}x_n}{\partial x_2}& \frac{\partial a_{2,1}x_1+a_{2,2}x_2+···+a_{2,n}x_n}{\partial x_2}&···&\frac{\partial a_{m,1}x_1+a_{m,2}x_2+···+a_{m,n}x_n}{\partial x_2}\\ ···&···&···&···\\ \frac{\partial a_{1,1}x_1+a_{1,2}x_2+···+a_{1,n}x_n}{\partial x_n}& \frac{\partial a_{2,1}x_1+a_{2,2}x_2+···+a_{2,n}x_n}{\partial x_n}&···&\frac{\partial a_{m,1}x_1+a_{m,2}x_2+···+a_{m,n}x_n}{\partial x_n}\end{bmatrix}$
= $\begin{bmatrix} a_{1,1} & a_{2,1} & ··· & a_{m,1}\\ a_{1,2} & a_{2,2} & ··· & a_{m,2} \\ ···&···&···&··· \\ a_{1,n}&a_{2,n}&···&a_{m,n} \end{bmatrix}$ = $A^\top$

二、对于所有 $\in \mathbb{R^{n\times m}}$ ，都有 $\nabla_{\vec x} \vec x^\top A = A$ ；

证明：设 $A_{(n,m)}$ = $\begin{bmatrix} a_{1,1}&a_{1,2}&···&a_{1,m} \\ a_{2,1}&a_{2,2}&···&a_{2,m} \\ ··· & ··· & ··· & ··· \\ a_{n,1} & a_{n,2} &···&a_{n,m} \end{bmatrix}$ ，
则 $\vec x^\top A$ =
$\begin{bmatrix} a_{1,1}x_1+a_{2,1}x_2+···+a_{n,1}x_n & a_{1,2}x_1+a_{2,2}x_2+···+a_{n,2}x_n & ···&a_{1,m}x_1+a_{2,m}x_2+···+a_{n,m}x_n \end{bmatrix}$ ,
$\nabla_{\vec x}\vec x^\top A$ = $\begin{bmatrix}\frac{\partial \vec x^\top A}{\partial x_1}\\\frac{\partial \vec x^\top A}{\partial x_2}\\···\\ \frac{\partial \vec x^\top A}{\partial x_n}\end{bmatrix}$
= $\begin{bmatrix}\frac{\partial a_{1,1}x_1+a_{2,1}x_2+···+a_{n,1}x_n}{\partial x_1}& \frac{\partial a_{1,2}x_1+a_{2,2}x_2+···+a_{n,2}x_n}{\partial x_1}&···&\frac{\partial a_{1,m}x_1+a_{2,m}x_2+···+a_{n,m}x_n}{\partial x_1}\\ \frac{\partial a_{1,1}x_1+a_{2,1}x_2+···+a_{n,1}x_n}{\partial x_2}& \frac{\partial a_{1,2}x_1+a_{2,2}x_2+···+a_{n,2}x_n}{\partial x_2}&···&\frac{\partial a_{1,m}x_1+a_{2,m}x_2+···+a_{n,m}x_n}{\partial x_2}\\ ···&···&···&···\\ \frac{\partial a_{1,1}x_1+a_{2,1}x_2+···+a_{n,1}x_n}{\partial x_n}& \frac{\partial a_{1,2}x_1+a_{2,2}x_2+···+a_{n,2}x_n}{\partial x_n}&···&\frac{\partial a_{1,m}x_1+a_{2,m}x_2+···+a_{n,m}x_n}{\partial x_n}\end{bmatrix}$
= $\begin{bmatrix} a_{1,1} & a_{1,2}&···&a_{1,m}\\ a_{2,1}&a_{2,2}&···&a_{2,m} \\ ···&···&···&···\\ a_{n,1}&a_{n,2}&···&a_{n,m} \end{bmatrix}$ = $A$

三、对于所有 $\in \mathbb{R^{n\times n}}$ ，都有 $\nabla_{\vec x} \vec x^\top A \vec x = (A+A^\top)\vec x$ ；

证明：设 $A_{(n,n)}$ = $\begin{bmatrix} a_{1,1}&a_{1,2}&···&a_{1,n} \\ a_{2,1}&a_{2,2}&···&a_{2,n} \\ ··· & ··· & ··· & ··· \\ a_{n,1} & a_{n,2} &···&a_{n,n} \end{bmatrix}$ ，
则 $\vec x^\top A$ = $\begin{bmatrix} a_{1,1}x_1+a_{2,1}x_2+···+a_{n,1}x_n & a_{1,2}x_1+a_{2,2}x_2+···+a_{n,2}x_n & ···&a_{1,n}x_1+a_{2,n}x_2+···+a_{n,n}x_n \end{bmatrix}$ ,
$\vec x^\top A \vec x$ = $\begin{bmatrix} \sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n} (a_{i,j}x_ix_j) \end{bmatrix}$ ,
$\nabla_{\vec x}\vec x^\top A \vec x$ = $\begin{bmatrix} \frac{\partial \sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n} (a_{i,j}x_ix_j)}{\partial x_1} \\ \frac{\partial \sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n} (a_{i,j}x_ix_j)}{\partial x_2} \\ ···\\ \frac{\partial \sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n} (a_{i,j}x_ix_j)}{\partial x_n} \end{bmatrix}$ = $\begin{bmatrix} \sum\limits_{i=1}^{n}(a_{i,1}+a_{1,i})x_i \\ \sum\limits_{i=1}^{n}(a_{i,2}+a_{2,i})x_i \\ ···\\ \sum\limits_{i=1}^{n}(a_{i,n}+a_{n,i})x_i \\ \end{bmatrix}$
= $\begin{bmatrix} 2a_{1,1} & a_{1,2}+a_{2,1} & ···&a_{1,n}+a_{n,1} \\ a_{2,1}+a_{1,2} & 2a_{2,2} & ···&a_{2,n}+a_{n,2} \\ ···&···&···&···\\ a_{n,1}+a_{1,n} & a_{n,2}+a_{2,n} & ···&2a_{n,n} \\ \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ ···\\ x_n \end{bmatrix}$ = $(A+A^\top)\vec x$

四、 $\nabla_{\vec x} \Vert x \Vert ^2=\nabla_{\vec x}\vec x^\top\vec x = 2\vec x$ 。

证明： $\nabla_{\vec x}\Vert x \Vert ^2$ = $\nabla_{\vec x}\sqrt{x_1^2+x_2^2+···+x_n^n}^2$ = $\nabla_{\vec x}x_1^2+x_2^2+···+x_n^n$ = $\nabla_{\vec x}x^\top x$ ；
$\nabla_{\vec x}\Vert x \Vert ^2$ = $\nabla_{\vec x}\sqrt{x_1^2+x_2^2+···+x_n^n}^2$ = $\nabla_{\vec x}x_1^2+x_2^2+···+x_n^n$ = $\begin{bmatrix} 2x_1\\ 2x_2\\ ···\\ 2x_n \end{bmatrix}$ = $2 x$

同样，对于任何矩阵 $X$ ，都有 $\nabla_X \Vert X \Vert_F^2=2X$ 。正如我们之后将看到的，梯度对于设计深度学习中的优化算法有很大用处。

五、对于任何矩阵 $X$ ，都有 $\nabla_X \Vert X \Vert_F^2=2X$

证明：设 $X$ 为 $m\times n$ 的矩阵， $\begin{bmatrix} x_{1,1}& x_{1,2}&···&x_{1,n}\\ x_{2,1}& x_{2,2}&···&x_{2,n}\\ ···&···&···&···\\ x_{m,1}& x_{m,2}&···&x_{m,n}\\ \end{bmatrix}$ ，
则 $\Vert X \Vert_F^2$ = $\sqrt{\sum\limits_{i=1}^{m}\sum\limits_{j=1}^n x_{i,j}^2}^2$ = $\sum\limits_{i=1}^{m}\sum\limits_{j=1}^n x_{i,j}^2$ ，
$\nabla_X \Vert X \Vert_F^2$ = $\begin{bmatrix} 2x_{1,1}& 2x_{1,2}&···&2x_{1,n}\\ 2x_{2,1}& 2x_{2,2}&···&2x_{2,n}\\ ···&···&···&···\\ 2x_{m,1}& 2x_{m,2}&···&2x_{m,n}\\ \end{bmatrix}$ = $2 X$

初看公式时没看懂，所以自己推了一遍加深印象，以上内容为推导过程，有问题欢迎讨论文章来源地址https://www.toymoban.com/news/detail-795817.html

到了这里，关于【深度学习】动手学深度学习(PyTorch版)李沐 2.4.3 梯度【公式推导】的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

【深度学习】动手学深度学习(PyTorch版)李沐 2.4.3 梯度【公式推导】

2.4.3. 梯度

一、对于所有 $\in \mathbb{R^{m\times n}}$ ，都有 $\nabla_{\vec x} A\vec x = A^\top$ ；

二、对于所有 $\in \mathbb{R^{n\times m}}$ ，都有 $\nabla_{\vec x} \vec x^\top A = A$ ；

三、对于所有 $\in \mathbb{R^{n\times n}}$ ，都有 $\nabla_{\vec x} \vec x^\top A \vec x = (A+A^\top)\vec x$ ；

四、 $\nabla_{\vec x} \Vert x \Vert ^2=\nabla_{\vec x}\vec x^\top\vec x = 2\vec x$ 。

五、对于任何矩阵 $X$ ，都有 $\nabla_X \Vert X \Vert_F^2=2X$

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

【深度学习】动手学深度学习(PyTorch版)李沐 2.4.3 梯度【公式推导】

2.4.3. 梯度

一、对于所有 A ∈ R m × n A \in \mathbb{R^{m\times n}} A∈Rm×n，都有 ∇ x ⃗ A x ⃗ = A ⊤ \nabla_{\vec x} A\vec x = A^\top ∇x ​Ax =A⊤；

二、对于所有 A ∈ R n × m A \in \mathbb{R^{n\times m}} A∈Rn×m，都有 ∇ x ⃗ x ⃗ ⊤ A = A \nabla_{\vec x} \vec x^\top A = A ∇x ​x ⊤A=A；

三、对于所有 A ∈ R n × n A \in \mathbb{R^{n\times n}} A∈Rn×n，都有 ∇ x ⃗ x ⃗ ⊤ A x ⃗ = ( A + A ⊤ ) x ⃗ \nabla_{\vec x} \vec x^\top A \vec x = (A+A^\top)\vec x ∇x ​x ⊤Ax =(A+A⊤)x ；

四、 ∇ x ⃗ ∥ x ∥ 2 = ∇ x ⃗ x ⃗ ⊤ x ⃗ = 2 x ⃗ \nabla_{\vec x} \Vert x \Vert ^2=\nabla_{\vec x}\vec x^\top\vec x = 2\vec x ∇x ​∥x∥2=∇x ​x ⊤x =2x 。

五、对于任何矩阵 X X X，都有 ∇ X ∥ X ∥ F 2 = 2 X \nabla_X \Vert X \Vert_F^2=2X ∇X​∥X∥F2​=2X

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

一、对于所有 $\in \mathbb{R^{m\times n}}$ ，都有 $\nabla_{\vec x} A\vec x = A^\top$ ；

二、对于所有 $\in \mathbb{R^{n\times m}}$ ，都有 $\nabla_{\vec x} \vec x^\top A = A$ ；

三、对于所有 $\in \mathbb{R^{n\times n}}$ ，都有 $\nabla_{\vec x} \vec x^\top A \vec x = (A+A^\top)\vec x$ ；

四、 $\nabla_{\vec x} \Vert x \Vert ^2=\nabla_{\vec x}\vec x^\top\vec x = 2\vec x$ 。

五、对于任何矩阵 $X$ ，都有 $\nabla_X \Vert X \Vert_F^2=2X$