pytorch学习——LSTM和GRU-Toy模板网

这篇具有很好参考价值的文章主要介绍了pytorch学习——LSTM和GRU。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

参考书籍：https://zh-v2.d2l.ai/chapter_recurrent-modern/lstm.html

参考论文： https://colah.github.io/posts/2015-08-Understanding-LSTMs/

简介：

LSTM（长短期记忆网络）和GRU（门控循环单元）是两种常用的改进型循环神经网络（RNN），用于解决传统RNN中的长期依赖性和梯度消失/梯度爆炸等问题。

LSTM和GRU都通过引入门控机制和记忆单元来增强RNN的建模能力，并有效地捕捉长期依赖性。它们具有类似的结构，但在门控机制的设计和计算复杂度上有所不同。

LSTM（Long Short-Term Memory）是一种常用的循环神经网络（RNN）变体，旨在解决传统RNN在处理长期依赖性时容易出现的梯度消失或梯度爆炸问题。LSTM通过引入门控机制，有效地捕捉和记忆时间序列数据中的长期依赖关系。

pytorch学习——LSTM和GRU,pytorch,深度学习,pytorch,学习,lstm

LSTM的核心思想是使用称为"门"的结构来控制信息的流动和记忆的更新。下面是LSTM的主要组成部分

输入门（Input Gate）：输入门决定哪些信息将被传递到细胞状态（Cell State）。它使用一个Sigmoid激活函数来控制输入的权重，以及一个tanh激活函数来处理输入的值。输入门的计算公式如下：
```
i_t = sigmoid(W_i * x_t + U_i * h_(t-1) + b_i)
```
````
g_t = tanh(W_g * x_t + U_g * h_(t-1) + b_g)
````
```
遗忘门（Forget Gate）：遗忘门决定元状态中哪些信息应该被遗忘。它通过一个Sigmoid激活函数来控制元状态中的旧信息的权重。遗忘门的计算公式如下：
```
f_t = sigmoid(W_f * x_t + U_f * h_(t-1) + b_f)
```
元状态更新（Cell State Update）：元状态通过将输入门和遗忘门的结果相乘，并添加新的候选值（由tanh激活函数计算得到）来更新。元状态更新的计算公式如下：
```
C_t = f_t * C_(t-1) + i_t * g_t
```
输出门（Output Gate）：输出门决定从元状态中输出的值。它使用一个Sigmoid激活函数来控制输出的权重，并使用tanh激活函数处理元状态。输出门的计算公式如下：
```
o_t = sigmoid(W_o * x_t + U_o * h_(t-1) + b_o)
```
```
h_t = o_t * tanh(C_t)
```