一、说明
对于LSTM鲜有人能说清楚其内部机制,就连相关的文档也少之又少,本篇主要针对LSTM的内部梯度传递关系,解析其逻辑原理,对于入门已久的专业人事,应该是难得的好文。对于初学者不必全通,能看个大概其也是有收获的。
二、示例
许多帖子已经详细讨论了 LSTM 的转发传递(例如,【NLP】理解LSTM的内在逻辑 )。然而,经历反向传播的相对较少,数值示例更为罕见。我确实设法找到了一些好的资源,我认为值得深入研究更多细节。
其他博客讨论RNN,所以我不会深入讨论它们。相反,我将重点介绍:
- 前向传递:信息如何通过 LSTM
- 向后传递:梯度信息如何通过 LSTM 向后传播
让我们举一个非常简单的例子,通过正向传递和向后传递。我假设你以前见过反向传播。文章来源:https://www.toymoban.com/news/detail-520733.html
三、基本知识
LSTM 代表 长短期记忆。它由Hochreiter和Schmidhuber于1997年构思,此后由许多其他人进行了改进。LSTM 的目的是时间序列建模:如果您有输入序列,则可能需要将其映射到输出序列、标量值或类。 LSTM 可以帮助您做到这一点。整个 LSTM 模型(所有门和存储单元)称为 LSTM 单元。基本组件包括输入门、遗忘门(在原始 LSTM 之后添加)、输出门和存储单元。宽: 文章来源地址https://www.toymoban.com/news/detail-520733.html
- 输入门允许新信息流入网络。它有参数
到了这里,关于【NLP】LSTM追根溯源的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!