大模型基础之神经网络-Toy模板网

这篇具有很好参考价值的文章主要介绍了大模型基础之神经网络。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

【神经网络的构成】

神经元激活函数层

feedforward computation前向计算：从输入开始依次计算每一层的结果。

隐层：在输入之上添加的多层通常被称为隐层。

激活函数：非线性的激活函数，拟合非线性关系，进行非线性变换。

叠加若干隐层，提升网络的表达能力。

输出层：来得到结果。线性输出层，用来解决回归问题。sigmoid输出层，将结果压到0-1之内，用来解决二分类问题。softmax输出层，用来解决多分类问题。

【如何训练】

目标：均方差越小，模型越好。Mean Squared Error。每个预测值和真实值差的平方和再求平均。将均方差定义为损失函数，也就是所谓的loss。训练的目标就是去减小这个损失函数的值。

如果是分类任务呢，目标就是最小化交叉熵Cross-entropy.

如何使损失函数最小化，采用梯度下降法，把整个优化过程拆分成一个个步骤，每一步，缩小损失函数一点点。如何调整参数，才能使损失函数逐步变小呢。这需要去求损失函数对于模型参数的梯度，梯度代表了对这个参数进行单位大小的改动，然后损失函数它变化最快的方向。我们就顺着这个方向去对模型参数做一个小的改动，就可以降低一点点损失函数。因为我们目标是使损失函数最小，所以我们要做沿着梯度的反方向去改动/走一小步。

改动/步幅的大小取决于“学习率”。

反向传播：把上游神经元层的梯度，传递到下游神经元层的梯度，从上游到下游逐层计算每层参数要进行的小变动。

随机梯度下降：以上计算梯度下降时用的是全部样本&文章来源地址https://www.toymoban.com/news/detail-500634.html

到了这里，关于大模型基础之神经网络的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！