神经网络基础-神经网络补充概念-40-神经网络权重的初始化-Toy模板网

这篇具有很好参考价值的文章主要介绍了神经网络基础-神经网络补充概念-40-神经网络权重的初始化。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

概念

神经网络权重的初始化是深度学习中的重要步骤，良好的权重初始化可以加速模型的训练收敛，提高模型的性能和稳定性。以下是一些常用的权重初始化方法：

零初始化（Zero Initialization）：将权重初始化为零。然而，这种方法不太适合深层神经网络，因为它会导致所有神经元在同一时间具有相同的输出，从而破坏了网络的对称性。因此，在实践中很少使用纯粹的零初始化。

随机初始化（Random Initialization）：将权重初始化为随机值。常见的随机初始化方法包括：

均匀分布（Uniform Distribution）：在某个范围内随机采样权重值，如 $[- a, a]$ 。
正态分布（Normal Distribution）：从均值为 0、标准差为 $\sigma$ 的正态分布中随机采样权重值。
随机初始化的目的是打破权重的对称性，使不同神经元可以学到不同的特征。

Xavier 初始化（Glorot Initialization）：Xavier 初始化是一种常用的权重初始化方法，特别适用于 sigmoid 和 tanh 等激活函数。对于具有 $n$ 个输入和 $m$ 个输出的全连接层，Xavier 初始化从均匀分布 $U[-\sqrt{\frac{6}{n+m}}, \sqrt{\frac{6}{n+m}}]$ 中采样权重值。

He 初始化：He 初始化是适用于 ReLU 激活函数的权重初始化方法。对于具有 $n$ 个输入的全连接层，He 初始化从正态分布 $\sqrt{\frac{2}{n}})$ 中采样权重值。

LeCun 初始化：LeCun 初始化是适用于 tanh 激活函数的权重初始化方法。对于具有 $n$ 个输入的全连接层，LeCun 初始化从均匀分布 $U[-\sqrt{\frac{1}{n}}, \sqrt{\frac{1}{n}}]$ 中采样权重值。

Orthogonal 初始化：Orthogonal 初始化是将权重矩阵初始化为正交矩阵，有助于防止梯度消失和梯度爆炸。这种方法特别适用于循环神经网络（RNN）等架构。文章来源地址https://www.toymoban.com/news/detail-653739.html

代码实现

import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# 生成示例数据
X = np.random.rand(100, 10)

# 定义模型
def build_model(initializer):
    model = keras.Sequential([
        layers.Input(shape=(X.shape[1],)),
        layers.Dense(64, activation='relu', kernel_initializer=initializer),
        layers.Dense(32, activation='relu', kernel_initializer=initializer),
        layers.Dense(1, activation='sigmoid', kernel_initializer=initializer)
    ])
    return model

# 随机初始化（均匀分布）
random_initializer = tf.keras.initializers.RandomUniform(minval=-0.05, maxval=0.05)
model_random = build_model(random_initializer)
model_random.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Xavier 初始化
xavier_initializer = tf.keras.initializers.GlorotUniform()
model_xavier = build_model(xavier_initializer)
model_xavier.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# He 初始化
he_initializer = tf.keras.initializers.he_normal()
model_he = build_model(he_initializer)
model_he.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# LeCun 初始化
lecun_initializer = tf.keras.initializers.lecun_uniform()
model_lecun = build_model(lecun_initializer)
model_lecun.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Orthogonal 初始化
orthogonal_initializer = tf.keras.initializers.orthogonal()
model_orthogonal = build_model(orthogonal_initializer)
model_orthogonal.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 打印各种初始化方法的模型结构
print("Random Initialization:")
model_random.summary()

print("\nXavier Initialization:")
model_xavier.summary()

print("\nHe Initialization:")
model_he.summary()

print("\nLeCun Initialization:")
model_lecun.summary()

print("\nOrthogonal Initialization:")
model_orthogonal.summary()