【一起撸个深度学习框架】6 折与曲的相会——激活函数

这篇具有很好参考价值的文章主要介绍了【一起撸个深度学习框架】6 折与曲的相会——激活函数。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  • CSDN个人主页:清风莫追
  • 欢迎关注本专栏:《一起撸个DL框架》
  • GitHub获取源码:https://github.com/flying-forever/OurDL
  • blibli视频合集:https://space.bilibili.com/3493285974772098/channel/series

6 折与曲的相会——激活函数🍈

1 前言

  • 在上一节,我们实现了一个“自适应线性单元”,不断地将一个一次函数的输入和输出“喂”给它,它就可以自动地找到一次函数 y = w x + b y=wx+b y=wx+b中合适的参数值w和b。计算图通过前向传播和反向传播,初步展现了它的神奇之处。

  • 但在实际遇到的问题中,输入与输出之间往往并不是简单的线性关系,它们之间的函数关系可能是二次的、指数、甚至分段的。此时”自适应线性单元“就不足以满足我们的需求了。而”激活函数“,将为计算图带来一种拟合这些非线性函数关系的能力。

  • 同时为了得到对于激活函数更加清晰和形象化的认知,本节我们还将使用matplotlib对拟合过程进行一些可视化的展现。

  • 本节任务:在计算图中加入激活函数relu,拟合二次函数 y = x 2 y=x^2 y=x2在区间[0,2]的一小段曲线。

可视化效果

【一起撸个深度学习框架】6 折与曲的相会——激活函数
图1:二次函数拟合动画

2 激活函数

关于”激活函数“这个名称(非专业解释),首先我们可以看阶跃函数。当输入超过0这个阈值时,输出就从0跳到了1,0是一个非激活的状态,而1是一个激活的状态。这个和生物领域中神经元间的突触有一定相似性,当突触间的兴奋性神经元递质超过某个阈值后,下一个神经元才会进入兴奋状态继续传递信号。
f ( x ) = { 0 , x < 0 1 , x > = 0 f(x)=\begin{cases} 0, & x<0 \\ 1, & x>=0 \end{cases} f(x)={0,1,x<0x>=0

【一起撸个深度学习框架】6 折与曲的相会——激活函数
图2:阶跃函数的图像

2.1 Relu

人们发明了许多各式各样的激活函数,它们有着不同的特点,而Relu是其中比较常用的一种。Relu是一个简单的分段函数,它的核心思想是通过多段折线来贴近曲线,折线段越多、越短,拟合效果就越好,理论上使用relu几乎可以较好地任何曲线。
r e l u ( x ) = { x , x > = 0 0 , x < 0 relu(x)=\begin{cases} x, & x>=0 \\ 0, & x<0 \end{cases} relu(x)={x,0,x>=0x<0

【一起撸个深度学习框架】6 折与曲的相会——激活函数
图3:Relu函数图像

Relu节点的实现

# ourdl/ops/ops.py
class Relu(Op):
    def compute(self):
        assert len(self.parents) == 1
        self.value = self.parents[0].value if self.parents[0].value >= 0 else 0
    def get_parent_grad(self, parent):
        return 1. if self.parents[0].value > 0 else 0  # 发现relu的导函数就是step
    @staticmethod
    def relu(x: float):
        '''静态方法 --> 在计算图之外使用relu'''
        return x if x >= 0. else 0.

在前向传播的过程中,它接受一个父节点的输入,并产生一个输出。我们还使用装饰器@staticmethod,实现了一个静态方法relu(x),这样我们也可以在计算图之外直接调用relu函数了,例如可以在使用matplotlib绘制函数图像时用到。

2.3 LeakyRelu

和加法节点、乘法节点等节点一样,激活函数也是计算图中的一个运算节点,需要在该节点类中实现对应的get_parent_grad()方法对父节点进行求导。Relu函数在输入小于0时函数值都是0,对应的导数也是0,这种情况下参数就不会进行更新了。

人们提出了一种对Relu函数的修正方案,那就是LeakyRelu。在输入大于等于0的部分函数值不变,仍然是x;但是在输入小于0的部分取 0.1 x 0.1x 0.1x,这样在反向传播的过程中,节点的输入小于0时,虽然导数只有0.1,但并没有直接消失,参数仍然可以进行更新。(这里0.1是一个”超参数“,也可以取其它值)

在我的一些尝试中,使用Relu函数时训练过程会卡住一直无法拟合,但LeakyRelu可以一定程度上缓解问题,仍然可以拟合只是比较慢。

【一起撸个深度学习框架】6 折与曲的相会——激活函数
图4:LeakyRelu的函数图像

LeakyRelu节点的实现

# ourdl/ops/ops.py
class LeakyRelu(Op):
    '''消除了relu中导数为0的情况'''
    def compute(self):
        assert len(self.parents) == 1
        t = self.parents[0].value
        self.value = t if t >= 0 else t * 0.1
    def get_parent_grad(self, parent):
        return 1. if self.parents[0].value > 0 else 0.1  # 发现relu的导函数就是step
    @staticmethod
    def relu(x: float):
        '''静态方法 --> 在计算图之外使用leakyrelu'''
        return x if x >= 0. else x * 0.1

超参数”0.1"直接写死在代码中了,因为它通常并不需要改变。

3 拟合曲线的尝试

3.1 设计计算图

【一起撸个深度学习框架】6 折与曲的相会——激活函数
图5:计算图的设计

这个计算图中明确地画出了所有的节点,看起来有一些复杂。从整体看,计算图包含了三次变换:

输 入 − − > 线 性 变 换 − − > 激 活 函 数 − − > 线 性 变 换 − − > 输 出 输入-->线性变换-->激活函数-->线性变换-->输出 >线>>线>

上述三次变换各自的意义是什么?计算图为什么设计成这个样子?这都是很重要的问题。

其实在图一中大致就能得到答案。

  • 第一次变换,产生两条不同的直线,它们有着不同的斜率,更重要的是:它们与x轴有着不同的交点
  • 第二次变换,使用激活函数relu(图一中是LeakyRelu),两条直线都在与x轴的交点处折断,得到两条折线。
  • 第三次变换,两条折线线性叠加,由于它们折断点不同,故得到是一个三段折线。

而我所希望的,就是利用三段的折线去尽可能地贴合二次函数的曲线。

3.2 实现训练过程

1、计算图的搭建

# example/01_esay/04_relu与二次拟合.py
import sys
sys.path.append('../..')  # 父目录的父目录
from ourdl.core import Varrible
from ourdl.ops import Mul, Add
from ourdl.ops.loss import ValueLoss
from ourdl.ops import LeakyRelu as Relu
import matplotlib.pyplot as plt
import numpy as np
import random

# 1.1 线性变换一
x = Varrible()
w_11 = Varrible()
w_12 = Varrible()
mul_11 = Mul([x, w_11])
mul_12 = Mul([x, w_12])
b_11 = Varrible()
b_12 = Varrible()
add_11 = Add([mul_11, b_11])
add_12 = Add([mul_12, b_12])
# 1.2 激活函数 --> 非线性变换
relu_11 = Relu([add_11])
relu_12 = Relu([add_12])
# 1.3 线性变换二
w_21 = Varrible()
w_22 = Varrible()
mul_21 = Mul([relu_11, w_21])
mul_22 = Mul([relu_12, w_22])
b_21 = Varrible()
add_21 = Add([mul_21, mul_22, b_21])
# 1.4 损失函数
label = Varrible()
loss = ValueLoss([label, add_21])

在完成计算图的设计后,搭建的过程比较简单,就是一些节点的创建和连接。由于节点的数量比较多,因此稍有些繁琐,后面我们会实现一些对象和方法用于批量创建和连接节点以及计算图的封装,简化计算图的搭建过程。一个个节点地创建也有其优势——灵活。

2、初始化计算图参数

# example/01_esay/04_relu与二次拟合.py
# 2 参数初始化
params = [w_11, w_12, b_11, b_12, w_21, w_22, b_21]
for param in params:
    param.set_value(random.uniform(-1, 1))
print([param.value for param in params])

这里调用了random库,使用均匀分布进行参数的随机初始化。将所有需要训练的参数加入到了一个列表params中,方便批量进行初始化以及后面的参数更新。

有时为了对比多次训练的效果,需要进行固定的初始化(初始化有时可以很大程度地影响训练效果),你可以手动地指定这些参数的初始值,例如

values = [-0.1571950013426796, -0.1070365984042347, 0.3791639008324807, 0.31960284774415215, 0.4263410176300597, 0.5097967360623379, 0.7597168751185974]
for i in range(len(params)):
    params[i].set_value(values[i])

如果你使用的是Relu激活函数而不是LeakyRelu,同时采用随机参数初始化,你将发现你的训练时而成功时而失败。

3、构造训练数据

# example/01_esay/04_relu与二次拟合.py
# 3 生成数据
data_x = [random.uniform(0, 2) for i in range(1500)]  # 似乎实数比离散的[0, 1, 2]要好
data_label = [x * x for x in data_x]

使用均匀分布,在[0, 2]的范围内生成了1500个随机值,作为输入的x。然后使用了列表推导式得到对应的二次函数输出值,作为计算图中的标签。

4、训练过程

# example/01_esay/04_relu与二次拟合.py
# 4 开始训练
losses = []
for i in range(len(data_x)):
    x.set_value(data_x[i])
    label.set_value(data_label[i])
    loss.forward()
    for param in params:
        param.get_grad()
        param.update(lr=0.01)
    if i % 100 == 0:
        print(f'[{i}]:loss={loss.value},', [param.value for param in params])
    losses.append(loss.value)
    loss.clear()

# 5 画出训练过程中loss的变化曲线
show_x = [i for i in range(len(losses))]
show_y = [_ for _ in losses]
plt.plot(show_x, show_y)
plt.show()

训练过程与上一节“自适应线性单元”基本相同。在第三步构造训练数据时,我们生成了1500个数据样本,因此绘制曲线来观察训练过程中的损失变化会更加直观。我们使用losses列表记录了每次参数更新后的损失值,并使用matplotlib库绘制损失的变化曲线。

3.3 训练效果

这里我们就完成了训练过程的所有代码编写,让我们运行一下代码看看效果吧!

【一起撸个深度学习框架】6 折与曲的相会——激活函数
图6:损失变化曲线

可以看到随着训练过程的进行,损失值呈下降的趋势,并渐渐趋于平稳。损失值越低表示着模型的输出越准确,我们的模型看起来好像训练得还不错。

但只看损失函数其实还是不太直观,我们可以直接将模型所表示的函数,与二次函数 y = x 2 y=x^2 y=x2画在一起,看看它们到底贴得近不近。

3.4 训练过程的可视化动画

当然,我觉得只看一个最后的贴合结果还不够,甚至只看输出的结果也仍然不能很清晰地了解训练的过程。所以我决定将中间节点的输出也画出来,并随着训练的过程以动画的形式呈现。

效果大家已经看过啦!就是图1所示的动画。

# example/01_esay/04_relu与二次拟合.py
# 4 开始训练
# 4.1 创建画布
fig = plt.figure(figsize=(15,4))
ax = fig.subplots(1,3,sharex=True,sharey=False)  # ax是包含一行三列,一共三块子画布的列表
# 4.2 训练,同时绘制动画
losses = []
for i in range(len(data_x)):
    x.set_value(data_x[i])
    label.set_value(data_label[i])
    loss.forward()
    for param in params:
        param.get_grad()
        param.update(lr=0.01)
    if i % 200 == 0:
        print(f'[{i}]:loss={loss.value},', [param.value for param in params])
    losses.append(loss.value)
    loss.clear()
    if i % 40 == 0:
        show_ax_mul(ax)  # 用于绘制多图动画

首先我们修改了 4、训练过程 部分的代码,创建画布,然后将画布对象传递给show_ax_mul()函数,绘制图像。在show_ax_mul()每次绘制完成后,调用plt.pause()让画面暂停下(否则画面会一闪而逝啥也看不清),然后清空画布方便下次绘图。

画布的绘制、清空都是在后台的,因此“清空画布”操作不会直接清空已经画出的函数图像。在下次绘制图像时,才会将原来的图像覆盖掉。

通过反复的绘制——清空,就形成了动画的效果。这样绘制的效率比较低,大家也可以自行搜索其它的动画绘制方法。

# example/01_esay/04_relu与二次拟合.py
def show_ax_mul(ax):
    '''
    用于绘制多图动画\n
	'''
    # 1 画真实的二次函数曲线
    show_x = np.linspace(-0.5, 2.5, 30, endpoint=True)
    show_y = [x_one * x_one for x_one in show_x]
    ax[2].plot(show_x, show_y)
    # 2 画模型拟合的曲线
    show_x = np.linspace(-0.5, 2.5, 10, endpoint=True)
    shows = {'add1':[], 'add2':[], 'mul1':[], 'mul2':[], 'y':[]}
    for x_one in show_x:
        x.set_value(x_one)
        add_21.clear()
        add_21.forward()
        shows['y'].append(add_21.value)
        shows['add1'].append(add_11.value)
        shows['add2'].append(add_12.value)
        shows['mul1'].append(mul_21.value)
        shows['mul2'].append(mul_22.value)
    ax[2].plot(show_x, shows['y'])
    ax[0].plot(show_x, shows['add1'])
    ax[0].plot(show_x, shows['add2'])
    ax[1].plot(show_x, shows['mul1'])
    ax[1].plot(show_x, shows['mul2'])
    y_0 = [0 for _ in show_x]  # 水平的参考线
    ax[2].plot(show_x, y_0)
    ax[0].plot(show_x, y_0)
    ax[1].plot(show_x, y_0)
    plt.pause(0.01)
    for i in range(ax.shape[0]):
        ax[i].cla()

4 补充:参数初始化的影响

参数的初始化对训练效果的影响真的很大!它可以影响训练的速度,最终成功拟合的方式,以及是否能够成功拟合。大家可以尝试着调整各个初始化参数的正负以及大小,观察它们对应训练效果的影响,并思考这样的影响是怎样产生的。

同时,由于我们的计算图还比较简单,也方便进行比较透彻的思考。

对比 图7图8 的拟合结果,发现它们虽然有所区别,但是都较好的拟合了二次函数在[0, 2]的这一段曲线。这种区别是损失函数曲线中所无法体现出来的信息,这便是可视化的意义之一。

图8的训练迭代了1500次,而 图7 迭代了10000次以上,两次训练的区别仅仅就是参数的初始化不同。随着计算图参数规模的增大,对应参数初始化的敏感程度会没有那么高。但利用不同的随机分布、不同的数值范围进行初始化,有时训练效果仍会有较大的差距。

# 图8对应的参数初始化
values = [-0.1571950013426796, -0.1070365984042347, 0.3791639008324807, 0.31960284774415215, 0.4263410176300597, 0.5097967360623379, 0.7597168751185974]
# 图7对应的参数初始化
values = [-0.4571950013426796, -0.4070365984042347, 0.3791639008324807, 0.31960284774415215, 0.4263410176300597, 0.5097967360623379, 0.7597168751185974]
【一起撸个深度学习框架】6 折与曲的相会——激活函数
图7:实际的拟合方式
【一起撸个深度学习框架】6 折与曲的相会——激活函数
图8:我期待的拟合方式

下节预告:计算图的封装文章来源地址https://www.toymoban.com/news/detail-450296.html

到了这里,关于【一起撸个深度学习框架】6 折与曲的相会——激活函数的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习笔记】深度学习框架

    本专栏是网易云课堂人工智能课程《神经网络与深度学习》的学习笔记,视频由网易云课堂与 deeplearning.ai 联合出品,主讲人是吴恩达 Andrew Ng 教授。感兴趣的网友可以观看网易云课堂的视频进行深入学习,视频的链接如下: 神经网络和深度学习 - 网易云课堂 也欢迎对神经网

    2024年02月14日
    浏览(42)
  • 深度学习框架教程:介绍一些流行的深度学习框架 (如TensorFlow、PyTorch等)

    目录 一、引言 二、TensorFlow 三、Keras 四、PyTorch 五、技巧与最佳实践

    2024年02月02日
    浏览(49)
  • 2023了,学习深度学习框架哪个比较好?

    都2023年,才来回答这个问题,自然毫无悬念地选择PyTorch,TensorFlow在大模型这一波浪潮中没有起死回生,有点惋惜,现在GLM、GPT、LLaMA等各种大模型都是基于PyTorch框架构建。这个事情已经水落石出。 不过呢,我觉得可以一起去回顾下,在AI框架发展的过程中,都沉陷了哪些技

    2024年02月16日
    浏览(41)
  • 深度学习开源框架

    深度学习框架是用于构建和训练深度学习模型的软件库或工具,它可以提供清晰的、高级的编程接口以及预训练的模型,使得开发者更加容易地设计和实现深度学习模型。以下是一些常见的深度学习框架: TensorFlow: 由Google Brain团队开发的开源库,适合多种应用,并在硬件加速

    2024年02月16日
    浏览(36)
  • 深度学习框架背景

    本文目录: 一、深度学习框架概念 二、为何要用深度学习框架 三、掌握深度学习框架要做哪些准备 四、深度学习主要应用场景 五、常见深度学习框架的对比 六、深度学习框架在市场上的占比 七、中国深度学习开源框架状况  八、备注 深度学习框架(Deep Learning Framework)

    2024年02月11日
    浏览(39)
  • 常见的深度学习框架

    框架 优点 缺点 TensorFlow - 由Google开发和维护,社区庞大,学习资源丰富 - 具备优秀的性能表现,支持大规模分布式计算 - 支持多种编程语言接口,易于使用 - 提供了可视化工具TensorBoard,可用于调试和可视化模型 - 底层架构复杂,操作较为繁琐 - 不支持动态图,调试和修改模

    2024年02月02日
    浏览(36)
  • 深度学习 框架代码(草稿)

    train_sample.py 和 test.py 见文章: 深度学习-AlexNet代码实现 用 parser 方便服务器中的终端操作 第三个代码将 mac的 mps 和 cuda 混合了,有点问题,看下代码整体思想就行,不用去跑 因为我的电脑是 mac 的 mps,还没找到代码的替代方法 可以直接用上面那篇文章中的 train_sample.py 只要

    2024年02月07日
    浏览(39)
  • 主流开源深度学习框架简介

    本文目录: 一、TensorFlow深度学习框架 二、PyTorch深度学习框架 三、Keras深度学习框架 四、Caffe深度学习框架 五、中国深度学习开源框架状况 六、几种框架的对比 七、其他统计数据 当下,有许多主流的开源深度学习框架供开发者使用。 主要包括TensorFlow、PyTorch、Keras、Caffe等

    2024年02月11日
    浏览(43)
  • (五)、深度学习框架源码编译

    源码构建: 源码构建是通过获取软件的源代码,然后在本地编译生成可执行程序或库文件的过程。这种方法允许根据特定需求进行配置和优化,但可能需要较长的时间和较大的资源来编译源代码。 预构建: 预构建是通过从开发者或官方网站下载预先编译好的可执行程序或库

    2024年02月12日
    浏览(37)
  • 华为的深度学习框架介绍一下

    华为的深度学习框架是华为公司推出的MindSpore。与其他主流深度学习框架(如TensorFlow和PyTorch)相比,MindSpore具有以下几个特点: 易于使用:MindSpore的API设计简单易用,让用户可以轻松地构建深度学习模型。 支持多种硬件平台:MindSpore支持多种硬件平台,包括GPU、CPU、Ascen

    2024年02月15日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包