激活函数简述

这篇具有很好参考价值的文章主要介绍了激活函数简述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、激活函数的作用 

1.不带激活函数的单层感知机是一个线性分类器,不能解决线性不可分的问题

2.合并后的多个感知器本质上还是一个线性分类器,还是解决不了非线性的问题

3.激活函数是用来加入非线性因素的,提高神经网络对模型的表达能力,解决线性模型所不能解决的问题。

2、常见激活函数

1.sigmiod

f(x)=1/(1+e^-x)

特点:sigmiod的输出范围为[0,1],适用于作为预测概率输出。梯度平滑,避免跳跃的输出值,函数可微,可以找到任意两个点的 sigmoid 曲线的斜率。

缺点:在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失,其中梯度爆炸发生的概率非常小,而梯度消失发生的概率比较大,其导函数的取值范围在[0,0.25]之间。函数输出不是以 0 为中心的,导致倒数均大于0,这会降低权重更新的效率。Sigmoid 函数执行指数运算,计算机运行得较慢。

2.tanh

f(x)=2/(1+e^-2x)-1

特点:tanh 是一个双曲正切函数。tanh 函数和 sigmoid 函数的曲线相对相似。但是它比 sigmoid 函数更有一些优势。tanh 的输出 区间为[-1,1] ,并且整个函数以 0 为中心,比 sigmoid 函数更好;在 tanh 图中,负输入将被强映射为负,而零输入被映射为接近零。

缺点:它解决了Sigmoid函数的不是zero-centered输出问题,然而,梯度消失(gradient vanishing)的问题和幂运算的问题仍然存在

注意:在一般的二元分类问题中,tanh 函数用于隐藏层,而 sigmoid 函数用于输出层,但这并不是固定的,需要根据特定问题进行调整。

3.relu (dead relu)

f(x)=max(0,x)

特点:

ReLU函数其实就是一个取最大值函数,注意这并不是全区间可导的,但是我们可以取sub-gradient。ReLU虽然简单,但却是近几年的重要成果,有以下几大优点:
1) 解决了gradient vanishing问题 (在正区间)
2)计算速度非常快,只需要判断输入是否大于0
3)收敛速度远快于sigmoid和tanh

缺点:

1)ReLU的输出不是zero-centered
2)Dead ReLU Problem,指的是某些神经元可能永远不会被激活,导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化,这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大,不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法,以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

4.leaky relu (prelu)

f(x)=max(αx,x)

人们为了解决Dead ReLU Problem,提出了将ReLU的前半段设为αx而非0,通常α=0.01。另外一种直观的想法是基于参数的方法,即ParametricReLU:f(x)=max(αx,x),其中α可由方向传播算法学出来。

5.elu

ELU也是为解决ReLU存在的问题而提出,显然,ELU有ReLU的基本所有优点,不会出现dead relu问题,输出均值接近0,zero-centered

6.softmax

f(x)=e^x_i/sum(x_j) 

特点:

Softmax 与正常的 max 函数不同:max 函数仅输出最大值,但 Softmax 确保较小的值具有较小的概率,并且不会直接丢弃。我们可以认为它是 argmax 函数的概率版本或「soft」版本。

Softmax 函数的分母结合了原始输出值的所有因子,这意味着 Softmax 函数获得的各种概率彼此相关。

 缺点:

在零点不可微。负输入的梯度为零,对于该区域的激活,权重不会在反向传播期间更新,会产生永不激活的死亡神经元。

7.Swish

f(x)=x * sigmoid (x)

特点:

Swish 的设计受到 LSTM 和 highway network 中使用 sigmoid 函数进行门控的启发。我们使用同样的值进行门控来简化门控机制,称为自门控(self-gating)。自门控的优势是它仅需要一个简单的标量输入,而正常的门控需要多个标量输入。该特性令使用自门控的激活函数如 Swish 能够轻松替换以单个标量作为输入的激活函数(如 ReLU),无需改变参数的隐藏容量或数量。

Swish 是一种新型激活函数,公式为: f(x) = x · sigmoid(x)。Swish 具备无上界有下界、平滑、非单调的特性,这些都在 Swish 和类似激活函数的性能中发挥有利影响。我们在实验中使用了专为 ReLU 设计的模型和超参数,然后用 Swish 替换掉 ReLU 激活函数;仅仅是如此简单、非最优的迭代步数仍使得 Swish 持续优于 ReLU 和其他激活函数。我们期待当模型和超参数都专为 Swish 设计的时候,Swish 还能取得进一步的提升。Swish 的简洁性及其与 ReLU 的相似性意味着在任何网络中替代 ReLU 都只是改变一行代码这么简单的事。

8.maxout

Maxout是深度学习网络中的一层网络,就像池化层、卷积层一样等,我们可以把maxout 看成是网络的激活函数层

maxout network的TensorFlow实现 - 简书

9.softplus

f(x)= ln(1+e^x) 

特点:softplus其导函数是sigmiod函数,Softplus 函数类似于 ReLU 函数,但是相对较平滑,像 ReLU 一样是单侧抑制。它的接受范围很广:(0, + inf)。

10.softsign函数

f(x)=x/(1+|x|) 

Softsign函数是Tanh函数的另一个替代选择。就像Tanh函数一样,Softsign函数是反对称、去中心、可微分,并返回-1和1之间的值。其更平坦的曲线与更慢的下降导数表明它可以更高效地学习,比tanh函数更好的解决梯度消失的问题。另一方面,Softsign函数的导数的计算比Tanh函数更麻烦。
 

11.gelu

f(x)=xP(X<=x)=xΦ(x)

Φ(x)是正太分布的概率函数,可以简单采用正太分布N(0,1), 也可以使用参数化的正太分布N(μ,σ), 然后通过训练得到μ,σ

论文中提供的正太分布的近似计算如下:

Φ(x)=0.5x(1+tanh[2/π​(x+0.044715x3)])

在神经网络的建模过程中,模型很重要的性质就是非线性,同时为了模型泛化能力,需要加入随机正则,例如dropout(随机置一些输出为0,其实也是一种变相的随机非线性激活), 而随机正则与非线性激活是分开的两个事情, 而其实模型的输入是由非线性激活与随机正则两者共同决定的。

GELUs正是在激活中引入了随机正则的思想,是一种对神经元输入的概率描述,直观上更符合自然的认识,同时实验效果要比Relus与ELUs都要好。

优点:

  • 似乎是 NLP 领域的当前最佳;尤其在 Transformer 模型中表现最好;
  • 能避免梯度消失问题。

缺点:

  • 尽管是 2016 年提出的,但在实际应用中还是一个相当新颖的激活函数。

3、激活函数tf实现

1.sigmiod

y=tf.sigmoid(x)

2.tanh

y=tf.tanh(x)

3.relu (dead relu)

y=tf.nn.relu(x)

4.leaky relu (prelu)

y=tf.nn.leaky_relu(x)

5.elu

y=tf.nn.elu(x)

6.softmax

y=tf.nn.softmax(x)

7.Swish

y=tf.nn.swish(x)

8.maxout

def maxout(x, k, m):

       d = x.get_shape().as_list()[-1]

       W = tf.Variable(tf.random_normal(shape=[d, m, k]))

       b = tf.Variable(tf.random_normal(shape = [m, k]))

       z = tf.tensordot(x, W, axes=1) + b

       z = tf.reduce_max(z, axis=2)

       return z

9.softplus

y=tf.nn.softplus(x)

10.softsign函数

y=tf.nn.softsign(x)

10.gelu

def gelu(input_tensor):
	cdf = 0.5 * (1.0 + tf.erf(input_tensor / tf.sqrt(2.0)))
	return input_tesnsor*cdf

参考文献

1、

深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点 | 机器之心

2、sigmoid,softmax,tanh简单实现_dongcjava的博客-CSDN博客

3、神经网络激活函数的作用是什么?_Microstrong0305的博客-CSDN博客_神经网络激活函数的作用

4、BERT中的激活函数GELU:高斯误差线性单元 - 知乎

5、常用激活函数(激励函数)理解与总结_tyhj_sf的博客-CSDN博客_激活函数

6、softsign与tanh的比较_Takoony的博客-CSDN博客_softsign

7、谷歌大脑提出新型激活函数Swish惹争议:可直接替换并优于ReLU?(附机器之心测试) - 知乎

8、机器学习中的数学——激活函数(十二):高斯误差线性单元(GELUs)_von Neumann的博客-CSDN博客

9、GELU 激活函数_alwayschasing的博客-CSDN博客_gelu激活函数

10、tensorflow中常用激活函数和损失函数 - Fate0729 - 博客园

11、maxout network的TensorFlow实现 - 简书文章来源地址https://www.toymoban.com/news/detail-485255.html

到了这里,关于激活函数简述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Spring】Bean的作用域与生命周期详情:请简述Spring的执行流程并分析Bean的生命周期?

     我们都知道,Spring框架为开发人员提供了很多便捷,这使得开发人员能够更加专注于应用程序的核心业务逻辑,而不需要花费大量时间和精力在技术细节上。作为一个包含众多工具方法的IoC容器,存取JavaBean是其极为重要的一个环节。本文就对Spring中的Bean的作用域和生命周

    2024年02月12日
    浏览(48)
  • anaconda/pkgs/free_main_pro以及anaconda/cloud/conda-forge_pytorch的作用简述

    这里使用 config --add channels 来添加URL以配置下载路径。 Anaconda 免费软件包 频道,包含 Anaconda 提供的 免费软件包 。 Anaconda 主要软件包频道,包含 Anaconda 提供的主要软件包 。 https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ ``` conda forge 频道,包含 由社区维护的 conda 软件包

    2024年04月15日
    浏览(40)
  • 函数返回值的简述(简洁明了)

    返回值: 1、函数返回值 定义:函数的返回值是指函数被调用之后,执行函数体中的代码所得到的结果,这个结果通过return语句返回。 没有返回值的函数为空类型,用void表示。一旦函数的返回值类型被定义为 void,就不能再接收它的值,即若函数没有返回值,表达式 int 变量

    2024年02月04日
    浏览(30)
  • unity检测简述一直被按着的函数汇总

    unity检测简述一直被按着的函数汇总 Input.GetKeyDown:检测某个按键是否在当前帧被按下。 Input.GetKeyUp:检测某个按键是否在当前帧被松开。 Input.GetAxis:获取输入轴的值,如键盘上的上下左右箭头或手柄的摇杆。 Input.GetButton:检测是否按下了某个按钮。 Input.GetButtonDown:检测某

    2023年04月17日
    浏览(27)
  • python re 模块 findall 函数用法简述

    import re s = \\\"adfad asdfasdf asdfas asdfawef asd adsfas \\\"   reObj1 = re.compile(\\\'((w+)s+w+)\\\') reObj1.findall(s) [(\\\'adfad asdfasdf\\\', \\\'adfad\\\'), (\\\'asdfas asdfawef\\\', \\\'asdfas\\\'), (\\\'asd adsfas\\\', \\\'asd\\\')]   reObj2 = re.compile(\\\'(w+)s+w+\\\') reObj2.findall(s) [\\\'adfad\\\', \\\'asdfas\\\', \\\'asd\\\']   reObj3 = re.compile(\\\'w+s+w+\\\') reObj3.findall(s) [\\\'adfad asdfasdf\\\', \\\'as

    2024年01月18日
    浏览(42)
  • 深度学习常用的激活函数

    深度学习的核心思想是通过多层次的神经网络结构,逐步抽取和表示数据中的高级特征,从而实现对复杂数据模式的学习和识别。 神经网络结构: 深度学习使用多层次的神经网络,包括输入层、隐藏层和输出层。这些网络结构允许模型自动学习数据中的特征层次。 反向传播

    2024年02月14日
    浏览(38)
  • 大语言模型激活函数绘图

    使用torch中的激活函数,绘制多个激活函数多一个图中对比展示 参考: torch常见激活函数 常用的激活函数合集

    2024年02月04日
    浏览(32)
  • 深度学习3:激活函数

    激活函数:是用来加入非线性因素的,解决线性模型所不能解决的问题。 线性函数的组合解决的问题太有限了,碰到非线性问题就束手无策了。如下图。 通过激活函数映射之后,可以输出非线性函数。 最后再通过最优化 损失函数的做法,我们能够学习到不断学习靠近能够正

    2024年02月11日
    浏览(33)
  • SiLu激活函数解释

    在yolo v5中,我们使用了SiLu激活函数 首先,了解一下激活函数的作用: 激活函数在神经网络中起到了非常重要的作用。以下是激活函数的一些主要功能: 引入非线性:激活函数的主要目标是在模型中引入非线性。这是因为,如果没有激活函数,无论神经网络有多少层,它都

    2024年02月07日
    浏览(39)
  • 机器学习激活函数

    激活函数是人工神经网络中的一个重要组成部分。它们用于向神经网络中添加非线性因素,使得网络能够解决复杂问题,如图像识别、语言处理等。激活函数的作用是决定一个神经元是否应该被激活,也就是说,它帮助决定神经元的输出是什么。 一些常见的激活函数包括:

    2024年02月01日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包