【深度学习_TensorFlow】误差函数

这篇具有很好参考价值的文章主要介绍了【深度学习_TensorFlow】误差函数。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

写在前面

搭建完网络层后,在每层网络中都要进行前向计算,下一步就是选择合适的误差函数来计算误差。其中均方差函数和交叉熵函数在深度学习中比较常见,均方差函数主要用于回归问题,交叉熵函数主要用于分类问题。


写在中间

均方差函数

( 1 )简单介绍

均方差函数(简称 MSE)把输出向量和真实向量映射到笛卡尔坐标系的两个点上,通过计算这两个点之间的欧式距离(准确地说是欧式距离的平方)来衡量两个向量之间的差距:

M S E ( y , o ) ≜ 1 d o u t ∑ i = 1 d o u t ( y i − o i ) 2 \mathrm{MSE}(\boldsymbol{y},\boldsymbol{o})\triangleq\frac{1}{d_{\mathrm{out}}}\sum_{i=1}^{d_{\mathrm{out}}}(y_i-o_i)^2 MSE(y,o)dout1i=1dout(yioi)2

MSE 误差函数的值总是大于等于 0,值越小,越接近真实值。

当 MSE 函数达到最小值 0 时,输出值等于真实标签,此时神经网络的参数达到最优状态。

( 2 )函数实现

# 均方差函数的实现有多种
import tensorflow as tf

# 方法一:
tf.reduce_mean(tf.square(y_true - y_pred))

# 方法二:
tf.keras.losses.MSE(y_true, y_pred)


交叉熵函数

介绍交叉熵函数之前,我们先了解 KL散度 这两个概念


熵用来衡量信息的不确定度,熵越大,代表不确定性越大。

公式如下:

H ( P ) ≜ − ∑ i P ( i ) log ⁡ 2 P ( i ) H(P)\triangleq-\sum_iP(i)\log_2P(i) H(P)iP(i)log2P(i)

熵的计算


熵怎样计算?对于分类问题:

  • 如果某个样本的标签的 One-hot 编码为[0, 0, 0, 1],即这张图片的分类是唯一确定的,不确定性为 0。它属于第 4 类的概率𝑃(𝑦为 4|𝒙) = 1,此标签的熵可以简单的计算为:

− 0 ⋅ log ⁡ 2 0 − 0 ⋅ log ⁡ 2 0 − 0 ⋅ log ⁡ 2 0 − 1 ⋅ log ⁡ 2 1 = 0 -0\cdot\log_20-0\cdot\log_20-0\cdot\log_20-1\cdot\log_21=0 0log200log200log201log21=0

  • 如果某个样本的标签的 One-hot 编码为[0.1, 0.1, 0.1, 0.7],即这张图片的分类属于第四类的概率较大,此标签的熵就可以计算为:

− 0.1 ⋅ log ⁡ 2 0.1 − 0.1 ⋅ log ⁡ 2 0.1 − 0.1 ⋅ log ⁡ 2 0.1 − 0.7 ⋅ log ⁡ 2 0.7 ≈ 1.356 -0.1\cdot\log_20.1-0.1\cdot\log_20.1-0.1\cdot\log_20.1-0.7\cdot\log_20.7\approx1.356 0.1log20.10.1log20.10.1log20.10.7log20.71.356

很明显,第二个结果的熵比第一个熵大,不确定度也大得多,因此最小化熵的过程也是最大化正确类别的预测概率的过程。从这个角度去理解交叉熵损失函数,非常地直观易懂。

KL散度


如果我们对于同一个随机变量 i 有两个单独的概率分布 p(i) 和 q(i),我们可以使用 KL 散度来衡量这两个分布的差异:

在深度学习中,我们通常把真实的标签分布(通常是 one-hot 编码)视为 p,把模型预测的概率分布视为 q。

KL散度的计算公式为

D K L ( p ∣ ∣ q ) = ∑ i p ( i ) l o g ( p ( i ) q ( i ) ) D_{KL}(p||q)=\sum_{i}p(i)\mathrm{log}\left(\frac{p(i)}{q(i)}\right) DKL(p∣∣q)=ip(i)log(q(i)p(i))

我们仍然使用上面的例子,标签的one-hot编码为[0, 0, 0, 1],预测值为[0.1, 0.1, 0.1, 0.7],KL散度计算结果为:

KL = 0 * log(0/0.1) + 0 * log(0/0.1) + 0 * log(0/0.1) + 1 * log(1/0.7)
= -log(0.7)
≈ 0.357

交叉熵


终于要介绍交叉熵了,你一定会猜到讲上面的知识会和交叉熵有关,对你猜的没错!

交叉熵损失函数的计算公式为:

H ( p ∣ ∣ q ) = H ( p ) + D K L ( p ∣ ∣ q ) H(p||q)=H(p)+D_{KL}(p||q) H(p∣∣q)=H(p)+DKL(p∣∣q)

其实就是熵和KL散度的加和,稍加变形就得到:

H ( p ∣ ∣ q ) ≜ − ∑ i p ( i ) log ⁡ 2 q ( i ) H(p||q)\triangleq-\sum_ip(i)\log_2q(i) H(p∣∣q)ip(i)log2q(i)

交叉熵函数的实现


import tensorflow as tf

# 假设 y_true 是真实的标签,y_pred 是模型的预测值
y_true = [[0, 0, 0, 1], [0, 1, 0, 0]]
y_pred = [[0.1, 0.1, 0.1, 0.7], [0.1, 0.6, 0.1, 0.2]]

loss = tf.keras.losses.categorical_crossentropy(y_true, y_pred)

写在最后

👍🏻点赞,你的认可是我创作的动力!
⭐收藏,你的青睐是我努力的方向!
✏️评论,你的意见是我进步的财富!文章来源地址https://www.toymoban.com/news/detail-633939.html

到了这里,关于【深度学习_TensorFlow】误差函数的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习所有损失函数】在 NumPy、TensorFlow 和 PyTorch 中实现(2/2)

    在本文中,讨论了深度学习中使用的所有常见损失函数,并在NumPy,PyTorch和TensorFlow中实现了它们。         稀疏分类交叉熵损失类似于分类交叉熵损失,但在真实标签作为整数而不是独热编码提供时使用。它通常用作多类分类问题中的损失函数。 稀疏分类交叉熵损失的公

    2024年02月13日
    浏览(37)
  • 【深度学习所有损失函数】在 NumPy、TensorFlow 和 PyTorch 中实现(1/2)

    在本文中,讨论了深度学习中使用的所有常见损失函数,并在NumPy,PyTorch和TensorFlow中实现了它们。 我们本文所谈的代价函数如下所列:

    2024年02月13日
    浏览(46)
  • 17- TensorFlow中使用Keras创建模型 (TensorFlow系列) (深度学习)

    知识要点 Keras 是一个用 Python 编写的高级神经网络 API 数据的开方:  np.sqrt(784)       # 28 代码运行调整到 CPU 或者 GPU: 模型显示: model.summary () 创建模型: 模型创建: model = Sequential () 添加卷积层: model.add (Dense(32, activation=\\\'relu\\\', input_dim=100))  # 第一层需要 input_dim 添加dropout: mod

    2024年02月01日
    浏览(88)
  • Tensorflow入门(1)——深度学习框架Tesnsflow入门 & 环境配置 & 认识Tensorflow

    1.anaconda以及Tensorflow的安装: https://blog.csdn.net/qq_33505204/article/details/81584257 2.Anaconda详细安装及使用教程: https://blog.csdn.net/ITLearnHall/article/details/81708148 3.windows平台下,TensorFlow的安装、卸载以及遇到的各种错误: https://blog.csdn.net/qq_27245699/article/details/81050035 CONDA环境安装: co

    2024年02月12日
    浏览(47)
  • 【深度学习笔记】TensorFlow 基础

    在 TensorFlow 2.0 及之后的版本中,默认采用 Eager Execution 的方式,不再使用 1.0 版本的 Session 创建会话。Eager Execution 使用更自然地方式组织代码,无需构建计算图,可以立即进行数学计算,简化了代码调试的过程。本文主要介绍 TensorFlow 的基本用法,通过构建一个简单损失函数

    2024年02月13日
    浏览(39)
  • 深度学习TensorFlow

      博主简介 博主是一名大二学生,主攻人工智能研究。感谢让我们在CSDN相遇,博主致力于在这里分享关于人工智能,c++,Python,爬虫等方面知识的分享。 如果有需要的小伙伴可以关注博主,博主会继续更新的,如果有错误之处,大家可以指正。 专栏简介:   本专栏主要研

    2023年04月08日
    浏览(40)
  • 【深度学习_TensorFlow】梯度下降

    一直不太理解梯度下降算法是什么意思,今天我们就解开它神秘的面纱 如果要求出一条直线,我们只需知道直线上的两个不重合的点,就可以通过解方程组来求出直线 但是,如果我们选取的这两个点不在直线上,而是存在误差(暂且称作观测误差),这样求出的直线就会和

    2024年02月14日
    浏览(37)
  • 【深度学习_TensorFlow】过拟合

    过拟合与欠拟合 欠拟合: 是指在模型学习能力较弱,而数据复杂度较高的情况下,模型无法学习到数据集中的“一般规律”,因而导致泛化能力弱。此时,算法在训练集上表现一般,但在测试集上表现较差,泛化性能不佳。 过拟合: 是指模型在训练数据上表现很好,但在测

    2024年02月10日
    浏览(44)
  • 【深度学习_TensorFlow】索引与切片

    这是一篇关于 TensorFlow基础索引与切片的操作,包括逗号索引,冒号索引,gather()函数, boolean_mask( )函数,作为初学者,文章难免有错误之处,还请不吝指正! ( 1 )基础索引:变量[ ][ ] 简单介绍 可以理解成多维数组的下标索引,索引方法是 变量名[ 下标 ][ 下标 ] 创建下面一

    2024年02月10日
    浏览(39)
  • 深度学习篇之tensorflow(2) ---图像识别

    研究图像识别离不开两样东西:第一,大量的样本数据;第二,好的算法。从某种意义上来说,数据比算法更重要,算法只是决定了图像识别的准确率,但如果没有样本数据,图像识别就无从谈起了。 图像识别的关键:特征 和特征之间的相对位置。 首先是特征,我们记住一

    2024年02月08日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包