机器学习&&深度学习——softmax回归(下)

这篇具有很好参考价值的文章主要介绍了机器学习&&深度学习——softmax回归(下)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er
🌌上期文章:机器学习&&深度学习——softmax回归(上)
📚订阅专栏:机器学习&&深度学习
希望文章对你们有所帮助


以下的内容有些需要用到信息论基础,没有这方面基础的,大家可以先看目录后面的信息论。

损失函数

对数似然

softmax给出了一个向量y hat,我们将其视为“对给定任意输入x的每个类的条件概率”,例如:
y ^ 1 = P ( y = 猫 ∣ x ) \hat{y}_1=P(y=猫|x) y^1=P(y=x)
表示对于给定任意输入x时,y=猫的概率
假设整个数据集{X,Y}具有n个样本,其中索引i的样本由特征向量和独热标签向量组成。我们可以将估计值与实际值进行比较:
P ( Y ∣ X ) = ∏ i = 1 n P ( y ( i ) ∣ x ( i ) ) P(Y|X)=\prod_{i=1}^nP(y^{(i)}|x^{(i)}) P(YX)=i=1nP(y(i)x(i))
根据最大似然估计,我们最大化P(Y|X),相当于最小化负对数似然
− l o g P ( Y ∣ X ) = ∑ i = 1 n − l o g P ( y ( i ) ∣ x ( i ) ) = ∑ i = 1 n l ( y ( i ) , y ^ ( i ) ) -logP(Y|X)=\sum_{i=1}^n-logP(y^{(i)}|x^{(i)})=\sum_{i=1}^nl(y^{(i)},\hat{y}^{(i)}) logP(YX)=i=1nlogP(y(i)x(i))=i=1nl(y(i),y^(i))
其中,对于任何标签y和预测模型y hat,损失函数为:
l ( y , y ^ ) = − ∑ j = 1 q y j l o g y ^ j l(y,\hat{y})=-\sum_{j=1}^qy_jlog\hat{y}_j l(y,y^)=j=1qyjlogy^j
这里的损失函数又叫做交叉熵损失。由于y是一个长度为q的独热编码向量,所以除了一个项以外的所有项j都消失了。由于所有的预测概率,其对数都永远不会大于0。因此,如果正确地预测实际标签,即如果实际标签P(y|x)=1,则损失函数不能进一步最小化。

softmax及其导数

将下面的式子:
y ^ = s o f t m a x ( o ) ,其中 y ^ j = e x p ( o j ) ∑ k e x p ( o k ) \hat{y}=softmax(o),其中\hat{y}_j=\frac{exp(o_j)}{\sum_kexp(o_k)} y^=softmax(o),其中y^j=kexp(ok)exp(oj)
带入
l ( y , y ^ ) = − ∑ j = 1 q y j l o g y ^ j l(y,\hat{y})=-\sum_{j=1}^qy_jlog\hat{y}_j l(y,y^)=j=1qyjlogy^j
可以得到:
l ( y , y ^ ) = − ∑ j = 1 q y j l o g e x p ( o j ) ∑ k = 1 q e x p ( o k ) = ∑ j = 1 q y j l o g ∑ k = 1 q e x p ( o k ) − ∑ j = 1 q y j o j = l o g ∑ k = 1 q e x p ( o k ) − ∑ j = 1 q y j o j l(y,\hat{y})=-\sum_{j=1}^qy_jlog\frac{exp(o_j)}{\sum_{k=1}^qexp(o_k)}\\ =\sum_{j=1}^qy_jlog\sum_{k=1}^qexp(o_k)-\sum_{j=1}^qy_jo_j\\ =log\sum_{k=1}^qexp(o_k)-\sum_{j=1}^qy_jo_j l(y,y^)=j=1qyjlogk=1qexp(ok)exp(oj)=j=1qyjlogk=1qexp(ok)j=1qyjoj=logk=1qexp(ok)j=1qyjoj
考虑相对于任何未规范化预测的导数,我们得到:
∂ o j l ( y , y ^ ) = e x p ( o j ) ∑ k = 1 q e x p ( o k ) − y j = s o f t m a x ( o ) j − y j \partial_{o_j}l(y,\hat{y})=\frac{exp(o_j)}{\sum_{k=1}^{q}exp(o_k)}-y_j=softmax(o)_j-y_j ojl(y,y^)=k=1qexp(ok)exp(oj)yj=softmax(o)jyj
也就是说,导数是我们softmax模型分配的概率与实际发生的情况(独热标签向量表示)之间的差异。这与我们在回归中看到的很相似,其中梯度是观测值与估计值之间的差异。这不是巧合。

交叉熵损失

现在的标签,考虑的是整个结果分布的情况,观察到的不仅仅是一个结果。我们现在用一个概率向量来表示,如(0.1,0.2,0.7),而不是仅包含二元项的向量(0,0,1)。
我们用上式的
l ( y , y ^ ) = − ∑ j = 1 q y j l o g y ^ j l(y,\hat{y})=-\sum_{j=1}^qy_jlog\hat{y}_j l(y,y^)=j=1qyjlogy^j
来定义损失l,它是所有标签分布的与其损失值。这个损失叫做交叉熵损失,是分类问题常用损失之一,下面将通过介绍信息论基础来理解交叉熵损失。

信息论基础

信息论涉及了编码、解码、发送、简洁处理信息

信息论的核心思想就是量化数据中的信息内容。在信息论中,该数值被称为分布P的熵。可以通过下面方程得到:
H [ P ] = ∑ j − P ( j ) l o g P ( j ) H[P]=\sum_j-P(j)logP(j) H[P]=jP(j)logP(j)
信息论指出:为了对从分布p中随机抽取的数据进行编码,我们至少需要H[P]纳特(相当于比特,但是对数底是e而不是2)对其进行编码

信息量

如果我们很容易预测下一个数据,那么这个数据就很容易压缩。可以通过极端例子来理解:假如数据流中的每个数据完全相同,我们就总是知道下一个数据是什么,很容易预测。数据都一样也很好压缩。
如果我们不能完全预测每个事件,我们会觉得“惊异”。用下式:
l o g 1 P ( j ) = − l o g P ( j ) log\frac{1}{P(j)}=-logP(j) logP(j)1=logP(j)
来量化这种惊异程度。
在观察一个事件j时,赋予它主观概率P(j)。则上式的H[P]定义的熵,是当分配的概率真正匹配数据生成过程时的信息量的期望。

重新审视交叉熵

若把H[P]视为“知道真实概率的人所经历的惊异程度”,那么交叉熵H[P,Q]可以视为“主观概率为Q的观察者在看到根据概率P生成的数据时预期差异”。当P=Q时,交叉熵最低,此时H[P,Q]=H[P,P]=H[P]。
总之,我们可以从2方面考虑交叉熵分类目标:
(1)最大化观测数据的似然
(2)最小化传达标签所需的惊异

模型预测和评估

在训练softmax回归模型后,给出任何样本特征,我们可以预测每个输出类别的概率。通常我们使用预测概率最高的类别作为输出类别。如果预测和实际的标签一致,则预测正确。下面将开始使用精度来评估模型的性能。概率=正确预测数/预测总数。文章来源地址https://www.toymoban.com/news/detail-603702.html

到了这里,关于机器学习&&深度学习——softmax回归(下)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一探究竟:人工智能、机器学习、深度学习

    1.1 人工智能是什么?          1956年在美国Dartmounth 大学举办的一场研讨会中提出了人工智能这一概念。人工智能(Artificial Intelligence),简称AI,是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的

    2024年02月17日
    浏览(39)
  • 机器学习、人工智能、深度学习三者的区别

    目录 1、三者的关系 2、能做些什么 3、阶段性目标 机器学习、人工智能(AI)和深度学习之间有密切的关系,它们可以被看作是一种从不同层面理解和实现智能的方法。 人工智能(AI):人工智能是一门研究如何使计算机能够模仿人类智能的学科。它涵盖了各种技术和方法,

    2024年02月14日
    浏览(45)
  • 12、人工智能、机器学习、深度学习的关系

    很多年前听一个机器学习的公开课,在QA环节,一个同学问了老师一个问题“ 机器学习和深度学习是什么关系 ”? 老师先没回答,而是反问了在场的同学,结果问了2-3个,没有人可以回答的很到位,我当时也是初学一脸懵,会场准备的小礼品也没有拿到。 后来老师解释“机

    2024年02月05日
    浏览(55)
  • 【深度学习笔记】Softmax 回归

    本专栏是网易云课堂人工智能课程《神经网络与深度学习》的学习笔记,视频由网易云课堂与 deeplearning.ai 联合出品,主讲人是吴恩达 Andrew Ng 教授。感兴趣的网友可以观看网易云课堂的视频进行深入学习,视频的链接如下: 神经网络和深度学习 - 网易云课堂 也欢迎对神经网

    2024年02月15日
    浏览(27)
  • 机器学习、深度学习、人工智能的区别与联系

    大家好,如果没有接触过机器学习,往往对机器学习、深度学习、甚至是人工智能有着模糊的概念。在进行深度的对比人工智能、机器学习和深度学习之后,有助于大家理清概念、选择适当技术,并建立起整个学科的框架,进而可以开展相关目标的学习。 本文将从下面几方面

    2024年01月22日
    浏览(54)
  • 深度学习2.神经网络、机器学习、人工智能

    目录 深度学习、神经网络、机器学习、人工智能的关系 大白话解释深度学习 传统机器学习 VS 深度学习 深度学习的优缺点 4种典型的深度学习算法 卷积神经网络 – CNN 循环神经网络 – RNN 生成对抗网络 – GANs 深度强化学习 – RL 总结 深度学习 深度学习、机器学习、人工智能

    2024年02月11日
    浏览(42)
  • 人工智能-机器学习-深度学习-分类与算法梳理

    目前人工智能的概念层出不穷,容易搞混,理清脉络,有益新知识入脑。 为便于梳理,本文只有提纲,且笔者准备仓促,敬请勘误,不甚感激。 符号主义(Symbolists) 基于逻辑推理的智能模拟方法。最喜欢的算法是:规则和决策树。符号主义的代表性成果有启发式程序、专家系

    2024年02月03日
    浏览(72)
  • 人工智能、机器学习与深度学习之间的关系

    图1. AI、ML与DL关系图 在我们深入研究机器学习和深度学习之前,让我们快速浏览一下它们所属的分支:人工智能(AI)。简而言之,人工智能是一个将计算机科学与大量数据相结合以帮助解决问题的领域。人工智能有许多不同的用例。图像识别,图像分类,自然语言处理,语音

    2024年01月18日
    浏览(45)
  • 大数据、人工智能、机器学习、深度学习关系联系前言

    1.大数据和人工智能关系 2.机器学习、深度学习、人工智能关系 3.监督学习、无监督学习、半监督学习、强化学习、迁移学习关系 4.机器学习具体内容 1.数据驱动的人工智能 :人工智能系统需要大量的数据来进行训练和学习。大数据提供了海量的信息,可以用于训练机器学习

    2024年02月12日
    浏览(44)
  • 人工智能、机器学习、深度学习之间的关系是什么?

    人工智能(Artificial Intelligence,AI)是指通过计算机技术来实现人类的智能行为和智能思维的一种技术手段。它的传统研究方向是从人类的智能角度出发,通过模拟和实现人类的智能能力,比如语言理解、图像识别、推理、决策等。而机器学习则是人工智能的一个重要分支,是

    2024年02月03日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包