机器学习和深度学习--李宏毅(笔记与个人理解)Day9

这篇具有很好参考价值的文章主要介绍了机器学习和深度学习--李宏毅(笔记与个人理解)Day9。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Day9 Logistic Regression(内涵,熵和交叉熵的详解)

中间打了一天的gta5,图书馆闭馆正好+npy 不舒服那天+天气不好,哈哈哈哈哈总之各种理由吧,导致昨天没弄起来,今天补更!

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

这里重点注意一下, 这个 output值是概率哈,也就是说式子整体表示的含义是 x 属于c1的概率是多大

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

这个老师真的是讲到我的心坎子里区了,这个logistic Redression 和linear Regression 长得真的好像啊,我自己正有疑惑怎么区分,then……

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

不知道你们看到这里在想什么哈,反正我的第一个反应就是,woc这logisticRegression不是长得和之前的全连接神经网络的神经元一毛一样吗?甚至还是加上了激活函数,sigmoid的

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

这里就只有概率论的知识哈,这里为什么是1-f(x3 )? 我自己想的话是因为这个回归只回归 C1 的情况,或者说,对于不同的类要做一个处理后,再进行回归

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

比较巧妙的使用 01 关系来表示了不同的类的回归情况(注意这里不是做分类任务哈, 不要看见class1 啥的就说是分类任务, 敲黑板,看我们的title 是什么?!)

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

cross Entropy

这里又出现了,cross Entropy的概念,逃不掉了……那就捡起来补一补:

**熵和交叉熵 **:

从信息传递的角度来看:

信息论中熵的概念首次被香农提出,目的是寻找一种高效/无损地编码信息的方法:以编码后数据的平均长度来衡量高效性,平均长度越小越高效;同时还需满足“无损”的条件,即编码后不能有原始信息的丢失。这样,香农提出了熵的定义:无损编码事件信息的最小平均编码长度。

so, how we get this coding length ?( more deeper :何来的最小,又何来的平均呢?)

eg: 假设我考研的地方有四种可能,然后我要把这个秘密的消息传递给我的亲人

编码方式/事件 北京 60% 四川 20% 天津 15% 其他 5% 平均编码长度
方式1 0 1 10 11 1 * 0.6+1 * 0.2+ 2 * 0.15 +2* 0.05 = 1.2
方式2 0 1 111 110 ……
方式3 11 10 0 1 2 * 0.6+2 * 0.2+ 1 * 0.15 +1* 0.05 = 1.75

我们通过计算可以看到,方式1 的平均编码长度是最小的;(这里又想到学c的时候学到的 哈夫曼树,细节上还是有很大不同,由于它用到了树的结构,并不能完全灵活的得到最小编码举例: asdfgh 六个字母,编码出来的最长编码有1001 等,如果直接进行编码 则0 1 10 11 100 101 110,最长仅有3);那么最小编码长度就是,大于N(事件情况)的2的最小次方 ,然后按照出现概率递减依次递增编码;那么计算平均最小长度,(ps:我是真nb,这个小的推导过程我先自己想的,网上一验证发现还真的对了我去)也就是熵的公式为:机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

熵的直观解释:

那么熵的那些描述和解释(混乱程度,不确定性,惊奇程度,不可预测性,信息量等)代表了什么呢?

如果熵比较大(即平均编码长度较长),意味着这一信息有较多的可能状态,相应的每个状态的可能性比较低;因此每当来了一个新的信息,我们很难对其作出准确预测,即有着比较大的混乱程度/不确定性/不可预测性。

并且当一个罕见的信息到达时,比一个常见的信息有着更多的信息量,因为它排除了别的很多的可能性,告诉了我们一个确切的信息。在天气的例子中,Rainy发生的概率为12.5%,当接收到该信息时,我们减少了87.5%的不确定性(Fine,Cloudy,Snow);如果接收到Fine(50%)的消息,我们只减少了50%的不确定性。

交叉熵

卧槽我一下子就懂了,我tmd 简直就是个天才哈哈

这样想:熵的定义 是该分布下的最小长度;上面那个公式有两个部分我们现在确定不了,p(x)的分布和 需要编码的长度;其实我们做一个预测的时候是啥也不知道的,但是这样不就没法算了嘛,我们不妨假设P(x)是我们知道的,也就是真实的值,那么剩下的编码长度就是观测值咯log2(Q(x)),那么由于Entropy的定义, 是p(x)分布下的最小长度的编码,就不可能出现比这个编码更小的数,所以交叉熵越小,说明我们越接近p(x)分布下的最小长度的编码。(也就解释了,机器学习分类算法中,我们总是最小化交叉熵的之前的疑问)

定义这玩意儿的人也是个天才md

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

感觉这里老师讲错一个东西, 当这两个函数一模一样的时候 得到的不应该是0 吧

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

之前我就 是这么做的笑死,直接被当反面教材

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

这里有一点小疑问,为什么不是 学习率×这里的w的变化率 ?

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

NB chatgpt 上大分,这里就是✖ 那个求和符号管的是后面,这个应该就是见的比较少,所以才有疑问

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

image-20240410083205551机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

Discriminative VS Generative

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

< 0.5

Generative 做了一些假设,脑补了一些数据;这个例子朴素贝叶斯 认为 没有产生11 是因为 sampling的不够多

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

Multi-class classification

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

概率或者信息论的角度可以解释

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

这样编码为什么就没有 关于某几个类之间更近的问题了?

这是一个独热编码(one-hot encoding)的例子。例如,如果有三个类别,那么第一个类别表示为100,第二个类别表示为0,1,0,第三个类别表示为0,0,1。这种编码方式确保了每个类别之间的“距离”是相同的,因为它们在高维空间中是正交的。

Limitation of Logistic Regression

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

机器学习和深度学习--李宏毅(笔记与个人理解)Day9,机器学习与深度学习,机器学习,深度学习,笔记

引出 类神经网络 deepLearning文章来源地址https://www.toymoban.com/news/detail-854709.html

到了这里,关于机器学习和深度学习--李宏毅(笔记与个人理解)Day9的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习李宏毅学习笔记39

    大模型+大资料 大模型的顿悟时刻 随数据量增加,模型可以从量变达到质变,从某一刻开始突然学会东西。 当成为大模型时,分数会从0,0突然变成100,完成“顿悟”. 横轴表示分布中产生答案的概率(信心分数),纵轴表示答案正确的概率。可以发现小模型的信心分数跟答案

    2024年02月14日
    浏览(58)
  • 机器学习李宏毅学习笔记37

    ChatGPT简单原理介绍 Chatgpt以句子为输入,输出这个句子后面接的词汇的概率分布,给每一个可能的符号一个概率,根据这个分布进行sample,每次sample出来的词汇可能都是不一样的,所以答案每次也都不相同。把输出的词汇加在输入给gpt的句子后面,重复上面的过程,直到最后

    2024年02月16日
    浏览(23)
  • 机器学习李宏毅学习笔记33

    神经网络压缩(一) 类神经网络剪枝(pruning) 简化模型,用比较少的参数,但让效能差不多,这就是network compression这件事。有些情况下需要把模型用在resource constrain(资源有限)的情况下,比如说跑在智能手表上、小型无人机上等等。只有比较少的内存和计算能力,这时就

    2024年02月11日
    浏览(72)
  • 李宏毅深度学习self-attentin学习笔记

    self-attention初始也是用于解决 seq2seq 的问题。即input是一堆序列,而output也是一段长度固定或者不固定的序列值。和RNN比较类似。多说一句,从2022年开始李宏毅老师的机器学习课程中已经删除了有关RNN和LSTM的相关内容,因为self-attention完全可以替代RNN,且效果更好。 注意力的

    2024年02月09日
    浏览(21)
  • 李宏毅机器学习课程笔记(更新ing)

    basic Why deep not fat model? 当需要拟合的pattern复杂度很高时,deep model需要的参数量远低于fat model(指数组合与线性组合)。 另外当pattern复杂且有规律时(语音、图像、NLP),deep model通常表现好于fat model。 CNN 为什么AlphaGo可以用CNN?棋盘抽象成图片时需要注意什么? 首先图片有

    2024年02月10日
    浏览(28)
  • 机器学习笔记:李宏毅 stable diffusion

     ①:文字变成向量  ②:喂入噪声+文字encoder,产生中间产物  ③:decoder 还原图片  这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多  现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation 这两组表征的分布越近,效

    2024年02月13日
    浏览(40)
  • 李宏毅机器学习笔记:结构学习,HMM,CRF

    什么是Seq2Seq问题呢?简单来说,就是输入是一个序列,输出也是一个序列。输入和输出的序列可以相等,也可以不相等。在本文中,可以先假设输入输出序列相等。 这里用了一个通俗易懂的例子来解释HMM模型,POS tagging,词性标注。 PN表示专有名词Proper Noun V表示动词 D 定冠

    2024年02月11日
    浏览(27)
  • 机器学习笔记:李宏毅chatgpt 大模型 & 大资料

    Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022 模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了 这边举的一个例子是,比如让模型回答鸡兔同笼问题  一开始小模型什么都学不到,故而效果不好  随着模型参数量增

    2024年02月13日
    浏览(41)
  • 李宏毅机器学习笔记:RNN循环神经网络

    例如情景补充的情况,根据词汇预测该词汇所属的类别。这个时候的 Taipi 则属于目的地。但是,在订票系统中, Taipi 也可能会属于出发地。到底属于目的地,还是出发地,如果不结合上下文,则很难做出判断。因此,使用传统的深度神经网络解决不了问题,必须引入RNN。 如

    2024年02月10日
    浏览(38)
  • 机器学习笔记:李宏毅ChatGPT:生成式学习的两种策略

    “各个击破”——一个一个生成出来 一步到位,全部生成出来  两种策略 策略1:始终生成固定长度(比如100),如果出现end,那么end后面的部分直接扔掉 策略2:首先输出一个数字n,表示之后我们要输出多长,然后输出n长度的句子    一般文字相关的任务考虑“各个击破”

    2024年02月13日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包