深度学习基本概念简介

这篇具有很好参考价值的文章主要介绍了深度学习基本概念简介。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Linear Models' Bias

上篇学习机器学习一文中,所构造的 $y = b + wx_0$ 函数是一个linear model亦即线性模型,但是linear models有缺陷的——它过于简单了。实际应用中,我们所面临的不会只是一个简单的linear model,因此我们需要更复杂的models。

深度学习基本概念简介
比如上图中的红色曲线,如何找到它的表达式呢?

深度学习基本概念简介

可以通过许多条蓝色的函数相加得到红色曲线的函数。所有的Piecewise Linear Curves都可以用一组类似的“蓝色函数 + 常数”来表达出来,即使是曲线也可以,如下图:

深度学习基本概念简介

 


二、如何找“蓝色函数”?

Sigmoid Function
$y = c\frac{1}{1 + e ^ {-(b + wx_1)}} = c*sigmoid(b + wx_1)$
其函数图像如下表示:

深度学习基本概念简介

我们可以对sigmoid函数中的参数做调整,得到不同形状的sigmoid函数,来逼近蓝色函数。
改变w可以改变sigmoid函数的斜率;改变b可以左右移动其位置;改变c可以改变其高度,如下图:
深度学习基本概念简介

所以不同的常数c,截距b和斜率w就会得到不同的sigmoid函数,然后将它们加起来就能够逼近目标函数,即

\[y = b + \sum_{i}c_isigmoid(b_i + w_ix_1) \]

深度学习基本概念简介

\[y = b + w_1 \longrightarrow y = b + \sum_{i}c_isigmoid(b_i + w_ix_1) \]

 


三、深度学习里的三个步骤

仿照前面ML里的三个步骤,我们也可以将其完全套在DL中

1. Function with unkonwn parameters
不同于ML里我们定义的简单的linear model,通过上面的分析我们可以得到一个全新的model——拥有更多features的model!
将前面的linear表达式代入sigmoid函数:

\[y = b + \sum_{j}w_jx_j \longrightarrow y = b + \sum_{i}c_isigmoid(b_i + \sum_{j}w_{ij}x_i) \]

其中:
\(j\)代表第\(j\)个feature(即第\(j\)天的点击量);\(i\)代表选择第\(i\)个sigmoid函数;\(w_{ij}\)表示在第\(i\)个sigmoid函数中\(x_j\)的权值
如图,分别代入计算就能得到:
深度学习基本概念简介

\[r_1 = b_1 + w_{11}x_1 + w_{12}x_2 + w_{13}x_3 \]
\[r_2 = b_2 + w_{21}x_1 + w_{22}x_2 + w_{23}x_3 \]
\[r_3 = b_3 + w_{31}x_1 + w_{32}x_2 + w_{33}x_3 \]

由线性代数的知识可以发现,上面的三个式子可以写作矩阵的乘法:

\[r = b + W x \]
\[\begin{bmatrix}r_1 \\ r_2 \\ r_3 \end{bmatrix} = \begin{bmatrix}b_1 \\ b_2 \\ b_3 \end{bmatrix} + \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \end{bmatrix} \begin{bmatrix}x_1 \\ x_2 \\ x_3 \end{bmatrix} \]

然后将\(r\)代入sigmoid函数,记作\(a = \sigma(r)\),乘上系数\(c\),再加上\(b\)就得到最后的\(y\),即\(y = b + c^Ta\)
深度学习基本概念简介

最终得到:$$y = b + c^T \sigma({\bf b} + Wx)$$(\(b\)\(\bf b\)区别开)

将W矩阵中的行或者列取出来,与\(b\)\(\bf b\)\(c^T\)竖着排列起来组成:

\[\theta = \begin{bmatrix} \theta_1 \\ \theta_2 \\ \theta_3 \\. \\. \\. \end{bmatrix} \]

就进入了第2步找Loss函数

2. Define Loss from Training Data
Loss函数与ML一节中讲的一样,定义函数\(L(\theta)\)
先给定一组参数代入\(y = b + c^T \sigma({\bf b} + Wx)\)计算出\(y\)的值,然后将其与真实值(label) \(\widehat{y}\)比较,得到误差\(e\),最后便可得Loss函数的表达式:

\[L = \frac{1}{N}\sum_{n}e_n \]

进而到第3步找一个最优解的步骤

3. Optimization
\(\theta^\star = arg min_{\theta}L\)

  • (Randomly)Pick initial value \(\theta^0\)
    gradient \(g = \begin{bmatrix} \dfrac{\partial L}{\partial \theta_1}|_{\theta = \theta^0} \\ \dfrac{\partial L}{\partial \theta_2}|_{\theta = \theta^0} \\ . \\ . \\ . \end{bmatrix}\)
    可以记作:\(g =\nabla L(\theta^0)\)(就是梯度符号)

  • Compute gradient again and again
    \(g =\nabla L(\theta^0)\) \(\theta^1 \leftarrow \theta^0 - \eta g\)
    \(g =\nabla L(\theta^1)\) \(\theta^2 \leftarrow \theta^1 - \eta g\)
    \(g =\nabla L(\theta^2)\) \(\theta^3 \leftarrow \theta^2 - \eta g\)

还有另一种计算方式,将整个L中的数据分成N个batch(批),每批数据中有B个数据,与上面的方法略有差异,每次update时,是依次从每个batch里取出数据来update,当把所有的batch更新过一遍,叫1个epoch(时期)
深度学习基本概念简介

 


四、从sigmoid到ReLU

ReLU(Rectified Linear Unit)是另一种 Activation Function(激活函数),前面提到的分段Sigmoid(Hard-Sigmoid)函数的表达式可能会很难写出来,但是其可以看作是2个ReLU函数相加,ReLU函数的表达式如下: $$c*max(0, b + wx_1)$$

深度学习基本概念简介

如此,我们前面y的表达式就可以变成:

\[y = b + \sum_{i}c_isigmoid(b_i + \sum_{j}w_{ij}x_i) \]
\[\longrightarrow \]
\[y = b + \sum_{2i}c_{i}max(0, b_i + \sum_{j}w_{ij}x_j) \]

注意换成ReLU函数后,\(i\)变为原来的2倍,因为2个ReLU函数才能合成一个Sigmoid函数

 


五、到底为什么叫Deep Learning ?

上面的例子里我们只套了一层激活函数就得到了y的表达式,但是人们发现套的层数多一些预测的效果就会更好一些,所以不妨多套几层:

深度学习基本概念简介

其中我们用到的sigmoid或ReLU函数叫neuron(神经元),许多neuron套起来就叫neural network(神经网络)。后来人们又给它们取了新的名字,每一排的neuron叫作hidden layer(隐含层),有许多层layer所以叫作Deep Learning

深度学习基本概念简介

但是层数越多不见得预测效果会越好,在课堂实例中,虽然随着层数的增加,在训练数据上的效果越来越好,但是在预测数据上误差出现了增大,这便是overfitting(过拟合)
文章来源地址https://www.toymoban.com/news/detail-853500.html

到了这里,关于深度学习基本概念简介的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 网络协议从入门到底层原理学习(一)—— 简介及基本概念

    一、简介 1、网络协议的定义 什么是网络协议? 网络协议是由定义网络上两个或多个设备之间通信的规则、过程和格式组成的正式标准和策略 它们确保计算机网络设备可以使用一种通用语言传输和接收数据,而不管它们的设计、硬件或基础设施如何。 网络协议管理及时、安全

    2024年02月09日
    浏览(52)
  • AI入门之深度学习:基本概念篇

    1、什么是深度学习 1.1 机器学习 图1:计算机有效工作的常用方法:程序员编写规则(程序),计算机遵循这些规则将输入数据转换为适当的答案。这一方法被称为符号主义人工智能,适合用来解决定义明确的逻辑问题,比如早期的PC小游戏:五子棋等,但是像图像分类、语

    2024年03月18日
    浏览(58)
  • 人工智能课程笔记(7)强化学习(基本概念 Q学习 深度强化学习 附有大量例题)

    强化学习和深度学习都是机器学习的分支,但是两者在方法和应用场景上有所不同。 强化学习 : 强化学习概述 :强化学习是一种通过智能体与环境进行交互来学习最优行动策略的算法。在强化学习中,智能体与环境不断交互,观察环境的状态并采取不同的行动,从而获得奖

    2024年01月17日
    浏览(52)
  • 【Linear Probing | 线性探测】深度学习 线性层

    【Linear Probing | 线性探测】深度学习 线性层 自监督模型评测方法 是测试预训练模型性能的一种方法,又称为linear probing evaluation 训练后,要评价模型的好坏,通过将最后的一层替换成线性层。 预训练模型的表征层的特征固定,参数固化后未发生改变,只通过监督数据去训练

    2024年02月15日
    浏览(41)
  • 深度学习笔记:finetune和linear probing的区别

    finetune和linear probing一般和预训练搭配出现,是预训练模型适配下游任务时可选的训练方式 finetune是使用预训练模型适配下游任务时,对整个预训练模型全部进行参数更新 微调也可以选择不进行全部更新,只对后面一部分模型进行更新,因为模型前几层一般提取的都是比较公

    2024年02月06日
    浏览(35)
  • GLM(Generalized Linear Models)模型详解

    指数家族是指一类概率分布,其具有指数模式。需要注意,这是一类概率分布,不是特指某个概率分布,因此指数分布只有固定的格式,根据参数不同,会生成不同的分布。 指数家族分布定义 若一个随机变量y的分布被称为指数家族分布,那么其需要满足: 由以上可看出,

    2024年02月07日
    浏览(53)
  • 【深度学习】(四)目标检测——上篇

    上一章介绍了图像分类,这一章来学习一下目标检测上篇。简单来说,需要得到图像中感兴趣目标的类别信息和位置信息,相比于分类问题,难度有所提升,对图像的描述更加具体。在计算机视觉众多的技术领域中,目标检测(Object Detection)也是一项非常基础的任务,图像分

    2024年02月02日
    浏览(44)
  • 卷积神经网络——上篇【深度学习】【PyTorch】

    5.1.1、理论部分 全连接层后,卷积层出现的意义? 一个足够充分的照片数据集,输入,全连接层参数,GPU成本,训练时间是巨大的。 (convolutional neural networks,CNN)是机器学习利用自然图像中一些已知结构的创造性方法,需要更少的参数,在处理图像和其他类型的结构化数据

    2024年02月12日
    浏览(35)
  • Docker(一)简介和基本概念

    作者主页: 正函数的个人主页 文章收录专栏: Docker 欢迎大家点赞 👍 收藏 ⭐ 加关注哦! 本章将带领你进入 Docker 的世界。 什么是 Docker ? 用它会带来什么样的好处? 好吧,让我们带着问题开始这神奇之旅。 Docker 最初是 dotCloud 公司创始人 Solomon Hykes 在法国期间发起的一

    2024年01月19日
    浏览(41)
  • Flink的简介以及基本概念

    有界流和无界流 有状态的流处理 2.1集群角色 2.2 部署模式 会话模式(Session Mode) 单作业模式(Per-Job Mode) 应用模式(Application Mode) 3.1  系统架构 1 )作业管理器(JobManager) JobManager是一个Flink集群中任务管理和调度的核心,是控制应用执行的主进程。也就是说,每个应用

    2024年04月09日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包