2 机器学习知识 Softmax回归 deep learning system

这篇具有很好参考价值的文章主要介绍了2 机器学习知识 Softmax回归 deep learning system。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

机器学习算法的三个主要部分

  1. The hypothesis class: 模型结构
  2. loss fuction 损失函数
  3. An optimization method:在训练集上减小loss的方法

多分类问题

  • 训练数据: x ( i ) ∈ R n , y ( i ) ∈ 1 , . . . , k f o r i = 1 , . . . m x^{(i)}\in \mathbb{R}^n ,y^{(i)}\in {1,...,k} for i=1,...m x(i)Rn,y(i)1,...,kfori=1,...m
  • n 是输入数据的维度,输入的每一例数据是一个n维向量
  • k 是要分成的类的数量
  • m 是训练集的大小,总共有m例数据

线性假设函数

假设函数 h : R n → R k h:\mathbb{R}^n \rightarrow\mathbb{R}^k h:RnRk
其中 h i ( x ) h_i(x) hi(x) 用来衡量划分到类 i 的可能性

一个线性的假设函数
h θ ( x ) = θ T x h_{\theta}(x)=\theta^Tx hθ(x)=θTx
参数 θ ∈ R n × k \theta\in\mathbb{R}^{n\times k} θRn×k

矩阵形式

X ∈ R m × n = [ x ( 1 ) T . . . x ( m ) T ] , y ∈ 1 , . . . , k m = [ y ( 1 ) . . . y ( m ) ] X\in \mathbb{R}^{m\times n} = \begin{bmatrix} x^{(1)T} \\ ... \\ x^{(m)T} \end{bmatrix}, y\in{1,...,k}^m=\begin{bmatrix}y^{(1)} \\ ... \\ y^{(m)}\end{bmatrix} XRm×n= x(1)T...x(m)T ,y1,...,km= y(1)...y(m)
线性假设函数可以写成下面的形式

h θ ( X ) = [ h θ ( x ( 1 ) ) T . . . h θ ( x ( m ) ) T ] = [ x ( 1 ) T θ . . . x ( 1 ) T θ ] = X θ h_\theta(X) = \begin{bmatrix}h_{\theta}(x^{(1)})^T \\... \\h_{\theta}(x^{(m)})^T \end{bmatrix}= \begin{bmatrix}x^{(1)T}\theta \\...\\x^{(1)T} \theta\end{bmatrix} = X\theta hθ(X)= hθ(x(1))T...hθ(x(m))T = x(1)Tθ...x(1)Tθ =

损失函数1 classification error

这个损失函数,不可微,对于optimization是非常不好用的

ℓ e r r ( h ( x ) , y ) = { 0 , i f a r g m a x i h i ( x ) = y 1 , o t h e r w i s \ell_{err}(h(x),y) = \left\{\begin{matrix} 0\quad ,if\quad argmax_i\quad h_i(x)=y \\ 1\quad ,otherwis \end{matrix}\right. err(h(x),y)={0,ifargmaxihi(x)=y1,otherwis

损失函数2 softmax / cross-entropy loss

z i = p ( l a b e l = i ) = e x p ( h i ( x ) ) ∑ j = 1 k e x p ( h j ( x ) ) ⟺ z = n o r m a l s i z e ( e x p ( h ( x ) ) ) z_i = p(label=i)=\frac{exp(h_i(x))}{\sum_{j=1}^kexp(h_j(x))} \Longleftrightarrow z = normalsize(exp(h(x))) zi=p(label=i)=j=1kexp(hj(x))exp(hi(x))z=normalsize(exp(h(x)))

zi 表示分类为i的概率,将假设函数的输出转为概率。

softmax 或者交叉熵损失

ℓ e r r ( h ( x ) , y ) = − log ⁡ p ( l a b e l = y ) = − h y ( x ) + log ⁡ ∑ j = 1 k e x p ( h j ( x ) ) \ell_{err}(h(x),y) =- \log p(label=y)= -h_y(x)+\log \sum_{j=1}^kexp(h_j(x)) err(h(x),y)=logp(label=y)=hy(x)+logj=1kexp(hj(x))

softmax 回归优化问题

接下来的任务就是想办法减小损失函数

min ⁡ θ 1 m ∑ i = 1 m ℓ ( h θ ( x ( i ) ) , y ( i ) ) \min_{\theta} \frac{1}{m}\sum_{i=1}^m\ell(h_\theta(x^{(i)}),y^{(i)}) θminm1i=1m(hθ(x(i)),y(i))

如何找到 θ \theta θ来减少损失函数呢?

优化:梯度下降法

对一个输入为矩阵,输出为标量的函数 f : R n × k → R f:\mathbb{R}^{n\times k} \rightarrow \mathbb{R} f:Rn×kR ,以下为梯度的定义,针对 θ \theta θ的每一个元素求偏导。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hcojNuCy-1684499011760)(null)]

梯度指示了增长最快的方向。

更新 θ \theta θ

θ : = θ − α ▽ θ f ( θ ) \theta:=\theta - \alpha \triangledown_\theta f(\theta) θ:=θαθf(θ)

α \alpha α 是学习率,用来控制更新的步长

随机梯度下降

不使用所有的数据来更新参数,每次选择一个 minibatch ,针对minibatch求loss和梯度及进行更新

2 机器学习知识 Softmax回归 deep learning system

回到我们的问题,如何计算softmax损失函数的梯度?

h = θ T x , h ∈ R k h = \theta^Tx,h\in \mathbb{R}^k h=θTx,hRk

2 机器学习知识 Softmax回归 deep learning system
e y e_y ey 是一个向量,只有y位置为1,其余位置为0

2 机器学习知识 Softmax回归 deep learning system
2 机器学习知识 Softmax回归 deep learning system2 机器学习知识 Softmax回归 deep learning system

X T ∈ R n × m X^T \in \mathbb{R}^{n\times m} XTRn×m Z − I y ∈ R m × k Z -I_y \in \mathbb{R}^{m\times k} ZIyRm×k

总的过程为
先选择一个minibatch,再更新 θ \theta θ
2 机器学习知识 Softmax回归 deep learning system文章来源地址https://www.toymoban.com/news/detail-451449.html

到了这里,关于2 机器学习知识 Softmax回归 deep learning system的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习 day24(多类分类模型,Softmax回归算法及其损失函数)

    1. 多类分类 多类分类问题仍然是分类问题,所以预测y的可能结果是少量的,而不是无穷多个,且对于多类分类它>2 如上图:左侧为二分类,右侧为多分类,可以通过决策边界来划分区域 2. Softmax回归算法 对逻辑回归模型,先计算z,再计算g(z)。此时可以将逻辑回归视为计算

    2024年02月13日
    浏览(42)
  • 【机器学习】强化学习(六)-DQN(Deep Q-Learning)训练月球着陆器示例

    概述 Deep Q-Learning(深度 Q 学习)是一种强化学习算法,用于解决决策问题,其中代理(agent)通过学习在不同环境中采取行动来最大化累积奖励。Lunar Lander 是一个经典的强化学习问题,其中代理的任务是控制一个着陆舱在月球表面着陆,最小化着陆过程中的燃料消耗。 以下

    2024年01月25日
    浏览(62)
  • 文献阅读:Deep Learning Enabled Semantic Communication Systems

    作者 Huiqiang Xie Zhijin Qin Geoffrey Ye Li Biing-Hwang Juang 发表期刊or会议 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》 发表时间 2021.4 这篇论文由《Deep Learning based Semantic Communications: An Initial Investigation》扩展而来 框架或结构 作用 DeepSC 最大化系统容量、最小化语义误差 设计两个Loss函数 理解语义

    2024年02月10日
    浏览(33)
  • 论文翻译——Test Selection for Deep Learning Systems

    Abstract 因为深度学习涉及到复杂并且大量的计算,所以对于深度学习的检测十分困难。而且测试数据一般都只能人工选择,并且只能一个一个标注。这就是提出了一个问题,如果我们能够自动选择候选数据去测试深度学习模型。最近的研究都是集中在定义衡量测试集彻底度的

    2024年02月08日
    浏览(51)
  • 语义通信经典文章DeepSC:Deep Learning Enabled Semantic Communication Systems

    作者 Huiqiang Xie Zhijin Qin Geoffrey Ye Li Biing-Hwang Juang 发表期刊or会议 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》 发表时间 2021.4 这篇论文由《Deep Learning based Semantic Communications: An Initial Investigation》扩展而来 框架或结构 作用 DeepSC 最大化系统容量、最小化语义误差 设计两个Loss函数 理解语义

    2024年02月09日
    浏览(57)
  • 机器学习算法实战(scikit-learn版本)---线性回归

    目录 文章目标: 1,导入库  2,导入数据集 3,缩放/归一化训练数据 4,创建并拟合回归模型 5,查看参数 6,预测 7,可视化  有一个开源的、商业上可用的机器学习工具包,叫做[scikit-learn](https://scikit-learn.org/stable/index.html)。这个工具包包含了你在本课程中要使用的许多算法的实

    2024年02月05日
    浏览(39)
  • 机器学习-决策树-回归-CPU(中央处理单元)数据-python scikit-learn

    决策树是一种监督机器学习算法,用于回归和分类任务。树是可以处理复杂数据集的强大算法。 决策树特性: 不需要数值输入数据进行缩放。无论数值是多少,决策树都不在乎。 不同于其他复杂的学习算法,决策树的结果是可以解释的,决策树不是黑盒类型的模型。 虽然大

    2024年02月20日
    浏览(35)
  • 【深度学习笔记】Softmax 回归

    本专栏是网易云课堂人工智能课程《神经网络与深度学习》的学习笔记,视频由网易云课堂与 deeplearning.ai 联合出品,主讲人是吴恩达 Andrew Ng 教授。感兴趣的网友可以观看网易云课堂的视频进行深入学习,视频的链接如下: 神经网络和深度学习 - 网易云课堂 也欢迎对神经网

    2024年02月15日
    浏览(36)
  • 吴恩达机器学习-可选实验:使用ScikitLearn进行线性回归(Linear Regression using Scikit-Learn)

    有一个开源的、商业上可用的机器学习工具包,叫做scikit-learn。这个工具包包含了你将在本课程中使用的许多算法的实现。 在本实验中,你将:利用scikit-learn实现使用梯度下降的线性回归 您将使用scikit-learn中的函数以及matplotlib和NumPy。 np.set_printoptions(precision=2) 的作用是告诉

    2024年03月14日
    浏览(47)
  • Deep Learning-学习笔记

    deep learning训练过程 如果对所有层同时训练,时间复杂度会太高;如果每次训练一层,偏差就会逐层传递。这会面临跟上面监督学习中相反的问题,会严重欠拟合(因为深度网络的神经元和参数太多了)。 2006年,hinton提出了在非监督数据上建立多层神经网络的一个有效方法,

    2024年02月12日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包