深入理解深度学习——切面距离(Tangent Distance)、正切传播(Tangent Prop)和流形正切分类器

这篇具有很好参考价值的文章主要介绍了深入理解深度学习——切面距离(Tangent Distance)、正切传播(Tangent Prop)和流形正切分类器。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分类目录:《自然语言处理从入门到应用》总目录


许多机器学习通过假设数据位于低维流形附近来克服维数灾难。一个利用流形假设的早期尝试是切面距离(Tangent Distance)算法 (Simard。它是一种非参数的最近邻算法,其中使用的度量不是通用的欧几里德距离,而是根据邻近流形关于聚集概率的知识导出的。这个算法假设我们尝试分类的样本和同一流形上的样本具有相同的类别。由于分类器应该对局部因素(对应于流形上的移动)的变化保持不变,一种合理的度量是将点 x 1 x_1 x1 x 2 x_2 x2各自所在流形 M 1 M_1 M1 M 2 M_2 M2的距离作为点 x 1 x_1 x1 x 2 x_2 x2之间的最近邻距离。然而这可能在计算上是困难的(它需要解决一个寻找 M 1 M_1 M1 M 2 M_2 M2最近点对的优化问题),一种局部合理的廉价替代是使用 x i x_i xi点处切平面近似 M i M_i Mi,并测量两条切平面或一个切平面和点之间的距离。这可以通过求解一个低维线性系统(就流形的维数而言)来实现。当然,这种算法需要指定那些切向量。

受相关启发,正切传播(Tangent Prop)算法训练带有额外惩罚的神经网络分类器,使神经网络的每个输出 f ( x ) f(x) f(x)对已知的变化因素是局部不变的。这些变化因素对应于沿着的相同样本聚集的流形的移动。这里实现局部不变性的方法是要求 ∇ f ( x ) \nabla f(x) f(x)与已知流形的切向 v ( i ) v^{(i)} v(i)正交,或者等价地通过正则化惩罚 Ω \Omega Ω使 f f f x x x v ( i ) v^{(i)} v(i)方向的导数较小:
Ω ( f ) = ∑ i ( ∇ f x ( x ) T v ( i ) ) 2 \Omega(f)=\sum_i(\nabla f_x(x)^Tv^{(i)})^2 Ω(f)=i(fx(x)Tv(i))2

这个正则化项当然可以通过适当的超参数缩放,并且对于大多数神经网络,我们需要对许多输出求和 (此处为描述简单, f ( x ) f(x) f(x)为唯一输出)。与切面距离算法一样,我们根据切向量推导先验,通常从变换(如平移、旋转和缩放图像)的效果获得形式知识。正切传播不仅用于监督学习,还在强化学习中有所应用。

正切传播与数据集增强密切相关。在这两种情况下,该算法的用户通过指定一组应当不会改变网络输出的转换,将其先验知识编码至算法中。不同的是在数据集增强的情况下,网络显式地训练正确分类这些施加大量变换后产生的不同输入。正切传播不需要显式访问一个新的输入点。取而代之,它解析地对模型正则化从而在指定转换的方向抵抗扰动。虽然这种解析方法是聪明优雅的,但是它有两个主要的缺点。首先,模型的正则化只能抵抗无穷小的扰动。显式的数据集增强能抵抗较大的扰动。其次,我们很难在基于整流线性单元的模型上使用无限小的方法。这些模型只能通过关闭单元或缩小它们的权重才能缩小它们的导数。它们不能像Sigmoid或Tanh单元一样通过较大权重在高值处饱和以收缩导数。数据集增强在整流线性单元上工作得很好,因为不同的整流单元会在每一个原始输入的不同转换版本上被激活。

深入理解深度学习——切面距离(Tangent Distance)、正切传播(Tangent Prop)和流形正切分类器
正切传播也和双反向传播以及对抗训练有关联。双反向传播正则化使Jacobian矩阵偏小,而对抗训练找到原输入附近的点,训练模型在这些点上产生与原来输入相同的输出。正切传播和手动指定转换的数据集增强都要求模型在输入变化的某些特定的方向上保持不变。双反向传播和对抗训练都要求模型对输入所有方向中的变化(只要该变化较小)都应当保持不变。正如数据集增强是正切传播非无限小的版本,对抗训练是双反向传播非无限小的版本。

流形正切分类器无需知道切线向量的先验。自编码器可以估算流形的切向量。流形正切分类器使用这种技术来避免用户指定切向量。这些估计的切向量不仅对图像经典几何变换(如转化、旋转和缩放)保持不变,还必须掌握对特定对象(如正在移动的身体某些部分)保持不变的因素。因此根据流形正切分类器提出的算法相当简单:

  • 使用自 编码器通过无监督学习来学习流形的结构
  • 如正切传播一样使用这些切面正则化神经网络分类器

参考文献:
[1] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[2] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[3] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[4] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[5] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.文章来源地址https://www.toymoban.com/news/detail-476919.html

到了这里,关于深入理解深度学习——切面距离(Tangent Distance)、正切传播(Tangent Prop)和流形正切分类器的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入理解深度学习——正则化(Regularization):Dropout

    分类目录:《深入理解深度学习》总目录 Dropout供了正则化一大类模型的方法,计算方便且功能强大。在第一种近似下,Dropout可以被认为是集成大量深层神经网络的实用Bagging方法。Bagging涉及训练多个模型,并在每个测试样本上评估多个模型。当每个模型都是一个很大的神经

    2024年02月09日
    浏览(37)
  • 深入理解深度学习——正则化(Regularization):数据集增强

    分类目录:《深入理解深度学习》总目录 让机器学习模型泛化得更好的最好办法是使用更多的数据进行训练。当然,在实践中,我们拥有的数据量是很有限的。解决这个问题的一种方法是创建假数据并添加到训练集中。对于一些机器学习任务,创建新的假数据相当简单。对分

    2024年02月16日
    浏览(33)
  • 深入理解深度学习——Transformer:解码器(Decoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(Attention Mechanism):基础知识 ·注意力机制(Attention Mechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function) ·注意力机制(Attention Mechanism):

    2024年02月10日
    浏览(48)
  • 深入理解深度学习——Transformer:编码器(Encoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(AttentionMechanism):注意力评分函数(AttentionScoringFunction) ·注意力机制(AttentionMechanism):Bahda

    2024年02月08日
    浏览(59)
  • 深入理解深度学习——正则化(Regularization):参数绑定和参数共享

    分类目录:《深入理解深度学习》总目录 目前为止,我们讨论对参数添加约束或惩罚时,一直是相对于固定的区域或点。例如, L 2 L^2 L 2 正则化(或权重衰减)对参数偏离零的固定值进行惩罚。然而,有时我们可能需要其他的方式来表达我们对模型参数适当值的先验知识。

    2024年02月07日
    浏览(65)
  • 深入理解深度学习——正则化(Regularization):Bagging和其他集成方法

    分类目录:《深入理解深度学习》总目录 相关文章: · 集成学习(Ensemble Learning):基础知识 · 集成学习(Ensemble Learning):提升法Boosting与Adaboost算法 · 集成学习(Ensemble Learning):袋装法Bagging · 正则化(Regularization):Bagging和其他集成方法 Bagging(Bootstrap Aggregating)是通

    2024年02月07日
    浏览(39)
  • 深入理解深度学习——正则化(Regularization):正则化和欠约束问题

    分类目录:《深入理解深度学习》总目录 在某些情况下,为了正确定义机器学习问题,正则化是必要的。机器学习中许多线性模型,包括线性回归和PCA,都依赖于对矩阵 X T X X^TX X T X 求逆。只要 X T X X^TX X T X 是奇异的,这些方法就会失效。当数据生成分布在一些方向上确实没

    2024年02月12日
    浏览(38)
  • 深入理解深度学习——正则化(Regularization):作为约束的范数惩罚

    分类目录:《深入理解深度学习》总目录 考虑经过参数范数正则化的代价函数: J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) tilde{J}(theta;X, y) = J(theta;X, y) + alphaOmega(theta) J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) 回顾《拉格朗日乘子法(二):不等式约束与KKT条件》我们可以构

    2024年02月08日
    浏览(35)
  • 距离场和距离变换:distance_transform

            你知道图像处理的骨架这个概念吗?如果知道,你能解释清楚什么算法生成骨架吗?从一堆横竖叠加的扑克牌中,你能整理出几张牌,并保存牌的花色信息吗?如果您对上述提问存在疑虑,那么就好好看看本文吧。         距离 变换 ,也称为 距离图 或 距离

    2024年01月16日
    浏览(36)
  • 深入理解深度学习——BERT派生模型:ALBERT(A Lite BERT)

    分类目录:《深入理解深度学习》总目录 预训练语言模型的一个趋势是使用更大的模型配合更多的数据,以达到“大力出奇迹”的效果。随着模型规模的持续增大,单块GPU已经无法容纳整个预训练语言模型。为了解决这个问题,谷歌提出了ALBERT,该模型与BERT几乎没有区别,

    2024年02月10日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包