图神经网络(五):GAT

这篇具有很好参考价值的文章主要介绍了图神经网络(五):GAT。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一.摘要

我们提出了图注意网络(GAT),一种在图结构数据上运行的新型神经网络架构,利用掩蔽的自我注意层来解决基于图形卷积或其近似的先前方法的缺点。通过堆叠节点能够参与其邻域特征的层,我们能够(隐式)为邻域中的不同节点指定不同的权重,而不需要任何类型的昂贵的矩阵运算(例如求逆)或依赖于对图的了解结构前期。通过这种方式,我们同时解决了基于谱的图神经网络的几个关键挑战,并使我们的模型很容易适用于归纳和转导问题。我们的 GAT 模型在四个已建立的转导和归纳图基准测试中取得或匹配了最先进的结果:Cora、Citeseer 和 Pubmed 引文网络数据集,以及蛋白质相互作用数据集。

二.背景介绍

卷积神经网络 (CNN) 已成功应用于解决图像分类、语义分割或机器翻译等问题。 这些问题的底层数据表示具有类似网格结构。 这些结构通过将它们应用于所有输入位置,有效地重用具有可学习参数的本地滤波器。
然而,许多有趣的任务涉及的数据不能以网格状结构表示,而是位于不规则域中。 3D 网格、社交网络、电信网络、生物网络或大脑连接组就是这种情况。 这样的数据通常可以用图的形式来表示。
文献中有几次尝试扩展神经网络以处理任意结构的图。:早期的工作使用递归神经网络来处理在图域中表示为有向无环图的数据。 2005年Gori和 Scarselli 等人提出的图神经网络 (GNN)作为递归神经网络的推广,可以直接处理例如循环图、有向图和无向图等更通用的图类。 GNN由一个迭代过程组成,该过程传播节点状态直到达到平衡; 然后紧跟一个神经网络,根据每个节点的状态为每个节点生成一个输出。 这个想法后来又被李等人采纳和改进,在传播步骤中使用门控循环单元。
然而,将卷积推广到图域受到越来越多的关注,这个方向的进展通常分为光谱方法和非光谱方法。
一方面,谱方法与图的谱表示一起工作,并已成功应用于上下文中的节点分类。在布鲁纳等人的工作中,卷积运算是通过计算图拉普拉斯算子的特征分解在傅里叶域中定义的,从而导致潜在的密集计算和非空间局部化滤波器。这些问题在随后的工作中得到解决,赫纳夫等人引入了具有平滑系数的光谱滤波器的参数化,以使它们在空间上局部化。再后来,Defferrard 等人提出通过图拉普拉斯算子的切比雪夫展开来近似过滤器,消除了计算拉普拉斯算子的特征向量并产生空间局部化过滤器的需要。最后,Kipf和Welling等人通过限制过滤器在每个节点周围的 1 步邻域内操作来简化之前的方法。然而,在所有上述谱方法中,学习滤波器依赖于取决于图结构的拉普拉斯特征基。因此,在特定结构上训练的模型不能直接应用于具有不同结构的图。
另一方面,我们有非谱方法,它直接在图上定义卷积,对空间近邻组进行操作。这些方法的挑战之一是定义一个与不同大小的邻域一起工作并保持 CNN 的权重共享属性的算子。在某些情况下,这需要为每个节点度学习一个特定的权重矩阵,使用转换矩阵的幂来定义邻域,同时学习每个输入通道和邻域度的权重,或提取和归一化包含固定数量节点的邻域。蒙蒂等人2016 年提出了混合模型 CNN(MoNet),这是一种空间方法,可将 CNN 架构统一推广到图。最近,汉密尔顿等人介绍了GraphSAGE,这是一种以归纳方式计算节点表示的方法。该技术通过对每个节点的固定大小邻域进行采样,然后对其执行特定的聚合器(例如所有采样邻居的特征向量的平均值,或通过循环神经网络馈送它们的结果)来操作。这种方法在多个大规模归纳基准测试中取得了令人印象深刻的性能。
在许多基于序列的任务中,注意力机制几乎已成为事实上的标准。 注意力机制的好处之一是它们允许处理可变大小的输入,专注于输入中最相关的部分以做出决策。 当使用注意力机制来计算单个序列的表示时,它通常被称为自注意力或内部注意力。 与循环神经网络 (RNN) 或卷积一起,自注意力已被证明对机器阅读和学习句子表示等任务很有用。 然而,瓦斯瓦尼等人表明,self-attention 不仅可以改进基于 RNN 或卷积的方法,而且足以构建一个强大的模型,在机器翻译任务上获得最先进的性能。
受最近这项工作的启发,我们引入了一种基于注意力的架构来执行图结构数据的节点分类。这个想法是通过关注其邻居,遵循自注意力策略来计算图中每个节点的隐藏表示。注意力架构有几个有趣的特性:(1)操作是高效的,因为它可以跨节点邻居对并行化; (2) 通过给邻居指定任意权重,可以将其应用于具有不同度数的图节点; (3) 该模型直接适用于归纳学习问题,包括模型必须泛化到完全看不见的图的任务。我们在四个具有挑战性的基准上验证了所提出的方法:Cora、Citeseer 和 Pubmed 引文网络以及归纳蛋白质-蛋白质相互作用数据集,实现或匹配最先进的结果,这些结果突出了基于注意力的模型在处理时的潜力带有任意结构的图。
值得注意的是,与 Kipf和 Atwood等人一样,我们的工作也可以重新表述为MoNet的一个特定实例。此外,我们跨边缘共享神经网络计算的方法让人想起关系网络和 VAIN 的公式,其中对象或代理之间的关系是成对聚合的,通过采用一种共享机制。同样,我们提出的注意力模型可以与 Duan 等人的工作联系起来,它使用邻域注意操作来计算环境中不同对象之间的注意系数。其他相关方法包括局部线性嵌入 (LLE) 和记忆网络:LLE 在每个数据点周围选择固定数量的邻居,并为每个邻居学习一个权重系数,以将每个点重构为其邻居的加权和,第二个优化步骤提取点的特征嵌入;记忆网络也与我们的工作有一些联系,特别是如果我们将节点的邻域解释为记忆,它用于通过关注其值来计算节点特征,然后通过将新特征存储在相同的位置。

三.GAT

在本节中,我们将介绍用于构建任意图注意力网络的构建块层(通过堆叠该层),并直接概述其与神经图处理领域的先前工作相比的理论和实践优势和局限性。
我们将从描述单个图形注意层开始,作为我们实验中使用的所有 GAT 架构中使用的唯一层。 我们使用的特殊注意力设置与 Bahdanau 等人的工作密切相关,但该框架与注意力机制的特定选择无关。
我们层的输入是一组节点特征,$h = {\overrightarrow{h_1},\overrightarrow{h_2}, . . . ,\overrightarrow{h_N} }, \overrightarrow{h_i} ∈ R^F ,其中 N 是节点数, F 是每个节点中的特征数。该层产生一组新的节点特征(可能具有不同的基数 F ′ ), ,其中 N 是节点数,F 是每个节点中的特征数。 该层产生一组新的节点特征(可能具有不同的基数 F'), ,其中N是节点数,F是每个节点中的特征数。该层产生一组新的节点特征(可能具有不同的基数F),h’ = {\overrightarrow{h’_1},\overrightarrow{h’_2}, . . . ,\overrightarrow{h’_N} },\overrightarrow{h’_i} ∈ R^{F’} ,作为其输出。为了获得足够的表达能力将输入特征转化为更高级的特征,至少需要一个可学习的线性变换。为此,作为初始步骤,将由权重矩阵 ,作为其输出。为了获得足够的表达能力将输入特征转化为更高级的特征,至少需要一个可学习的线性变换。 为此,作为初始步骤,将由权重矩阵 ,作为其输出。为了获得足够的表达能力将输入特征转化为更高级的特征,至少需要一个可学习的线性变换。为此,作为初始步骤,将由权重矩阵 W ∈ R^{F’×F} 参数化的共享线性变换应用于每个节点。然后我们在节点上执行自我注意——共享注意机制 a : 参数化的共享线性变换应用于每个节点。 然后我们在节点上执行自我注意——共享注意机制 a : 参数化的共享线性变换应用于每个节点。然后我们在节点上执行自我注意——共享注意机制a: R^{F’}× R^{F’} → R $计算注意系数:
图神经网络(五):GAT

表示节点 j 的特征对节点 i 的重要性。 在其最一般的表述中,该模型允许每个节点参与每个其他节点,删除所有结构信息。 我们通过执行 masked attention 将图结构注入到机制中——我们只计算节点 j ∈ Ni 的 eij,其中 Ni 是图中节点 i 的某个邻域。 在我们所有的实验中,这些将恰好是 i(包括 i)的一阶邻居。 为了使系数在不同节点之间易于比较,我们使用 softmax 函数在 j 的所有选择中对它们进行归一化:
图神经网络(五):GAT

在我们的实验中,注意力机制 a 是一个单层前馈神经网络,由权重向量$ \overrightarrow a ∈ R^{2F’} $参数化,并应用 LeakyReLU 非线性(负输入斜率 α = 0.2)。 完全展开后,注意力机制计算的系数(如图 1(左)所示)可以表示为:
图神经网络(五):GAT

图神经网络(五):GAT

一旦获得,归一化的注意力系数用于计算与其对应的特征的线性组合,作为每个节点的最终输出特征(在可能应用非线性后,σ):
图神经网络(五):GAT

为了稳定自注意力的学习过程,我们发现扩展我们的机制以使用类似于 Vaswani 等人的多头注意力是有益的,具体来说,K 个独立的注意力机制执行方程 4 的转换,然后将它们的特征连接起来,得到以下输出特征表示:
图神经网络(五):GAT

特别是,如果我们在网络的最终(预测)层执行多头注意力,则连接不再有意义——相反,我们采用平均,并延迟应用最终的非线性(通常是用于分类问题的 softmax 或逻辑 sigmoid)直到 然后:
图神经网络(五):GAT

多头图注意力层的聚合过程如图 1(右)所示。

四.总结

本文提出了图注意力网络 (GAT),一种新颖的卷积式神经网络,它在图结构数据上运行,利用了掩码自注意力层。在这些网络中使用的图注意力层在计算上是高效的(不需要昂贵的矩阵运算,并且可以在图中的所有节点上并行化),允许在处理不同大小的邻域时(隐式)为邻域内的不同节点分配不同的重要性,并且不依赖于预先了解整个图结构,从而解决了以前基于谱的方法的许多理论问题。我们利用注意力的模型已经在四个成熟的节点分类基准中成功实现或匹配了最先进的性能,包括转换和归纳(尤其是用于测试的完全看不见的图表)。

五.附录

论文链接:https://arxiv.org/pdf/1710.10903.pdf
代码链接:https://github.com/PetarV-/GAT文章来源地址https://www.toymoban.com/news/detail-490153.html

到了这里,关于图神经网络(五):GAT的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 图神经网络|图注意网络Graph Attention Network

    Leaky ReLU 有利于压低负数对结局的影响。 输入向量 h i h_i h i ​ 乘上权重矩阵W得到对应的向量 h i ∗ h_i^* h i ∗ ​ ,并将 h i ∗ h_i^* h i ∗ ​ 计算出对应的 a i a_i a i ​ ,从而得到最终对结果向量的贡献。 所以有 h = ∑ i h i ∗ ∗ a i h = sum_i{h_i^{*}*a_i} h = ∑ i ​ h i ∗ ​ ∗ a i ​

    2024年02月02日
    浏览(41)
  • 【深度学习】神经网络中 Batch 和 Epoch 之间的区别是什么?我们该如何理解?

    随机梯度下降(Stochastic Gradient Descent,SGD)是一种优化算法,用于在机器学习和深度学习中更新模型参数,以最小化损失函数。与传统的梯度下降算法不同,SGD在每次参数更新时只使用一个样本(或一小批样本),而不是使用整个训练数据集。这使得SGD具有更快的收敛速度,

    2024年02月10日
    浏览(38)
  • 神经网络多种注意力机制原理和代码讲解

    多种注意力表格: 大神参考仓库链接: 魔鬼面具 对应 name 就是目录,点击即可跳转到对应学习。 name need_chaneel paper SE (2017) True https://arxiv.org/abs/1709.01507 BAM (2018) True https://arxiv.org/pdf/1807.06514.pdf CBAM (2018) True https://openaccess.thecvf.com/content_ECCV_2018/papers/Sanghyun_Woo_Convolutional_Block_

    2024年02月06日
    浏览(78)
  • [自注意力神经网络]Segment Anything(SAM)论文阅读

    论文地址 https://arxiv.org/abs/2304.02643 源码地址 https://github.com/facebookresearch/segment-anything 强烈建议大家试试Demo,效果真的很好:https://segment-anything.com/         本文建立了一个基础图像分割模型,并将其在一个巨大的数据集上进行训练,目的是解决一系列下游任务。本文的关键

    2023年04月23日
    浏览(57)
  • 理解神经网络的注意力机制(Attention)及PyTorch 实现

                     刚刚结束的 2022 年对于人工智能的许多进步来说是不可思议的一年。最近 AI 中的大多数著名地标都是由称为变形金刚的特定类别模型驱动的,无论是 chatGPT 的令人难以置信的进步,它席卷了世界,还是稳定的扩散,它为您的智能手机带来了类似科幻小

    2024年02月05日
    浏览(61)
  • 基于注意力神经网络的深度强化学习探索方法:ARiADNE

    参考论文:Cao Y, Hou T, Wang Y, et al. Ariadne: A reinforcement learning approach using attention-based deep networks for exploration[J]. arXiv preprint arXiv:2301.11575, 2023. 2023 IEEE International Conference on Robotics and Automation (ICRA 2023) ARE的传统边界法 自主机器人探索(Autonomous robot exploration, ARE) 目标: ARE的目标是规

    2024年02月12日
    浏览(42)
  • 【让我们深度理解语音识别:Siri与Alexa如何运用深度学习和循环神经网络将声音转化为文字

    语音识别技术是近年来人工智能领域的重要研究对象,它的出现大大改善了人与机器的交互方式,增强了人们生活的便捷度。今天,我将带领大家深度了解语音识别技术的内部运作原理,以及语音助手如Siri和Alexa如何运用这些先进技术,实现从声音到文字的转化。在探讨技术

    2024年02月12日
    浏览(38)
  • 基于通道注意机制联合多尺度卷积神经网络的滚动轴承故障诊断

    实验数据采用的是美国凯斯西储大学(CWRU)轴承数据中心的SKF型轴承的DE驱动端加速度数据,其中选用采样频率为48kHz,载荷为1hp的加速度数据进行实验分析,根据损伤部位的不同,分为滚动体、内圈、外圈六点钟方向故障,故样本共有10类。其次,对所选择的数据进行划分,首

    2024年02月13日
    浏览(43)
  • 使用径向基函数(RBF)神经网络对我们自己的excel数据进行分类---包括详细的python代码,RBFRegressor

    径向基神经网络(Radial Basis Function Neural Network)是一种人工神经网络,它由三层组成:输入层、隐藏层和输出层。与传统的神经网络不同,径向基神经网络并不使用传统的激活函数,而是使用径向基函数作为激活函数,即: y = f ( z ) y = f(z) y = f ( z ) ,其中 f f f 是径向基函数

    2024年02月10日
    浏览(42)
  • SE、CBAM、ECA注意力机制(网络结构详解+详细注释代码+核心思想讲解+注意力机制优化神经网络方法)——pytorch实现

           这期博客我们来学习一下神秘已久的注意力机制,刚开始接触注意力机制的时候,感觉很有意思,事实上学会之后会发现比想象中的要简单,复杂的注意力机制后续会讲解,这期博客先讲解最常见的三种SE、CBAM、ECA注意力机制。        注意力机制更详细的可以被称

    2024年02月07日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包