机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks)

这篇具有很好参考价值的文章主要介绍了机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2016 KDD

1 intro

  • 利用graph上的节点相似性,对这些节点进行embedding
    • 同质性:节点和其周围节点的embedding比较相似
      • 蓝色节点和其周围的节点
      • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读
    • 结构等价性
      • 结构相近的点embedding相近
        • 比如蓝色节点,都处于多个簇的连接处
        • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

2 随机游走

2.1 介绍

  • 随机游走是一种自监督学习的embedding方法,不需要利用节点标签也不需要节点的特征,训练出来的embedding也不依赖于任何的特定任务
  • 首先随机选择一个邻居节点,走到该处再随机选择一个邻居,重复length次
    • length是指随机游走的长度
    • 使用随机游走从起始节点到终止节点的概率值,实际上就可以用来表示相似度
      • 也就是说,从u到v节点的概率值,应该正比于u与v节点embedding之后的点乘结果
        • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

2.2 具体算法

  • 根据某种策略R,从图上的每个点,执行一些随机游走
  • 对图上的每个点u,收集相对应的点集
    • 是从u点出来的各条随机游走路径上的点集
    • 中可能会有重复的元素 
  • 根据对数概率,优化embedding
    • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读
    • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读
    • 目标:最小化损失函数L
      • ——>最大化在中的v与u之间的log(P(v|Zu))
      • ——>最大化在u随机游走路径上的v与u之间的P(v|Zu)
        ——>在u随机游走路径上的v,尽量地和u相似()
  • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

2.3 随机游走策略

  • 最简单的策略:从每个点跑固定长度,没有bias的随机游走
    • 会导致游走局部化或者仅在个别点之间游走
    • ——>提出两个参数(概率)用来控制游走策略

机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

  • 从w(t时刻)到s1(t+1时刻)

    • t+1时刻和t-1时刻的距离为0——return parameter

  • 从w(t时刻)到s2(t+1时刻)

    • t+1时刻和t-1时刻的距离为1

  • 从w(t时刻)到s3(t+1时刻)

    • t+1时刻和t-1时刻的距离为2——>walk away parameter

2.3.1 一次游走,多个节点游走路径

在寻找随机游走的过程中,我们可以通过一次游走(深度优先遍历的算法,路径长),寻找出多个节点的游走路径(路径短)

机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

2.3.2 p,q对路径搜索的影响

  • DFS,深度优先,即q值小,探索强。会捕获同质性节点,即相邻节点表示类似。
    • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读
  • BFS,广度优先,即p值小,保守周围。会捕获结构性,即某些节点的图上结构类类似。
    • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

2.3.3 随机游走算法优化

上述算法有一个问题,就是我计算P(v|Zu)时,分母还是需要每一对node 都计算一边,那么还是的时间复杂度

机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

解决方法:负采样

  •   分母改为随机采样k个点
    • 每个点负采样概率正比于这个点的度数
    • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

3 用点embedding 表示边embedding

通过平均、哈达玛积(元素相乘)、L1、L2计算方式表示边的embedding

机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读

4 实验结果

机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks),论文笔记,论文阅读 文章来源地址https://www.toymoban.com/news/detail-703872.html

到了这里,关于机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习——Word2Vec

    参考资料: https://zhuanlan.zhihu.com/p/114538417 https://www.cnblogs.com/pinard/p/7243513.html 统计语言模型是基于 语料库 构建的 概率模型 ,用来计算一个词串 W = ( w 1 , w 2 , ⋯   , w T ) W=(w_1,w_2,cdots,w_T) W = ( w 1 ​ , w 2 ​ , ⋯ , w T ​ ) 构成句子的概率 : p ( W ) = p ( w 1 , w 2 , ⋯   . w T ) = p

    2024年02月11日
    浏览(42)
  • 论文辅助笔记:T2VEC一个疑虑:stackingGRUCell和GRU的区别在哪里?

    在 nn.GRU 中, hn 表示每层的最后一个时间步的隐藏状态。这意味着,对于一个具有 seq_len 的输入序列, hn 会包含每层的 seq_len 时间步中的最后一个时间步的隐藏状态。 在 StackingGRUCell 中, hn 是通过每层的 GRUCell 为给定的单一时间步计算得到的。 所以, 如果 seq_len 为1,那么

    2024年02月06日
    浏览(39)
  • 深度学习笔记之Transformer(五) Position Embedding铺垫:Word2vec

    在Transformer(三)自注意力机制一节中介绍了 位置编码 ( Position Embedding ) (text{Position Embedding}) ( Position Embedding ) ,本系列针对位置编码 再回首 ,从公式角度重新认识位置编码。本节作为铺垫,介绍一下 词向量 模型—— Word2vec text{Word2vec} Word2vec 。 在循环神经网络简单示例中

    2024年02月13日
    浏览(34)
  • 机器学习算法原理lightgbm、word2vec、cnn、lstm、textcnn、bert、transformer、随机森林、lr

    首先需要说一说GBDT,它是一种基于决策树的集成算法,它使用的集成方法是boosting,其主要思想是通过多次迭代,每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差,最终得到一个准确度更高的模型。 全称为Gradient Boosting Decision Tree。它是一种

    2024年02月13日
    浏览(35)
  • 论文精读--word2vec

    word2vec从大量文本语料中以无监督方式学习语义知识,是用来生成词向量的工具 把文本分散嵌入到另一个离散空间,称作分布式表示,又称为词嵌入(word embedding)或词向量 We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The qua

    2024年02月22日
    浏览(47)
  • Wav2vec2 论文阅读看到的一些问题

    这里只是简单的思考一下论文的一些问题,不是论文解读。 Q1. 为什么wav2vec依旧需要Transformer来做推理,而不直接使用VQ生成的内容? A1. Transformer在更长的序列上有更好的编码效果,例如论文也写Contextualized representations with Transformers。另一个因素在于对比学习本质上是区分相

    2024年02月13日
    浏览(35)
  • D2L学习记录-10-词嵌入word2vec

    《动手学深度学习 Pytorch 第1版》第10章 自然语言处理 第1、2、3 和 4节 (词嵌入) 词向量:自然语言中,词是表义的基本单元。词向量是用来表示词的向量。 词嵌入 (word embedding):将词映射为实数域向量的技术称为词嵌入。 词嵌入出现的原因:由于 one-hot 编码的词向量不能准确

    2024年02月14日
    浏览(46)
  • 深度学习(3)--递归神经网络(RNN)和词向量模型Word2Vec

    目录 一.递归神经网络基础概念 二.自然语言处理-词向量模型Word2Vec 2.1.词向量模型 2.2.常用模型对比 2.3.负采样方案 2.4.词向量训练过程 递归神经网络(Recursive Neural Network, RNN)可以解决有时间序列的问题,处理诸如树、图这样的递归结构。 CNN主要应用在计算机视觉CV中,RNN主要

    2024年01月21日
    浏览(41)
  • 深度学习的Natural Language Processing:从Word2Vec到BERT

    自然语言处理(Natural Language Processing,NLP)是人工智能(Artificial Intelligence,AI)领域的一个重要分支,其目标是让计算机理解、生成和翻译人类语言。随着大数据、云计算和深度学习等技术的发展,深度学习的NLP(Deep Learning for NLP)在处理自然语言文本和语音的能力得到了显

    2024年02月03日
    浏览(35)
  • Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT

    我在写上一篇博客《22下半年》时,有读者在文章下面评论道:“july大神,请问BERT的通俗理解还做吗?”,我当时给他发了张俊林老师的BERT文章,所以没太在意。 直到今天早上,刷到CSDN上一篇讲BERT的文章,号称一文读懂,我读下来之后,假定我是初学者,读不懂。 关于

    2024年02月02日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包