机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）

10月前作者：UQI-LIUWJ 分类：Toy博客阅读(43) 违法举报

这篇具有很好参考价值的文章主要介绍了机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

2016 KDD

1 intro

利用graph上的节点相似性，对这些节点进行embedding
- 同质性：节点和其周围节点的embedding比较相似
  - 蓝色节点和其周围的节点
- 结构等价性
  - 结构相近的点embedding相近
    - 比如蓝色节点，都处于多个簇的连接处

2 随机游走

2.1 介绍

随机游走是一种自监督学习的embedding方法，不需要利用节点标签也不需要节点的特征，训练出来的embedding也不依赖于任何的特定任务
首先随机选择一个邻居节点，走到该处再随机选择一个邻居，重复length次
- length是指随机游走的长度
- 使用随机游走从起始节点到终止节点的概率值，实际上就可以用来表示相似度
  - 也就是说，从u到v节点的概率值，应该正比于u与v节点embedding之后的点乘结果

机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）,论文笔记,论文阅读

2.2 具体算法

根据某种策略R，从图上的每个点，执行一些随机游走
对图上的每个点u，收集相对应的点集
- 是从u点出来的各条随机游走路径上的点集
- 中可能会有重复的元素
根据对数概率，优化embedding
- 目标：最小化损失函数L
  - ——>最大化在中的v与u之间的log(P(v|Zu))
  - ——>最大化在u随机游走路径上的v与u之间的P(v|Zu)
    ——>在u随机游走路径上的v，尽量地和u相似（)

2.3 随机游走策略

最简单的策略：从每个点跑固定长度，没有bias的随机游走
- 会导致游走局部化或者仅在个别点之间游走
- ——>提出两个参数（概率）用来控制游走策略

机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）,论文笔记,论文阅读

从w（t时刻）到s1（t+1时刻）
- t+1时刻和t-1时刻的距离为0——return parameter
从w（t时刻）到s2（t+1时刻）
- t+1时刻和t-1时刻的距离为1
从w（t时刻）到s3（t+1时刻）
- t+1时刻和t-1时刻的距离为2——>walk away parameter

2.3.1 一次游走，多个节点游走路径

在寻找随机游走的过程中，我们可以通过一次游走（深度优先遍历的算法，路径长），寻找出多个节点的游走路径（路径短）

机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）,论文笔记,论文阅读

2.3.2 p，q对路径搜索的影响

DFS，深度优先，即q值小，探索强。会捕获同质性节点，即相邻节点表示类似。
BFS，广度优先，即p值小，保守周围。会捕获结构性，即某些节点的图上结构类类似。

2.3.3 随机游走算法优化

上述算法有一个问题，就是我计算P(v|Zu)时，分母还是需要每一对node 都计算一边，那么还是的时间复杂度

机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）,论文笔记,论文阅读

解决方法：负采样

分母改为随机采样k个点
- 每个点负采样概率正比于这个点的度数

机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）,论文笔记,论文阅读

3 用点embedding 表示边embedding

通过平均、哈达玛积（元素相乘）、L1、L2计算方式表示边的embedding

机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）,论文笔记,论文阅读

4 实验结果

机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）,论文笔记,论文阅读文章来源地址https://www.toymoban.com/news/detail-703872.html

到了这里，关于机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

机器学习——Word2Vec

参考资料： https://zhuanlan.zhihu.com/p/114538417 https://www.cnblogs.com/pinard/p/7243513.html 统计语言模型是基于语料库构建的概率模型，用来计算一个词串 W = ( w 1 , w 2 , ⋯ , w T ) W=(w_1,w_2,cdots,w_T) W = ( w 1 , w 2 , ⋯ , w T ) 构成句子的概率： p ( W ) = p ( w 1 , w 2 , ⋯ . w T ) = p

2024年02月11日
浏览(43)
论文辅助笔记：T2VEC一个疑虑：stackingGRUCell和GRU的区别在哪里？

在 nn.GRU 中， hn 表示每层的最后一个时间步的隐藏状态。这意味着，对于一个具有 seq_len 的输入序列， hn 会包含每层的 seq_len 时间步中的最后一个时间步的隐藏状态。在 StackingGRUCell 中， hn 是通过每层的 GRUCell 为给定的单一时间步计算得到的。所以，如果 seq_len 为1，那么

2024年02月06日
浏览(40)
深度学习笔记之Transformer(五) Position Embedding铺垫:Word2vec

在Transformer(三)自注意力机制一节中介绍了位置编码 ( Position Embedding ) (text{Position Embedding}) ( Position Embedding ) ，本系列针对位置编码再回首，从公式角度重新认识位置编码。本节作为铺垫，介绍一下词向量模型—— Word2vec text{Word2vec} Word2vec 。在循环神经网络简单示例中

2024年02月13日
浏览(34)
机器学习算法原理lightgbm、word2vec、cnn、lstm、textcnn、bert、transformer、随机森林、lr

首先需要说一说GBDT，它是一种基于决策树的集成算法，它使用的集成方法是boosting，其主要思想是通过多次迭代，每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差，最终得到一个准确度更高的模型。全称为Gradient Boosting Decision Tree。它是一种

2024年02月13日
浏览(37)
论文精读--word2vec

word2vec从大量文本语料中以无监督方式学习语义知识，是用来生成词向量的工具把文本分散嵌入到另一个离散空间，称作分布式表示，又称为词嵌入（word embedding）或词向量 We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The qua

2024年02月22日
浏览(48)
Wav2vec2 论文阅读看到的一些问题

这里只是简单的思考一下论文的一些问题，不是论文解读。 Q1. 为什么wav2vec依旧需要Transformer来做推理，而不直接使用VQ生成的内容？ A1. Transformer在更长的序列上有更好的编码效果，例如论文也写Contextualized representations with Transformers。另一个因素在于对比学习本质上是区分相

2024年02月13日
浏览(37)
D2L学习记录-10-词嵌入word2vec

《动手学深度学习 Pytorch 第1版》第10章自然语言处理第1、2、3 和 4节 (词嵌入) 词向量：自然语言中，词是表义的基本单元。词向量是用来表示词的向量。词嵌入 (word embedding)：将词映射为实数域向量的技术称为词嵌入。词嵌入出现的原因：由于 one-hot 编码的词向量不能准确

2024年02月14日
浏览(47)
深度学习的Natural Language Processing：从Word2Vec到BERT

自然语言处理（Natural Language Processing，NLP）是人工智能（Artificial Intelligence，AI）领域的一个重要分支，其目标是让计算机理解、生成和翻译人类语言。随着大数据、云计算和深度学习等技术的发展，深度学习的NLP（Deep Learning for NLP）在处理自然语言文本和语音的能力得到了显

2024年02月03日
浏览(38)
深度学习(3)--递归神经网络(RNN)和词向量模型Word2Vec

目录一.递归神经网络基础概念二.自然语言处理-词向量模型Word2Vec 2.1.词向量模型 2.2.常用模型对比 2.3.负采样方案 2.4.词向量训练过程递归神经网络(Recursive Neural Network, RNN)可以解决有时间序列的问题，处理诸如树、图这样的递归结构。 CNN主要应用在计算机视觉CV中，RNN主要

2024年01月21日
浏览(41)
Transformer通俗笔记：从Word2Vec、Seq2Seq逐步理解到GPT、BERT

我在写上一篇博客《22下半年》时，有读者在文章下面评论道：“july大神，请问BERT的通俗理解还做吗？”，我当时给他发了张俊林老师的BERT文章，所以没太在意。直到今天早上，刷到CSDN上一篇讲BERT的文章，号称一文读懂，我读下来之后，假定我是初学者，读不懂。关于

2024年02月02日
浏览(34)