2.自然语言处理NLP:词映射为向量——词嵌入(word embedding)

这篇具有很好参考价值的文章主要介绍了2.自然语言处理NLP:词映射为向量——词嵌入(word embedding)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 什么是词嵌入(word2vec)

把词映射为向量(实数域)的技术

2. 为什么不采用one-hot向量:

one-hot词向量无法准确表达不同词之间的相似度,eg:余弦相似度,表示夹角之间的余弦值,无法表达不同词之间的相似度。

3. word2vec主要包含哪两个模型

跳字模型:基于某个词生成它周围的词(每个词表示为两个d维向量用来计算条件概率)eg: the man loves his son, 可以给定中心词“loves”, 生成距离不超过两个词的条件概率(P(the、man、his、 son | loves),即P(the|loves).......

连续词袋模型: 与跳字模型基本类似,最大的不同在于基于某中心词再文本序列前后的背景词来生成该中心词。(P(loves|the、man、his、son), 即P(love|the)

4. 模型的重要因素

跳字模型:我们通过最大化似然估计来学习模型参数,等价于最小化以下损失函数

2.自然语言处理NLP:词映射为向量——词嵌入(word embedding)

定义损失函数: 最大化似然估计等价于最小化损失函数

2.自然语言处理NLP:词映射为向量——词嵌入(word embedding)

5. 如何降低计算复杂度(近似训练)?

负采样:负采样通过考虑同时含有正样本和负样本的相互独立事件来构造损失函数。其训练中每一步的梯度计算开销与采样的个数线性相关。

层序softmax:使用了二叉树,并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大小的对数相关。

6. 如何训练

构造嵌入层:将中心词和背景词由索引变为向量,定义超参数向量维度。

小批量乘法:中心词(批量大小,1)、背景词(批量大小,max_len) ,通过小批量乘法得到输出(批量大小,1, max_len),输出的每个元素是中心词向量和背景词向量的内积。

定义损失函数:根据负采样中损失函数的定义,可以直接使用Gluon的二元交叉熵损失函数。

定义训练模型:可以通过负采样进行训练。

7. 全局向量的词嵌入

子词嵌入(fastText):在跳字模型的基础上,将中心词向量表示成单词的子向量之和。(eg:dogs,dogcatcher都有相同的词根)

全局向量的词嵌入(GloVe):在有些情况下,交叉熵损失函数有劣势,GloVe采用了平方损失,并通过词向量拟合预先基于整个数据集计算得到的全局统计信息。任意词的中心词向量和背景词向量在GloVe模型中是等价的。文章来源地址https://www.toymoban.com/news/detail-461026.html

引用:  动手学深度学习 李沐

到了这里,关于2.自然语言处理NLP:词映射为向量——词嵌入(word embedding)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【自然语言处理(NLP)】基于Skip-gram实现Word2Vec

    活动地址:[CSDN21天学习挑战赛](https://marketing.csdn.net/p/bdabfb52c5d56532133df2adc1a728fd) 作者简介 :在校大学生一枚,华为云享专家,阿里云星级博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPCC)志愿者,以及编程

    2024年02月09日
    浏览(37)
  • NLP自然语言处理理论解释(单词分布式表示,共现矩阵,word2vec,CBOW模型详解)

    自然语言处理:一种能让计算机理解人类语言的技术,换而言之自然语言处理的目标就是让计算机理解人说的话, 单词的含义 让计算机理解语言,首先要理解我们的单词,有三种方法,1.基于同义词词典,2.基于计数方法,3.基于推理的方法(word2vec)。 单词分布式表示 大家都

    2024年02月03日
    浏览(33)
  • 【自然语言处理】自然语言处理 --- NLP入门指南

    NLP的全称是 Natuarl Language Processing ,中文意思是自然语言处理,是人工智能领域的一个重要方向 自然语言处理(NLP)的一个最伟大的方面是跨越多个领域的计算研究,从人工智能到计算语言学的多个计算研究领域都在研究计算机与人类语言之间的相互作用。它主要关注计算机

    2024年02月03日
    浏览(44)
  • NLP(自然语言处理)

     一、NLP是什么 自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究

    2024年02月02日
    浏览(42)
  • 自然语言处理-NLP

    目录 自然语言处理-NLP 致命密码:一场关于语言的较量 自然语言处理的发展历程 兴起时期 符号主义时期 连接主义时期 深度学习时期 自然语言处理技术面临的挑战 语言学角度 同义词问题 情感倾向问题 歧义性问题 对话/篇章等长文本处理问题 探索自然语言理解的本质问题

    2024年02月11日
    浏览(61)
  • 自然语言处理(NLP)

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月08日
    浏览(35)
  • 自然语言处理NLP介绍——NLP简介

    2024年02月15日
    浏览(57)
  • 自然语言处理2-NLP

    目录 自然语言处理2-NLP 如何把词转换为向量 如何让向量具有语义信息 在CBOW中 在Skip-gram中 skip-gram比CBOW效果更好 CBOW和Skip-gram的算法实现 Skip-gram的理想实现 Skip-gram的实际实现 在自然语言处理任务中, 词向量(Word Embedding)是表示自然语言里单词的一种方法 ,即把每个词都表

    2024年02月11日
    浏览(56)
  • 聊聊自然语言处理NLP

    自然语言处理(NLP)的正式定义:是一个使用计算机科学、人工智能(AI)和形式语言学概念来分析自然语言的研究领域。不太正式的定义表明:它是一组工具,用于从自然语言源(如web页面和文本文档)获取有意义和有用的信息。 NLP工具的实现一般是基于机器学习与深度学习、其它

    2024年02月14日
    浏览(53)
  • 自然语言处理(NLP)技术

            自然语言处理技术是一种人工智能技术,它的目标是使计算机能够理解、分析、处理和生成自然语言(人类使用的语言)。NLP技术包括文本分类、情感分析、机器翻译、语音识别、语音合成、信息检索、信息抽取、问答系统等。NLP技术的应用非常广泛,例如智能客

    2024年02月14日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包