【AI理论学习】语言模型:从Word Embedding到ELMo

这篇具有很好参考价值的文章主要介绍了【AI理论学习】语言模型:从Word Embedding到ELMo。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


本文主要介绍一种建立在LSTM基础上的ELMo预训练模型。2013年的Word2Vec及2014年的GloVe的工作中,每个词对应一个vector,对于多义词无能为力。ELMo的工作对于此,提出了一个较好的解决方案。不同于以往的一个词对应一个向量,是固定的。 在ELMo世界里,预训练好的模型不再只是向量对应关系,而是一个训练好的模型。使用时, 将一句话或一段话输入模型,模型会根据上线文来推断每个词对应的词向量。这样做之后明显的好处之一就是对于多义词,可以结合前后语境对多义词进行理解。比如apple,可以根据前后文语境理解为苹果公司或一种水果。可以说,ELMo的提出意味着从词嵌入(Word Embedding)时代进入了语境词嵌入(Contextualized Word-Embedding)时代。

ELMo原理

ELMo来自论文Deep contextualized word representations,它是”Embeddings from Language Models“的简称。从论文题目看,ELMo的核心思想主要体现在深度上下文(Deep Contextualized ࿰文章来源地址https://www.toymoban.com/news/detail-694291.html

到了这里,关于【AI理论学习】语言模型:从Word Embedding到ELMo的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HMM理论学习笔记-隐马尔可夫模型的三个元素、假设和问题

    初学HMM之前,先回忆一下概率论、信息论中学到的一些离散型随机变量的基本公式和概念,势必有助于后续公式推导的理解。 条件概率 条件概率表示在条件Y=b成立的情况下,X=a的概率。 A,B相互独立时, P ( B ∣ A ) = P ( B ) , P ( A ∣ B ) = P ( A ) P(B|A)=P(B),P(A|B)=P(A) P ( B ∣ A

    2024年02月01日
    浏览(43)
  • 深度学习卷积神经网络CNN之 VGGNet模型主vgg16和vgg19网络模型详解说明(理论篇)

    1.VGG背景 2. VGGNet模型结构 3. 特点(创新、优缺点及新知识点)    VGGNet是2014年ILSVRC(ImageNet Large Scale Visual Recognition Challenge 大规模视觉识别挑战赛 )竞赛的第二名,解决ImageNet中的 1000类图像分类和定位问题 ,第一名是GoogLeNet。    VGG全称是Visual Geometry Group,因为是由O

    2024年02月03日
    浏览(39)
  • 【机器学习】集成学习(理论)

    集成学习(Ensemble Learning),通过构建并结合多个学习器来完成学习任务。一般结构是:先产生一组“个体学习器”,再用某种策略将它们结合起来。结合策略主要有平均法、投票法和学习法等。因此,有时也称集成学习为多学习器系统(multiclassifier system)、基于委员会的学习

    2024年02月03日
    浏览(50)
  • 【机器学习】四、计算学习理论

    计算学习理论(computational learning theory):关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法体统理论保证,并根据结果指导算法设计。 对于二分类问题,给定样本集 假设所有样本服从一个隐含未知的分布

    2024年02月06日
    浏览(48)
  • 【自然语言处理】【深度学习】文本向量化、one-hot、word embedding编码

    因为文本不能够直接被模型计算,所以需要将其转化为向量 把文本转化为向量有两种方式: 转化为one-hot编码 转化为word embedding 在one-hot编码中,每一个token使用一个长度为N的向量表示,N表示词典的数量。 即:把待处理的文档进行分词或者是N-gram处理,然后进行去重得到词典

    2024年01月24日
    浏览(53)
  • 机器学习理论笔记(一):初识机器学习

    尊敬的读者们,大家好!欢迎来到我的全新专栏:《蓝色是天的机器学习笔记》。我感到无比兴奋,能够在这里与各位分享我对机器学习的热爱与探索。这个专栏将成为我记录机器学习知识、交流心得的温馨角落,而这篇文章正是专栏的第一步。 作为机器学习领域的狂热爱好

    2024年02月12日
    浏览(48)
  • 【Python机器学习】深度学习——一些理论知识

            深度学习在很多机器学习应用中都有巨大的潜力,但深度学习算法往往经过精确调整,只适用于特定的使用场景。先学习一些简单的方法,比如用于分类和回归的多层感知机(MLP),它可以作为研究更复杂的深度学习方法的起点。MPL也被称为(普通)前馈神经网络,

    2024年01月16日
    浏览(48)
  • 孤子理论学习(一)

    最简单的波的典型例子就是声波和电磁波,它们可以用下面的方程描述:   ( ∂ 2 ∂ t 2 − v 0 2 ∂ 2 ∂ x 2 ) f ( x , t ) = 0   (1.1) (frac{partial^2}{partial t^2}-v_0^2frac{partial^2}{partial x^2})f(x,t)=0 ,tag{1.1}   ( ∂ t 2 ∂ 2 ​ − v 0 2 ​ ∂ x 2 ∂ 2 ​ ) f ( x , t ) = 0 ( 1.1 ) 其中, v 0 v_0

    2024年02月07日
    浏览(45)
  • Transformer理论学习

    Transformer出自于论文《attention is all you need》。 一些主流的序列模型主要依赖于复杂的循环结构或者CNN,这里面包含了编解码器等。而Transformer主要的结构是 基于注意力机制 ,而且是用多头注意力机制去替换网络中的循环或者CNN(换言之就是 transformer 这个网络模型是不需要循环

    2024年02月13日
    浏览(44)
  • 理论学习-ARM-内核

    为了提高学习效率,我们要提前想好学习策略。 首先,使用频率越高的知识点,越要首先学习。假使,我们学习了一个知识点,能覆盖工作中80%的工作量,那是不是很夸张的学习效率?! 其次,有两种覆盖知识点,梳理知识点的策略。一种是将知识按体系划分,挨个学习,

    2024年02月22日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包