几种文本向量化方式原理简要介绍

这篇具有很好参考价值的文章主要介绍了几种文本向量化方式原理简要介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  • TfIdf

          TfIdf向量化是基于TF-IDF算法的一种文本向量化方法;TF-IDF全称:term frequency–inverse document frequency,词频-逆向文件频率,其主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

  • TfIdf-Decomp

           TfIdf-Decomp是基于TfIdf的向量化方法的变种;通过对初始TfIdf向量进行奇异值分解 (SVD) ,并截断,对初始向量进行线性降维,可以有效地处理稀疏矩阵。

  • Bert

          Bert是一种以多层Attention-based Transformer层堆叠的语言模型结构,并在大规模语料数据上训练字词语义关系的表示能力。基于Bert预训练模型的文本向量化方法支持四种模型输出层池化方式,分别为first-last-avg:取模型第一层和最后一层输出取平均,作为文本向量;last-avg:取模型最后一层输出平均;cls: 直接取模型CLS Token输出;pooler:取模型CLS Token输出,做tanh变换作为输出。支持上述全部Bert系列算法,如Bert-base, Albert, Roberta, FinBERT等模型类型;相较于TfIdf向量化可更好得表达文本的语义特征,缺点是转化性能相对较慢;

  • RoBERTa

          RoBERTa属于BERT的强化版本,在模型规模、算力和数据上,与BERT相比主要有几点改进:更大的模型参数量;更大bacth size;更多的训练数据;在训练方法上有以下改进:去掉NSP任务;动态掩码;文本编码:Byte-Pair Encoding(BPE)是字符级和词级别表征的混合,支持处理自然语言语料库中的众多常见词汇;

  • ERINE

           Enhanced Representation through Knowledge Integration,ERINE是百度发布一个预训练模型,它通过引入三种级别的Knowledge Masking帮助模型学习语言知识,在多项任务上超越了BERT。ERNIE将Knowledge分成了三个类别:token级别(Basic-Level)、短语级别(Phrase-Level) 和 实体级别(Entity-Level)。通过对这三个级别的对象进行Masking,提高模型对字词、短语的知识理解。 

  • Albert

          Albert在Bert基础上,加入3点优化:1-Embedding矩阵分解;2-跨层参数共享;3-替换NSP任务为SOP任务; 

  • SimBert

          SimBert是以Bert模型为基础,基于微软的UniLM思想设计的融检索与生成于一体的任务,来进一步微调后得到的模型;基于UniLM思想的训练方式,使得Simbert不仅和Bert一样,拥有表征文本句子本身语义特征的能力,还可以表征句子上下文语义相似性的能力,使得其同时适用于相似文本检索场景和相似文本生成场景;文本向量化方式同Bert一样,支持以上四种向量输出方式。

  • Bert-Whitening

          Bert-Whitening仍是以Bert模型为基础的文本向量化方法。首先取Bert向量化结果,后针对Bert向量化语义相似性任务中表现欠佳的现象,为了保证余弦相似度效果合理,把向量转化为向量坐标系为标准正交基的向量。结合标准正态分布的均值为0、协方差矩阵为单位阵原理,将句向量的均值变换为0、协方差矩阵变换为单位阵,对初始向量进行线性转换。同时BERT-whitening还支持降维操作,能达到提速又提效的效果降维的效果。文本向量化方式同Bert一样,支持以上四种向量输出方式。

  • Bert-flow

          Bert向量化对文本进行编码的向量存在各向异性,向量值会受文本中词在所有训练语料里的词频影响,导致高频词编码的句向量距离更近,更集中在原点附近。这会导致即使一个高频词和一个低频词的语义是等价的,但词频的差异也会带来很大的距离偏差,从而词向量的距离就不能很好地代表语义相关性。和人判断句子的语义不受词频影响也不符合,所以需要修正句子的向量分布。Bert-flow针对该问题,通过Bert生成的句向量输入到flow模型中,对句向量进行修正,在一定程度上提升了句向量语义相似度的表征能力;

  • SimCSE

          SimCSE是基于对比学习的算法框架,可支持有监督和无监督两种训练模式。针对无监督数据,通过将一句话分两次过同一个模型,但使用两种不同的dropout,这样得到的两个句向量作为模型的正例,而同一个batch中的其他句向量作为负例。SimCSE通过这种简单但有效的数据构造正负例数据方式,进行训练,通过对比学习,以拉近相似数据的距离,拉远不相似数据的距离为目标,更好地学习数据的表征,使得其在文本匹配任务中产生更好的效果;

  • ESimCSE

          ESimCSE是针对上述SimCSE的一个优化版框架;在无监督训练中,SimCSE通过dropout构建的正例对包含相同长度的信息,这会使模型倾向于认为相同或相似长度的句子在语义上更相似。ESimCSE调整构建正例对的方式,通过简单有效的“Word Repetition”数据增强方式,在不改变文本语义前提下,改变正例对句子的长度,有效缓解前述SimCSE的缺陷。并且ESimCSE还通过Momentum Contrast(动量对比学习)扩展负样本对的构建,鼓励模型进行更精细的学习,保证在合适的batch_size的前提下,得到较好的结构,对性能更友好;文章来源地址https://www.toymoban.com/news/detail-644774.html

到了这里,关于几种文本向量化方式原理简要介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 最全的整理:毫米波雷达在检测、分割、深度估计等多个方向的近期工作及简要介绍

    在之前,我已经有介绍过毫米波雷达在2D视觉任务上的一些经典网络[自动驾驶中雷达与相机融合的目标检测工作(多模态目标检测)整理 - Naca yu的文章 - 知乎],总结概括而言,其本质上都是对视觉任务的一种提升和辅助,主要的工作在于如何较好地在FOV视角中融合两种模态

    2024年02月10日
    浏览(33)
  • Java如何读取文件文本内容的几种方式汇总

    本文为joshua317原创文章,转载请注明:转载自joshua317博客 Java如何读取文件文本内容的几种方式汇总 - joshua317的博客 本文为joshua317原创文章,转载请注明:转载自joshua317博客 Java如何读取文件文本内容的几种方式汇总 - joshua317的博客

    2024年02月12日
    浏览(64)
  • 【TOTP】TOTP算法(基于时间的一次性动态密码)原理介绍 & 简要逻辑实现说明

    Time-base One-Time Password 翻译过来是 基于时间的一次性密码 。这里以QQ令牌为例,解释下TOTP。 首先,当用户首次使用QQ令牌时,服务器会向用户的手机APP上颁发一个证书/秘钥(这里理解为一个长的字符串,设为变量: secret ,颁发时间[unix时间戳]记为: createTimestamp ),单个临时

    2024年02月10日
    浏览(40)
  • 小程序(二十六)微信小程序解析富文本的几种方式

    微信小程序解析富文本html大概有两种方式(我发现的)。 两种方法,各有各的优缺点。 这个标签解析的富文本会保留你在pc端编辑的样式,也就是说,你在pc端编辑的是什么样子,小程序端显示的也是什么样子。 示例: Html Javascript: 上边这是微信小程序官方文档给出的示例

    2024年02月10日
    浏览(39)
  • 大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

    预训练属于迁移学习的范畴。现有的神经网络在进行训练时,一般基于反向传播(Back Propagation,BP)算法,先对网络中的参数进行随机初始化,再利用随机梯度下降(Stochastic Gradient Descent,SGD)等优化算法不断优化模型参数。而预训练的思想是,模型参数不再是随机初始化的

    2024年02月17日
    浏览(44)
  • 网络安全攻击方式有几种?常见类型介绍!

    渗透测试是为了证明网络防御按照预期计划正常运行而提供的一种机制。作为网络安全防范的一种新技术,渗透测试对于网络安全组织具有实际应用价值,那么你知道渗透测试的攻击方法有哪些吗?以下为大家详细介绍一下,希望对你们有所帮助。 目前国内外使用比较普遍的

    2024年02月11日
    浏览(33)
  • nginx负载均衡的几种配置方式介绍

    目录 一.负载均衡含义简介 二.nginx负载均衡配置方式 准备三台设备: 2.190均衡服务器,2.191web服务器1,2.160web服务器2,三台设备均安装nginx,两台web服务器均有网页内容 upstream内参数 1.一般轮询负载均衡 (1)含义 (2)配置 (3)测试 2.加权轮询负载均衡 (1)含义 (2)配置

    2024年02月13日
    浏览(36)
  • NLP(六十七)BERT模型训练后动态量化(PTDQ)

      本文将会介绍BERT模型训练后动态量化(Post Training Dynamic Quantization,PTDQ)。 量化   在深度学习中,量化(Quantization)指的是使用更少的bit来存储原本以浮点数存储的tensor,以及使用更少的bit来完成原本以浮点数完成的计算。这么做的好处主要有如下几点: 更少的模型

    2024年02月09日
    浏览(38)
  • OceanBase—01(入门篇——使用docker安装OceanBase以及介绍连接OB的几种方式)

    1.1.1 安装前提 安装了docker Linux下安装docker以及docker安装Oracle19c的全部详细过程及各种问题解决. 1.1.2 参考 参考官网: 使用 Docker 部署 OceanBase 数据库. 提示:这是安装之后的操作,需要的话可以,安装之后可以跳到这里看修改密码!!! 安装后默认密码为空,可以修改也可以

    2024年02月09日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包