Truncation Sampling as Language Model Desmoothing

这篇具有很好参考价值的文章主要介绍了Truncation Sampling as Language Model Desmoothing。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《Truncation Sampling as Language Model Desmoothing》的翻译。

摘要

来自神经语言模型的长文本样本可能质量较差。截断采样算法(如top-p或top-k)通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架,并为此目的提供了一种改进的算法。我们建议将神经语言模型视为真实分布和平滑分布的混合体,以避免无限的困惑。在这种情况下,截断算法的目的是执行去平滑,估计真实分布的支持子集。找到一个好的子集至关重要:我们表明,top-p不必要地截断了高概率单词,例如,对于以Donald开头的文档,导致它截断了除Trump之外的所有单词。我们引入了 η \eta η采样,它在熵相关概率阈值以下截断单词。与以前的算法相比, η \eta η采样根据人类生成了更可信的长英文文档,更善于打破重复,并且在一组测试分布上表现得更合理。

1 引言

2 背景

3 截断作为去平滑性

4 方法

5 实验与结果

6 相关工作

7 结论

我们已经将这类截断采样算法定义为执行去平滑,这一见解引出了如何进行截断以恢复训练分布的原则,一种新的截断采样算法,以及显示现有算法缺陷的评估。我们发现top-p解码过度截断下熵分布的趋势特别令人惊讶。我们的目标是获得这些见解和我们使用的评估,以推动进一步的研究,了解和改进我们如何从神经语言模型中生成。

8 不足

通过我们所做的分析,我们认为很难理解截断采样算法(包括我们的算法)所具有的所有序列级影响:我们不允许使用什么类型的序列?哪些类型或来源的语言(在不知不觉中)被禁止?除此之外,我们只在英语模型上测试了我们的算法;形态丰富的语言的条件分布可能具有不同的性质(尤其是子词模型)。文章来源地址https://www.toymoban.com/news/detail-687202.html

到了这里,关于Truncation Sampling as Language Model Desmoothing的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记:Large Language Models as Analogical Reasoners

    iclr 2024 reviewer打分5558 基于CoT prompt的大模型能够更好地解决复杂推理问题 然而传统CoT需要提供相关的例子作为指导,这就增加了人工标注的成本 ——Zero-shot CoT避免了人工标注来引导推理 但是对于一些复杂的任务难以完成推理,例如code generation ——论文提出一种“归纳学习

    2024年04月12日
    浏览(42)
  • Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022

    1)基于结构的知识嵌入 进一步分成基于翻译的模型和基于语义匹配的模型 基于翻译的模型采用基于距离的评分函数,TransE把实体和关系嵌入到一个维度为d的共享向量空间中;TransH,TransR,RotatE. 语义匹配模型采用基于相似性的评分函数,RESCAL,DistMult,CoKE. 2)基于描述的知识嵌入

    2024年02月07日
    浏览(46)
  • LLM(Large Language Model)大语言模型

    语言模型够大,训练的语料够多,涌现出推理能力飙升等   Generative Pre-trained Transformer 3(GPT-3)是最著名的LLM之一,拥有1750亿个参数。该模型在文本生成、翻译和其他任务中表现出显著的性能,在全球范围内引起了热烈的反响,目前OpenAI已经迭代到了GPT-4版本 Generative :能产

    2024年02月15日
    浏览(39)
  • 100% RNN language model ChatRWKV 相关开源项目

        RWKV(读作RwaKuv)借鉴了RNN的移动平均模型(MA),将transformer的 O ( T 2 d ) O(T^2d) O ( T 2 d ) 复杂度降低到 O ( T d ) O(Td) O ( T d ) ,同时保持较好的结果表现。RWKV也是一个开源模型,甚至其介绍主页的html代码都有开源。以下为发现的与RWKV相关的开源项目,其中包括模型结构,任

    2024年02月15日
    浏览(41)
  • ChatGLM基座:GLM(General Language Model)论文阅读笔记

    现在有很多Pretrain model 的架构, 如Bert、GPT、T5等,但是当时没有一种模型能在NLU、有条件文本生成、无条件文本生成都有很好的表现。 一般预训练模型架构分为三种:自回归(GPT系列)、自编码(Bert系列)、编码器-解码器(T5)。 作者概述了它们目前存在的问题·: GPT:单

    2024年02月02日
    浏览(43)
  • Shepherd: A Critic for Language Model Generation

    本文是LLM系列的相关文章,针对《Shepherd: A Critic for Language Model Generation》的翻译。 随着大型语言模型的改进,人们对利用这些模型的能力来完善其自身输出的技术越来越感兴趣。在这项工作中,我们介绍了Shepherd,这是一个专门针对批评模型响应和建议改进的语言模型,它超

    2024年02月12日
    浏览(47)
  • LLM - ChatGLM-6B (General Language Model) 的工程配置

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131104546 Paper: GLM: General Language Model Pretraining with Autoregressive Blank Infilling ChatGLM是通用的预训练语言模型(General Language Pretraining Model),基于自回归空格填充(Autoregressive Blank Infilling)

    2024年02月12日
    浏览(51)
  • 神经网络语言模型(Neural Network Language Model,NNLM)

    神经网络语言模型(Neural Network Language Model,NNLM)是一种用神经网络建模语言的方法。NNLM 通过学习文本序列中的词汇之间的概率关系,能够捕捉到语言的结构和语境,从而能够生成自然语言文本或进行其他与语言相关的任务。 想象一下,你正在阅读一本小说。每当你读到一

    2024年02月02日
    浏览(42)
  • Pytorch intermediate(四) Language Model (RNN-LM)

           前一篇中介绍了一种双向的递归神经网络,将数据进行正序输入和倒序输入,兼顾向前的语义以及向后的语义,从而达到更好的分类效果。        之前的两篇使用递归神经网络做的是分类,可以发现做分类时我们不需要使用时序输入过程中产生的输出,只需关注每

    2024年02月09日
    浏览(37)
  • Jamba: A Hybrid Transformer-Mamba Language Model

    相关链接:arXiv : hybrid architecture 、 Transformer 、 Mamba 、 mixture-of-experts (MoE) 、 language model 我们介绍了Jamba,一种新的基于新颖混合Transformer-Mamba混合专家(MoE)架构的基础大型语言模型。具体来说,Jamba交错了Transformer和Mamba层的块,享受两个模型家族的好处。在这些层

    2024年04月09日
    浏览(67)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包