Truncation Sampling as Language Model Desmoothing

这篇具有很好参考价值的文章主要介绍了Truncation Sampling as Language Model Desmoothing。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章，针对《Truncation Sampling as Language Model Desmoothing》的翻译。

摘要

来自神经语言模型的长文本样本可能质量较差。截断采样算法（如top-p或top-k）通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架，并为此目的提供了一种改进的算法。我们建议将神经语言模型视为真实分布和平滑分布的混合体，以避免无限的困惑。在这种情况下，截断算法的目的是执行去平滑，估计真实分布的支持子集。找到一个好的子集至关重要：我们表明，top-p不必要地截断了高概率单词，例如，对于以Donald开头的文档，导致它截断了除Trump之外的所有单词。我们引入了 $\eta$ 采样，它在熵相关概率阈值以下截断单词。与以前的算法相比， $\eta$ 采样根据人类生成了更可信的长英文文档，更善于打破重复，并且在一组测试分布上表现得更合理。

1 引言

2 背景

3 截断作为去平滑性

4 方法

5 实验与结果

6 相关工作

7 结论

我们已经将这类截断采样算法定义为执行去平滑，这一见解引出了如何进行截断以恢复训练分布的原则，一种新的截断采样算法，以及显示现有算法缺陷的评估。我们发现top-p解码过度截断下熵分布的趋势特别令人惊讶。我们的目标是获得这些见解和我们使用的评估，以推动进一步的研究，了解和改进我们如何从神经语言模型中生成。

8 不足

通过我们所做的分析，我们认为很难理解截断采样算法（包括我们的算法）所具有的所有序列级影响：我们不允许使用什么类型的序列？哪些类型或来源的语言（在不知不觉中）被禁止？除此之外，我们只在英语模型上测试了我们的算法；形态丰富的语言的条件分布可能具有不同的性质（尤其是子词模型）。文章来源地址https://www.toymoban.com/news/detail-687202.html

到了这里，关于Truncation Sampling as Language Model Desmoothing的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！