1、BLEU:
BLEU思想(越大越好):比较候选译文和参考译文里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性,高阶n-gram用于衡量句子翻译的流畅性。
2、ROUGE:
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)专注于召回率(关注有多少个参考译句中的 n- gram出现在了输出之中)而非精度(候选译文中的n-gram有没有在参考译文中出现过)。文章来源:https://www.toymoban.com/news/detail-581718.html
- rouge-n:基于ngram共现性统计
- rouge-l:基于最长公共子序列的共现性召回率和精确率的F1计算
- rough-w:带权重的最长公共子序列的的共现性召回率和精确率的F1计算
- rouge-s:不连续二元组共现性召回率和精确率的F1计算
- 一般用:bleu-4, rouge-l, rouge-1, rouge-2
Reference:
https://blog.csdn.net/u012744245/article/details/123589005文章来源地址https://www.toymoban.com/news/detail-581718.html
到了这里,关于NLP | 生成任务指标: BLEU, ROUGE的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!