EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS

这篇具有很好参考价值的文章主要介绍了EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章，针对《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻译。

摘要

在本文中，我们建立了一个名为HalluQA (Chinese Hallucination question - answers)的基准来测量中文大型语言模型中的幻觉现象。HalluQA包含450个精心设计的对抗性问题，跨越多个领域，并考虑到中国的历史文化，习俗和社会现象。在构建HalluQA的过程中，我们考虑了两种类型的幻觉:模仿虚假和事实错误，并基于GLM-130B和ChatGPT构建了对抗性样本。为了评估，我们设计了一种使用GPT-4的自动评估方法来判断模型输出是否存在幻觉。我们在ERNIE-Bot、百川2、ChatGLM、Qwen、SparkDesk等24个大型语言模型上进行了大量的实验。在24个模型中，18个模型的无幻觉率低于50%。这表明《HalluQA》具有很高的挑战性。我们分析了不同类型模型中幻觉的主要类型及其原因。此外，我们还讨论了不同类型的模型应该优先考虑哪种类型的幻觉。

1 引言

2 HALLUQA基准

3 实验

4 讨论

5 相关工作

6 结论

在这项工作中，我们创建了一个名为HalluQA的中文幻觉问答数据集，用于评估中文大型语言模型中的幻觉。HalluQA中的问题可以用来衡量假性谎言和事实性错误。设计了一种基于llm的自动化评价方法，并验证了其有效性。我们在24个大型语言模型上进行了大量的实验。所有模型在HalluQA上的非幻觉率都低于70%，这证明了我们数据集的挑战性。根据实验结果，我们进一步分析了不同模型的初级幻觉类型，并讨论了不同模型需要优先考虑和解决的类型。我们希望HalluQA可以帮助减少中文大型语言模型中的幻觉问题，提高模型的可信度。文章来源地址https://www.toymoban.com/news/detail-727523.html

到了这里，关于EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！