EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS

这篇具有很好参考价值的文章主要介绍了EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻译。

摘要

在本文中,我们建立了一个名为HalluQA (Chinese Hallucination question - answers)的基准来测量中文大型语言模型中的幻觉现象。HalluQA包含450个精心设计的对抗性问题,跨越多个领域,并考虑到中国的历史文化,习俗和社会现象。在构建HalluQA的过程中,我们考虑了两种类型的幻觉:模仿虚假和事实错误,并基于GLM-130B和ChatGPT构建了对抗性样本。为了评估,我们设计了一种使用GPT-4的自动评估方法来判断模型输出是否存在幻觉。我们在ERNIE-Bot、百川2、ChatGLM、Qwen、SparkDesk等24个大型语言模型上进行了大量的实验。在24个模型中,18个模型的无幻觉率低于50%。这表明《HalluQA》具有很高的挑战性。我们分析了不同类型模型中幻觉的主要类型及其原因。此外,我们还讨论了不同类型的模型应该优先考虑哪种类型的幻觉。

1 引言

2 HALLUQA基准

3 实验

4 讨论

5 相关工作

6 结论

在这项工作中,我们创建了一个名为HalluQA的中文幻觉问答数据集,用于评估中文大型语言模型中的幻觉。HalluQA中的问题可以用来衡量假性谎言和事实性错误。设计了一种基于llm的自动化评价方法,并验证了其有效性。我们在24个大型语言模型上进行了大量的实验。所有模型在HalluQA上的非幻觉率都低于70%,这证明了我们数据集的挑战性。根据实验结果,我们进一步分析了不同模型的初级幻觉类型,并讨论了不同模型需要优先考虑和解决的类型。我们希望HalluQA可以帮助减少中文大型语言模型中的幻觉问题,提高模型的可信度。文章来源地址https://www.toymoban.com/news/detail-727523.html

到了这里,关于EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    原文链接: Making Large Language Models Perform Better in Knowledge Graph Completion 基于大语言模型(LLM)的知识图补全(KGC) 旨在利用 LLM 预测知识图谱中缺失的三元组 ,并丰富知识图谱,使其成为更好的网络基础设施,这可以使许多基于网络的自动化服务受益。然而,基于LLM的KGC研究有

    2024年01月23日
    浏览(36)
  • 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》全文翻译

    题目:《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》 作者:Jason Wei and et al. 会议: NeurlPS 2022 内容概述:论文探索如何生成一个思想链(一系列中间推理步骤)来显着提高大型语言模型执行复杂推理的能力。 我们探索生成一条思维链(一系列中间推理步骤)如何显

    2024年02月09日
    浏览(37)
  • 文献阅读:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    文献阅读:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 1. 文章简介 2. 具体方法 3. 实验结果 1. 数学推理 1. 实验设计 2. 实验结果 3. 消解实验 4. 鲁棒性考察 2. 常识推理 1. 实验设计 2. 实验结果 3. 符号推理 1. 实验设计 2. 实验结果 4. 结论 思考 文献链接:https://arxiv.or

    2024年02月10日
    浏览(35)
  • (论文阅读)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    论文地址 https://openreview.net/pdf?id=_VjQlMeSB_J         我们探索如何生成一个思维链——一系列中间推理步骤——如何显著提高大型语言模型执行复杂推理的能力。 特别是,我们展示了这种推理能力如何通过一种称为思维链提示的简单方法自然地出现在足够大的语言模型中,

    2024年02月08日
    浏览(89)
  • Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement

    文章链接 核心思想是通过instruction让LLM来优化问题本身,从而达到更好的效果,且这种针对问题的优化可以跟其他的prompt技术,如CoT或者Least-to-Most相结合。 作者提出了一些重述问题的准则: (1)简短:问题不要太长,确保容易理解 (2)清晰:问题表述清晰,能量化的部分

    2024年02月08日
    浏览(30)
  • [论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models

    TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models arXiv2023 复旦大学 Benchmark、Continual Learing、LLMs 已经对齐过的大模型 (Aligned LLMs )能力很强,但持续学习能力缺乏关注; 目前CL的benchmark对于顶尖的LLMs来说过于简单,并且在指令微调存在model的potential exposure。(这里的

    2024年01月18日
    浏览(45)
  • 论文解读:Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

    核心要点 针对大模型幻觉问题进行综述,从detection、explanation和mitigation三个方面进行介绍; 对幻觉现象和评估基准进行归纳,分析现有的缓解幻觉的方法,讨论未来潜在的研究发展 相关文献整理:https://github.com/HillZhang1999/llm-hallucination-survey 一、什么是大模型的幻觉 大模型

    2024年02月02日
    浏览(40)
  • 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思维链】

    思维链,是一系列中间推理步骤,可以显著提高大语言模型执行复杂推理的能力。 思维链:一种简单的提示方法,通过一系列的中间推理步骤,可以大大提高大语言模型执行复杂推理的能力。 下图为使用标准提示词和使用思维链提示词的输出的区别: 与传统Prompt的区别:

    2024年04月23日
    浏览(23)
  • 【论文笔记】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

    将LLMs应用于医学,以协助医生和病人护理,成为人工智能和临床医学领域的一个有前景的研究方向。为此, 本综述提供了医学中LLMs当前进展、应用和面临挑战的全面概述 。 具体来说,旨在回答以下问题: 1)什么是LLMs,如何构建医学LLMs? 2)医学LLMs的下游表现如何? 3)

    2024年02月03日
    浏览(31)
  • 【EAI 010】MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

    论文标题:MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World 论文作者:Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang Gan 作者单位:UMass Amherst, UCLA, MIT-IBM Watson AI Lab 论文原文:https://arxiv.org/abs/2401.08577 论文出处:– 论文被引:–(02/02/2024) 项目主页:

    2024年02月22日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包