WizardKM:Empowering Large Language Models to Follow Complex Instructions

这篇具有很好参考价值的文章主要介绍了WizardKM:Empowering Large Language Models to Follow Complex Instructions。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Introduction

作者表明当前nlp社区的指令数据比较单一,大部分都是总结、翻译的任务,但是在真实场景中,人们有各式各样的需求,这限制了模型的通用性。
作者提到这种人类标注的qa数据如果质量比较高,那么将很好的释放模型的性能,但是现在获取数据存在一些问题:

  1. 标注这类数据是非常费时费力的,并且十分昂贵。
  2. 由于labeler的专业程度有限,很难获取到优质的数据。

基于上述问题,作者提出了一个可以短时间内大量构建高质量数据的方法。
WizardKM:Empowering Large Language Models to Follow Complex Instructions
如上图,作者把这个方法叫做Evol-Instruct,从一个1+1等于多少开始,作者从两个方向对数据进行扩充:深度方向、广度方向。然后把问题送入ChatGPT获得qa数据对,然后对数据进行筛选。

为了验证这个方法的有效性,把用上述方法生成的数据,通过Llama7B微调,把它叫做WizardLM,然后与Alpaca、Vicuna进行对比。作者通过Alpaca的175条初始化数据通过Evol-Instrcut方法生成250k条数据,为了公平起见,作者在这些数据中sample了70k数据进行对比。

实验发现:

  1. Evol- instruct生成的数据优于ShareGPT的数据。
  2. 在复杂的测试指令下,标注者更喜欢WizardLM的输出,而不是ChatGPT的输出。

参考

https://arxiv.org/pdf/2304.12244.pdf文章来源地址https://www.toymoban.com/news/detail-429880.html

到了这里,关于WizardKM:Empowering Large Language Models to Follow Complex Instructions的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Enabling Large Language Models to Generate Text with Citations

    本文是LLM系列的文章,针对《Enabling Large Language Models to Generate Text with Citations》的翻译。 大型语言模型(LLM)已成为一种广泛使用的信息搜索工具,但其生成的输出容易产生幻觉。在这项工作中,我们的目标是使LLM能够生成带有引用的文本,提高其事实的正确性和可验证性。

    2024年02月12日
    浏览(55)
  • 论文系列之Applying Large Language Models API to Issue Classification Problem

    这些研究展示了自动标记issue类型的不同方法,以及如何利用自然语言处理(NLP)和机器学习技术来辅助开源软件(OSS)项目的维护者和新贡献者。 通过这种方法,研究者能够在较小的数据集上训练模型,并在个体项目中实现了高达93.2%的精度、95%的召回率和89.3%的F1分数。这

    2024年02月02日
    浏览(47)
  • 文献阅读:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

    文献阅读:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators 1. 文章简介 2. 方法介绍 3. 实验考察 1. 实验结果 2. 消解实验 3. Consistency Stability 4. 结论 思考 文献链接:https://arxiv.org/abs/2303.16854 这一篇文章是我司的另一篇关于GPT模型的Prompt工程调优的文章,不过这篇文章

    2024年02月12日
    浏览(45)
  • LLM论文:ALCE (Enabling Large Language Models to Generate Text with Citations)

    这是一篇RAG领域的文章,原文在这:https://aclanthology.org/2023.emnlp-main.398.pdf 时间 [Submitted on 24 May 2023 (v1), last revised 31 Oct 2023 (this version, v2)] 背景 LLM在信息搜索、生成带引用的文本时存在幻觉问题,即事实准确性有待提升,而且用户难以验证准确性。 现有工作的不足 人工评估或

    2024年01月16日
    浏览(47)
  • TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS

    本文是LLM系列的文章之一,针对《TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS》的翻译。 尽管开源大型语言模型(LLM)及其变体(如LLaMA和Vicuna)取得了进步,但它们在执行更高级别的任务方面仍然受到很大限制,例如遵循人类指令使用外部工具(API)。这是因

    2024年02月10日
    浏览(42)
  • 【人工智能】大语言模型简介 —— A Very Gentle Introduction to Large Language Models without the Hype

    目录 【人工智能】大语言模型简介 —— A Very Gentle Introduction to Large Language Models without the

    2024年02月06日
    浏览(45)
  • Why Large Language Models Hallucinate and How to solve this//LLM为什么产生幻觉以及如何应对

    \\\" Large language models (LLMs) can generate fluent and coherent text on various topics and domains, but they are also prone to hallucinations or generating plausible sounding nonsense. This can range from minor inconsistencies to completely fabricated or contradictory statements. The causes of hallucinations are related to data quality, generation methods an

    2024年02月11日
    浏览(45)
  • Automatically Correcting Large Language Models

    本文是大模型相关领域的系列文章,针对《Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies》的翻译。 大型语言模型(LLM)在一系列NLP任务中表现出了卓越的性能。然而,它们的功效被不受欢迎和不一致的行为所破坏,包括幻觉、不忠实的

    2024年02月12日
    浏览(58)
  • A Survey of Large Language Models

    本文是LLM系列的第一篇文章,针对《A Survey of Large Language Models》的翻译。 自从20世纪50年代提出图灵测试以来,人类一直在探索通过机器掌握语言智能。语言本质上是一个由语法规则控制的复杂的人类表达系统。开发能够理解和掌握语言的人工智能算法是一个重大挑战。在过

    2024年02月09日
    浏览(64)
  • 文献阅读:Large Language Models as Optimizers

    文献阅读:Large Language Models as Optimizers 1. 文章简介 2. 方法介绍 1. OPRO框架说明 2. Demo验证 1. 线性回归问题 2. 旅行推销员问题(TSP问题) 3. Prompt Optimizer 3. 实验考察 结论 1. 实验设置 2. 基础实验结果 1. GSM8K 2. BBH 3. 泛化性 3. 消融实验 1. meta-prompt 2. 生成prompt的数目 3. 起始点 4.

    2024年01月19日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包