Can Large Language Models Understand Real-World Complex Instructions?

这篇具有很好参考价值的文章主要介绍了Can Large Language Models Understand Real-World Complex Instructions?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《Can Large Language Models Understand Real-World Complex Instructions?》的翻译。

摘要

大型语言模型(llm)可以理解人类指令,显示出它们在传统NLP任务之外的实用应用潜力。然而,它们仍然在与复杂的指令作斗争,这些指令可能是需要多个任务和约束的复杂任务描述,也可能是包含长上下文、噪声、异构信息和多回合格式的复杂输入。由于这些特性,llm经常忽略任务描述中的语义约束,生成不正确的格式,违反长度或样本计数约束,并且不忠实于输入文本。现有的基准不足以评估LLM理解复杂指令的能力,因为它们是封闭和简单的。为了弥补这一差距,我们提出了CELLO,一个评估LLM系统地遵循复杂指令的能力的基准。我们为复杂的指令设计了8个特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准,并制定了相应的度量标准,因为目前的标准是不充分的,有偏差的或过于严格和粗粒度的。我们通过大量的实验比较了具有代表性的汉语模型和英语模型在遵循复杂指令方面的表现。CELLO的资源可在https://github.com/Abbey4799/CELLO上公开获取。

引言

相关工作

CELLO基准

实验

结论

在这项工作中,我们系统地研究了LLM的复杂理解能力。我们建立了包含8个特征的复杂指令识别框架,并提出了两阶段的数据集构建框架,最终构建了中文复杂指令评价数据集。此外,我们设计了四个评估标准和相应的指标来评估LLM的复杂指令理解能力。此外,我们进行了大量的实验来比较基准测试中代表性模型的性能。文章来源地址https://www.toymoban.com/news/detail-727158.html

到了这里,关于Can Large Language Models Understand Real-World Complex Instructions?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】Can Large Language Models Empower Molecular Property Prediction?

    作者:Chen Qian, Huayi Tang, Zhirui Yang 文章链接:Can Large Language Models Empower Molecular Property Prediction? 代码链接:Can Large Language Models Empower Molecular Property Prediction?  分子属性预测得到巨大的关注,分子图能够被描述为图结构的数据或SMILES (Simplified Molecular-Input Line-Entry System)文本。L

    2024年01月20日
    浏览(54)
  • 论文阅读- 人工智能安全 TEXTBUGGER: Generating Adversarial Text Against Real-world Applications

     背景:  Deep Learning-based Text Understanding (DLTU)简介: 基于深度学习的文本理解(DLTU)广泛运用于问答、机器翻译和文本分类,情感分析(eg 电影评论分类)、有害内容检测(讽刺、讽刺、侮辱、骚扰和辱骂内容)等安全敏感应用中。 DLTU天生容易受到对抗性文本攻击,在对抗性

    2024年01月22日
    浏览(38)
  • Detection-friendly dehazing: object detection in real-world hazy scenes

    提出了一种联合架构BAD-Net,将去雾模块和检测模块连接成一个端到端的方法。另外,设计了了两个分支结构,用注意力融合模块来充分结合有雾和去雾特征,这减少了在检测模块不好的影响,当去雾模块表现不好时。此外,引入了一种自监督雾度鲁棒损失,使检测模块能够处

    2024年01月18日
    浏览(34)
  • Automatically Correcting Large Language Models

    本文是大模型相关领域的系列文章,针对《Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies》的翻译。 大型语言模型(LLM)在一系列NLP任务中表现出了卓越的性能。然而,它们的功效被不受欢迎和不一致的行为所破坏,包括幻觉、不忠实的

    2024年02月12日
    浏览(54)
  • A Survey of Large Language Models

    本文是LLM系列的第一篇文章,针对《A Survey of Large Language Models》的翻译。 自从20世纪50年代提出图灵测试以来,人类一直在探索通过机器掌握语言智能。语言本质上是一个由语法规则控制的复杂的人类表达系统。开发能够理解和掌握语言的人工智能算法是一个重大挑战。在过

    2024年02月09日
    浏览(61)
  • 文献阅读:Large Language Models as Optimizers

    文献阅读:Large Language Models as Optimizers 1. 文章简介 2. 方法介绍 1. OPRO框架说明 2. Demo验证 1. 线性回归问题 2. 旅行推销员问题(TSP问题) 3. Prompt Optimizer 3. 实验考察 结论 1. 实验设置 2. 基础实验结果 1. GSM8K 2. BBH 3. 泛化性 3. 消融实验 1. meta-prompt 2. 生成prompt的数目 3. 起始点 4.

    2024年01月19日
    浏览(38)
  • 吴恩达ChatGPT《Finetuning Large Language Models》笔记

    课程地址:https://learn.deeplearning.ai/finetuning-large-language-models/lesson/1/introduction 动机:虽然编写提示词(Prompt)可以让LLM按照指示执行任务,比如提取文本中的,或者对文本进行情绪分类。但是,微调LLM,可以让其更一致地做具体的任务。例如,微调LLM对话时的语气。 课

    2024年02月07日
    浏览(42)
  • Explainability for Large Language Models: A Survey

    本文是LLM系列文章,针对《Explainability for Large Language Models: A Survey》的翻译。 大型语言模型(llm)在自然语言处理方面已经展示了令人印象深刻的能力。然而,它们的内部机制仍然不清楚,这种透明度的缺乏给下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明

    2024年02月07日
    浏览(34)
  • A Survey on Multimodal Large Language Models

    本文是LLM系列的文章之一,主要是讲解多模态的LLM。针对《A Survey on Multimodal Large Language Models》的翻译。 多模态大语言模型(MLLM)是近年来兴起的一个新的研究热点,它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力,如基于图像写故事和无OCR的

    2024年02月12日
    浏览(94)
  • EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS

    本文是LLM系列文章,针对《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻译。 在本文中,我们建立了一个名为HalluQA (Chinese Hallucination question - answers)的基准来测量中文大型语言模型中的幻觉现象。HalluQA包含450个精心设计的对抗性问题,跨越多个领域,并考虑到中国的历

    2024年02月07日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包