TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS

这篇具有很好参考价值的文章主要介绍了TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列的文章之一,针对《TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS》的翻译。

摘要

尽管开源大型语言模型(LLM)及其变体(如LLaMA和Vicuna)取得了进步,但它们在执行更高级别的任务方面仍然受到很大限制,例如遵循人类指令使用外部工具(API)。这是因为当前的指令调优主要集中在基本的语言任务上,而不是工具使用领域。这与最先进的(SOTA)LLM(例如,ChatGPT)形成了鲜明对比,后者展示了出色的工具使用能力,但不幸的是,它们是封闭源代码的。为了促进开源LLM中的工具使用能力,我们引入了ToolLLM,这是一个数据构建、模型训练和评估的通用工具使用框架。我们首先介绍了ToolBench,这是一个用于工具使用的指令调优数据集,它是使用ChatGPT自动创建的。具体来说,我们从RapidAPI Hub收集了16464个真实世界的RESTful API,涵盖49个类别,然后提示ChatGPT生成涉及这些API的各种人工指令,涵盖单工具和多工具场景。最后,我们使用ChatGPT为每条指令搜索有效的解决方案路径(API调用链)。为了提高搜索过程的效率,我们开发了一种新的基于深度优先搜索的决策树(DFSDT),使LLM能够评估多个推理轨迹并扩展搜索空间。我们表明,DFSDT显著增强了LLM的规划和推理能力。为了进行有效的工具使用评估,我们开发了一个自动评估器:ToolEval。我们在ToolBench上微调LLaMA并获得ToolLLaMA。我们的ToolEval表明,ToolLLaMA表现出执行复杂指令和泛化到看不见的API的非凡能力,并表现出与ChatGPT相当的性能。为了使管道更实用,我们设计了一个神经API检索器,为每条指令推荐合适的API,从而消除了手动选择API的需要。代码、经过训练的模型和演示可在https://github.com/OpenBMB/ToolBench.

1 引言

2 数据集构建

3 实验

4 相关工作

5 结论

这项工作介绍了如何在LLM中获得工具使用能力。我们提供了一个指令调优数据集ToolBench,它涵盖了16k以上的真实世界API和各种实际用例场景,包括单工具和多工具任务。ToolBench的构建完全使用ChatGPT,并且需要最少的人工监督。此外,我们提出了DFSDT来增强LLM的规划和推理能力,使其能够战略性地在推理路径中导航。为了有效评估工具学习,我们设计了一个自动评估器ToolEval。通过在ToolBench上对LLaMA进行微调,获得的模型ToolLLaMA与ChatGPT的性能相匹配,并对看不见的API表现出显著的泛化能力。此外,我们还开发了一个神经API检索器,为每条指令推荐相关的API。检索器可以与ToolLLaMA集成,作为一个更自动化的工具使用管道。总的来说,这项工作为LLM的指令调整和工具使用的交叉研究铺平了道路。文章来源地址https://www.toymoban.com/news/detail-695762.html

到了这里,关于TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 文献阅读:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

    文献阅读:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators 1. 文章简介 2. 方法介绍 3. 实验考察 1. 实验结果 2. 消解实验 3. Consistency Stability 4. 结论 思考 文献链接:https://arxiv.org/abs/2303.16854 这一篇文章是我司的另一篇关于GPT模型的Prompt工程调优的文章,不过这篇文章

    2024年02月12日
    浏览(30)
  • LLM论文:ALCE (Enabling Large Language Models to Generate Text with Citations)

    这是一篇RAG领域的文章,原文在这:https://aclanthology.org/2023.emnlp-main.398.pdf 时间 [Submitted on 24 May 2023 (v1), last revised 31 Oct 2023 (this version, v2)] 背景 LLM在信息搜索、生成带引用的文本时存在幻觉问题,即事实准确性有待提升,而且用户难以验证准确性。 现有工作的不足 人工评估或

    2024年01月16日
    浏览(34)
  • 【人工智能】大语言模型简介 —— A Very Gentle Introduction to Large Language Models without the Hype

    目录 【人工智能】大语言模型简介 —— A Very Gentle Introduction to Large Language Models without the

    2024年02月06日
    浏览(32)
  • Why Large Language Models Hallucinate and How to solve this//LLM为什么产生幻觉以及如何应对

    \\\" Large language models (LLMs) can generate fluent and coherent text on various topics and domains, but they are also prone to hallucinations or generating plausible sounding nonsense. This can range from minor inconsistencies to completely fabricated or contradictory statements. The causes of hallucinations are related to data quality, generation methods an

    2024年02月11日
    浏览(30)
  • Automatically Correcting Large Language Models

    本文是大模型相关领域的系列文章,针对《Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies》的翻译。 大型语言模型(LLM)在一系列NLP任务中表现出了卓越的性能。然而,它们的功效被不受欢迎和不一致的行为所破坏,包括幻觉、不忠实的

    2024年02月12日
    浏览(44)
  • 文献阅读:Large Language Models as Optimizers

    文献阅读:Large Language Models as Optimizers 1. 文章简介 2. 方法介绍 1. OPRO框架说明 2. Demo验证 1. 线性回归问题 2. 旅行推销员问题(TSP问题) 3. Prompt Optimizer 3. 实验考察 结论 1. 实验设置 2. 基础实验结果 1. GSM8K 2. BBH 3. 泛化性 3. 消融实验 1. meta-prompt 2. 生成prompt的数目 3. 起始点 4.

    2024年01月19日
    浏览(27)
  • A Survey of Large Language Models

    本文是LLM系列的第一篇文章,针对《A Survey of Large Language Models》的翻译。 自从20世纪50年代提出图灵测试以来,人类一直在探索通过机器掌握语言智能。语言本质上是一个由语法规则控制的复杂的人类表达系统。开发能够理解和掌握语言的人工智能算法是一个重大挑战。在过

    2024年02月09日
    浏览(52)
  • 吴恩达ChatGPT《Finetuning Large Language Models》笔记

    课程地址:https://learn.deeplearning.ai/finetuning-large-language-models/lesson/1/introduction 动机:虽然编写提示词(Prompt)可以让LLM按照指示执行任务,比如提取文本中的,或者对文本进行情绪分类。但是,微调LLM,可以让其更一致地做具体的任务。例如,微调LLM对话时的语气。 课

    2024年02月07日
    浏览(29)
  • 论文笔记:Large Language Models as Analogical Reasoners

    iclr 2024 reviewer打分5558 基于CoT prompt的大模型能够更好地解决复杂推理问题 然而传统CoT需要提供相关的例子作为指导,这就增加了人工标注的成本 ——Zero-shot CoT避免了人工标注来引导推理 但是对于一些复杂的任务难以完成推理,例如code generation ——论文提出一种“归纳学习

    2024年04月12日
    浏览(30)
  • Can We Edit Multimodal Large Language Models?

    本文是LLM系列文章,针对《Can We Edit Multimodal Large Language Models?》的翻译。 本文主要研究多模态大语言模型(Multimodal Large Language Models, mllm)的编辑。与编辑单模态LLM相比,编辑多模态模型更具挑战性,在编辑过程中需要更高水平的审查和仔细考虑。为了促进这一领域的研究,我

    2024年02月07日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包