TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS-Toy模板网

这篇具有很好参考价值的文章主要介绍了TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列的文章之一，针对《TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS》的翻译。

摘要

尽管开源大型语言模型（LLM）及其变体（如LLaMA和Vicuna）取得了进步，但它们在执行更高级别的任务方面仍然受到很大限制，例如遵循人类指令使用外部工具（API）。这是因为当前的指令调优主要集中在基本的语言任务上，而不是工具使用领域。这与最先进的（SOTA）LLM（例如，ChatGPT）形成了鲜明对比，后者展示了出色的工具使用能力，但不幸的是，它们是封闭源代码的。为了促进开源LLM中的工具使用能力，我们引入了ToolLLM，这是一个数据构建、模型训练和评估的通用工具使用框架。我们首先介绍了ToolBench，这是一个用于工具使用的指令调优数据集，它是使用ChatGPT自动创建的。具体来说，我们从RapidAPI Hub收集了16464个真实世界的RESTful API，涵盖49个类别，然后提示ChatGPT生成涉及这些API的各种人工指令，涵盖单工具和多工具场景。最后，我们使用ChatGPT为每条指令搜索有效的解决方案路径（API调用链）。为了提高搜索过程的效率，我们开发了一种新的基于深度优先搜索的决策树（DFSDT），使LLM能够评估多个推理轨迹并扩展搜索空间。我们表明，DFSDT显著增强了LLM的规划和推理能力。为了进行有效的工具使用评估，我们开发了一个自动评估器：ToolEval。我们在ToolBench上微调LLaMA并获得ToolLLaMA。我们的ToolEval表明，ToolLLaMA表现出执行复杂指令和泛化到看不见的API的非凡能力，并表现出与ChatGPT相当的性能。为了使管道更实用，我们设计了一个神经API检索器，为每条指令推荐合适的API，从而消除了手动选择API的需要。代码、经过训练的模型和演示可在https://github.com/OpenBMB/ToolBench.

1 引言

2 数据集构建

3 实验

4 相关工作

5 结论

这项工作介绍了如何在LLM中获得工具使用能力。我们提供了一个指令调优数据集ToolBench，它涵盖了16k以上的真实世界API和各种实际用例场景，包括单工具和多工具任务。ToolBench的构建完全使用ChatGPT，并且需要最少的人工监督。此外，我们提出了DFSDT来增强LLM的规划和推理能力，使其能够战略性地在推理路径中导航。为了有效评估工具学习，我们设计了一个自动评估器ToolEval。通过在ToolBench上对LLaMA进行微调，获得的模型ToolLLaMA与ChatGPT的性能相匹配，并对看不见的API表现出显著的泛化能力。此外，我们还开发了一个神经API检索器，为每条指令推荐相关的API。检索器可以与ToolLLaMA集成，作为一个更自动化的工具使用管道。总的来说，这项工作为LLM的指令调整和工具使用的交叉研究铺平了道路。文章来源地址https://www.toymoban.com/news/detail-695762.html

到了这里，关于TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！