ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(一)

这篇具有很好参考价值的文章主要介绍了ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要

ChatGPT的成功引发了一场AI竞赛,研究人员致力于开发新的大型语言模型(LLMs),以匹敌或超越商业模型的语言理解和生成能力。近期,许多声称其性能接近GPT-3.5或GPT-4的模型通过各种指令调优方法出现了。作为文本到SQL解析的从业者,我们感谢他们对开源研究的宝贵贡献。然而,重要的是要带着审查意识去看待这些声明,并确定这些模型的实际有效性。因此,我们将六个流行的大型语言模型相互对比,系统评估它们在九个基准数据集上的文本到SQL解析能力,涵盖了五种不同的提示策略,包括零样本和少样本场景。遗憾的是,开源模型的性能远远低于像GPT-3.5这样的封闭源模型所取得的成绩,这凸显了进一步工作的需要,以弥合这些模型之间的性能差距。

1.简介

文本到 SQL 解析自动将用户输入的问题转换为 SQL 语句,从而能够从数据库中检索相关信息。 通过使用户能够用自然语言表达他们的目标,文本到 SQL 系统可以最大限度地减少非专家用户与关系数据库交互的技术障碍并提高生产力。

BERT(Devlin 等人,2019)和 T5(Raffel 等人,2020)等大型预训练语言模型的引入进一步提高了文本到 SQL 系统的性能。 研究人员一直在利用对这些模型的深刻理解来突破文本到 SQL 功能的界限。

最近,基于解码器的大型语言模型的突破(Brown et al., 2020b; Touvron et al., 2023)进一步彻底改变了 NLP 领域。 一个突出的趋势是追求训练越来越大的语言模型,包含数十亿个参数,并利用大量文本数据。 随后,使用基于指令的技术对这些模型进行微调,使它们能够更好地遵循人类生成的文本提示。

解码器 LLM 的突出应用之一是 ChatGPT,它基于 OpenAI 的 GPT-3.5 和 GPT-4 模型构建。 ChatGPT 在零样本和少样本场景中展示了卓越的能力,正如各种文本到 SQL 评估研究所证明的那样(Rajkumar 等人,2022 年;Liu 等人,2023 年)。 遗憾的是,Chat-GPT 的成功引发了一场人工智能竞赛,导致行业研究实验室停止公开披露其模型参数和训练方法。

因此,研究人员一直在积极寻求新语言模型的开发,这些模型有可能与 Chat-GPT 的功能相媲美。 这些模型包括基于 Pythia 模型构建的 Dolly(Biderman 等人,2023),以及基于 LLaMA 模型的 Vicuna(Chiang 等人,2023)和 Guanaco(Dettmers 等人,2023) (Touvron 等人,2023)。 其中一些声称通过微调技术达到了超过 GPT-4 90% 的性能水平,从而引起了人们的关注。

作为文本到 SQL 的实践者,我们感谢这些模型所做的贡献。 然而,我们仍然不确定这些开源模型是否真正达到了他们声称达到的质量水平。 为了解决这个问题,本文对六种语言模型进行了综合评估:Dolly、LLaMA、Vicuna、Guanaco、Bard 和 ChatGPT,利用五种不同的提示策略,直接比较它们在九个基准数据集上的性能。
我们的主要发现是:

  1. 在大多数文本到 SQL 数据集中,开源模型的性能明显低于闭源模型。
  2. 虽然LLM在生成语法上有效的 SQL 语句方面表现出熟练程度,但他们通常很难生成语义上准确的查询。
  3. 事实证明,LLM 对用于小样本学习( few-shot learning)的示例高度敏感。

2.试验Setup

2.1 LLM介绍

2.2 提示策略(Prompting Strategies)

  1. Informal Schema (IS) :非正式模式 (IS) 策略以自然语言提供表及其关联列的描述。在这种方法中,模式信息以不太正式的方式表达。
  2. API Docs (AD) :相比之下,Rajkumar (2022)等人进行的评估中概述的 API 文档 (AD) 策略,遵循OpenAI 文档4中提供的默认 SQL 翻译提示。此提示遵循稍微更正式的数据库模式定义。
  3. Select 3 :Select 3 策略包括数据库中每个表的三个示例行。 此附加信息旨在提供每个表中包含的数据的具体示例,以补充模式描述。
  4. 1SL:1-Shot Learning (1SL),在提示中提供 1 个黄金示例。
  5. 5SL :5 Shot Learning (5SL) ,在提示中提供 1 个黄金示例。

2.3 基准数据集

Spider和8大传统数据集
ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(一),语言模型,llama,bard

2.4 评估指标

本文采用的主要评估指标是执行准确性 (EX),它衡量生成的 SQL 查询与黄金 SQL 查询的输出精确一致的百分比。 此外,对于Spider数据集,我们还计算了 test suite accuracy(TS),它作为该数据集的官方评估指标。 TS 通过评估一组随机生成的数据库上预测查询的执行准确性,提供语义准确性的上限估计(Zhong 等人,2020)。

与刘等人类似 (2023),我们避免使用精确匹配精度 (Yu et al., 2018) 指标,因为 SQL 查询通常可以用多种等效方式表示来实现相同的目标。 因此,精确匹配的准确性可能会无意中对生成与黄金数据风格不同的 SQL 查询的大型语言模型造成不利影响。

2.5 评估详情

我们在研究中使用了多种模型,包括Dolly 的三种变体(v2-3b、v2-7b 和 v2-12b)、Vicuna 的两种变体(7B 和 13B)、Guanaco 的一种变体(33B)以及 LLaMA 的四种变体(7B、13B、30B 和 65B)。 为了确保一致性,我们的目标是严格遵守每个模型的默认超参数。 我们为 Dolly 设置了 0.92 的 top-p 采样率和 0.8 的温度,为 Vicuna 和guanaco 设置了 0.8 的温度,为 LLaMA 设置了 0.95 的 top-p 采样率和 0.8 的温度。 在评估过程中,我们在配备八个 NVIDIA RTX A6000 GPU 的服务器上进行实验。 对于 Bard,我们开发了一个脚本,可以直接从其 Web 用户界面提取评估输出。 对于 GPT3.5,我们通过 OpenAI 的 API 利用“gpt-3.5-turbo-0301”版本,并遵守温度 1.0 和 top-p 采样率 1.0 的默认超参数。

ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT–在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(二)

论文翻译:Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco vs Bard vs ChatGPT - A Text-to-SQL Parsing Comparison文章来源地址https://www.toymoban.com/news/detail-783663.html

到了这里,关于ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【LLM】LLaMA简介:一个650亿参数的基础大型语言模型

    作为 Meta 对开放科学承诺的一部分,今天我们将公开发布 LLaMA (大型语言模型 Meta AI) ,这是一个最先进的大型语言基础模型,旨在帮助研究人员推进他们在人工智能这一子领域的工作。更小,更高性能的模型,例如 LLaMA,使得研究社区中没有大量基础设施的其他人能够研究这

    2024年02月10日
    浏览(42)
  • LLaMA模型微调版本 Vicuna 和 Stable Vicuna 解读

    Vicuna和StableVicuna都是LLaMA的微调版本,均遵循CC BY-NC-SA-4.0协议,性能方面Stable版本更好些。 CC BY-NC-SA-4.0是一种知识共享许可协议,其全称为\\\"署名-非商业性使用-相同方式共享 4.0 国际\\\"。 即 用的时候要署名原作者,不能商用,下游使用也必须是相同的共享原则。 Vicuna(小羊驼

    2024年02月11日
    浏览(45)
  • LLM:Vicuna 7B模型简单部署体验

    随着ChatGPT的火热,科技公司们各显神通,针对大语言模型LLM通常需要极大的算力支持,且没有开源,阻碍了进一步的研究和应用落地。受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicun

    2024年02月07日
    浏览(52)
  • LLM系列 | 02: Vicuna简介及模型部署实测

    月黑见渔灯,孤光一点萤。微微风簇浪,散作满河星。小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖钢丝球的小男孩。今天这篇小作文主要介绍Vicuna模型、基于官方模型13B模型部署服务及对话实测。 更多、更新文章欢迎关注 微信公众号 : 小窗幽记机器学习

    2024年02月06日
    浏览(41)
  • 图技术在 LLM 下的应用:知识图谱驱动的大语言模型 Llama Index

    LLM 如火如荼地发展了大半年,各类大模型和相关框架也逐步成型,可被大家应用到业务实际中。在这个过程中,我们可能会遇到一类问题是:现有的哪些数据,如何更好地与 LLM 对接上。像是大家都在用的知识图谱,现在的图谱该如何借助大模型,发挥更大的价值呢? 在本文

    2024年02月15日
    浏览(50)
  • 大模型入门(一)—— LLaMa/Alpaca/Vicuna

    LLaMa模型是Meta开源的大模型,模型参数从7B到65B不等,LLaMa-7B在大多数基准测试上超过了GPT3-173B,而LLaMa-65B和Chinchilla-70B、PaLM-540B相比也极具竞争力。相比于ChatGPT或者GPT4来说,LLaMa可能效果上还有差距,但相比Closed AI,至少LLaMa论文和模型都开源出来了,目前hugging face已集成了

    2024年02月09日
    浏览(90)
  • 羊驼系列大模型LLaMa、Alpaca、Vicuna

    羊驼系列大模型:大模型的安卓系统 GPT系列:类比ios系统,不开源 LLaMa优势 用到的数据:大部分英语、西班牙语,少中文 模型下载地址 https://huggingface.co/meta-llama Alpaca是斯坦福从Meta的LLaMA 7B微调而来的全新模型 (套壳)仅用了52k数据,性能约等于GPT-3.5。 训练成本奇低,总成本

    2024年01月21日
    浏览(48)
  • NLP之LLMs:《Zeno Chatbot Report》的翻译与解读—CMU副教授详测七款个类ChatGPT大模型(GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Coher

    NLP之LLMs:《Zeno Chatbot Report》的翻译与解读—CMU副教授详测七款个类ChatGPT大模型(GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Cohere Command和ChatGPT) 目录 《Zeno Chatbot Report》的翻译与解读—CMU副教授详细测评七款个类ChatGPT大模型 Overview概览 Setup设置 Model Settings模型设置 Evaluation Metrics评估指

    2024年02月09日
    浏览(41)
  • 开源与闭源大模型之战:Llama 2 vs. GPT-4 vs. Claude-2

    人工智能一直在以惊人的速度发展,特别是在自然语言处理(NLP)领域。这场革命的领跑者包括三种杰出的人工智能语言模型:Llama 2、GPT-4 和 Claude-2。在这篇博客中,我们将探索这些人工智能巨头,了解他们独特的能力以及他们对各个领域的潜在影响。 Llama 2 是一种开创性的

    2024年02月10日
    浏览(58)
  • LLM 大语言模型 & Prompt Technique 论文精读-3

    链接:https://arxiv.org/abs/2207.01206 摘要:现有的用于在交互环境中引导语言的基准测试要么缺乏真实世界的语言元素,要么由于数据收集或反馈信号中涉及大量人类参与而难以扩展。为了弥合这一差距,我们开发了WebShop——一个模拟的电子商务网站环境,拥有118万个真实世界的

    2024年02月16日
    浏览(73)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包