Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到

这篇具有很好参考价值的文章主要介绍了Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

自从Meta发布LLaMA以来,围绕它开发的模型与日俱增,比如Alpaca、llama.cpp、ChatLLaMA以及Vicuna等等,相关的博客可以参考如下:

【Alpaca】斯坦福发布了一个由LLaMA 7B微调的模型Alpaca(羊驼),训练3小时,性能比肩GPT-3.5

【llama.cpp】量化130亿参数LLaMA模型的llama.cpp,推理仅需4GB内存

【ChatLLaMA】Meta开源的LLaMA性能真如论文所述吗?如果增加RLHF,效果会提升吗?

【Vicuna】斯坦福开源一个性能相当于90%ChatGPT的聊天机器人:Vicuna

Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到

在线体验地址:https://koala.lmsys.org/

训练和部署框架:https://github.com/young-geng/EasyLM

模型权重下载1:https://drive.google.com/drive/folders/10f7wrlAFoPIy-TECHsx9DKIvbQYunCfl?usp=sharing

模型权重下载2:https://huggingface.co/young-geng/koala/tree/main

训练数据预处理:https://github.com/young-geng/koala_data_pipeline

Koala评估数据集:https://github.com/arnav-gudibande/koala-test-set

今天将继续分享LLaMA系列模型:Koala,它是使用ChatGPT蒸馏数据和公开互联网数据fine-tuning LLaMA模型得到的,仅仅是微调了LLaMA,下面是Alpaca、ChatGPT以及Koala的模型效果对比

Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到

它认为高质量的训练数据对于LLM非常重要,尤其是对于小型的LLM,下面分析一下它的训练数据:

ChatGPT蒸馏数据

    • ShareGPT数据:使用公开API收集了ShareGPT 60K的对话数据,为保持数据质量,在用户查询级别删除了重复数据,并删除了所有非英语对话。最后保留了大约 30K 个示例。

    • Human ChatGPT Comparison Corpus (HC3):针对24K个问题,得到了60K 人类答案和通过与ChatGPT交互得到的 27K ChatGPT 答案,总共大约 87K 的问答示例。

开源数据

  • 开放式教学通才 (OIG):从(https://laion.ai/blog/oig-dataset/)中手动选择了大约30K的数据,其中包括小学数学教学、诗歌到歌曲和情节-剧本-书籍-对话数据集。

  • 斯坦福Alpaca:使用OpenAI 的 text-davinci-003 按照self-instruct生成52K的数据,值得注意的是,HC3、OIG 和 Alpaca 数据集是单轮问答,而 ShareGPT 数据集是对话对话。

  • Anthropic HH:Anthropic HH数据集包含人类对模型输出的危害性和有用性的评级。该数据集包含约 160,000 个人类评价的示例,其中该数据集中的每个示例都包含来自聊天机器人的一对响应,其中一个是人类更喜欢的。该数据集为我们的模型提供了功能和额外的安全保护。

  • OpenAI WebGPT。OpenAI WebGPT数据集(https://huggingface.co/datasets/openai/webgpt_comparisons)总共包含大约 20K 个比较,其中每个示例都包含一个问题、一对模型答案和元数据。答案由具有偏好分数的人进行评分。

  • OpenAI 摘要。OpenAI摘要数据集包含约 93K 个示例,每个示例都包含人类对模型生成的摘要的反馈。人类评估人员从两个选项中选择了更好的摘要。

使用开源数据集时,一些数据集有两个响应,分别对应评级为好或差的响应(Anthropic HH、WebGPT、OpenAI Summarization)。Keskar 等人、Liu 等人和Korbak 等人之前的研究证明了条件语言模型对人类偏好标记(例如“有用的答案”和“无用的答案”)提高性能的有效性。我们根据偏好标签将模型设置为正标记或负标记。我们在没有人工反馈的情况下对数据集使用正面标记。为了进行评估,我们提示带有正标记的模型。

模型训练

Koala 模型在EasyLM中使用 JAX/Flax 实现,这是我们的开源框架,可以轻松预训练、微调、服务和评估各种大型语言模型。我们在配备 8 个 A100 GPU 的单个 Nvidia DGX 服务器上训练我们的 Koala 模型。完成 2 个 epoch 的训练需要 6 个小时。在公共云计算平台上,使用可抢占实例进行此类训练的成本通常低于 100 美元。

模型评估

Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到

评估了两个模型:只使用蒸馏数据的 Koala-Distill 和使用所有数据(包括蒸馏和开源数据)的 Koala-All。目标是比较这些模型的性能,并评估蒸馏和开源数据集对最终性能的影响。上图展示了 Koala-All 与 Koala-Distill、Alpaca 和 ChatGPT 人工评估结果。

Alpaca测试集由从self-instruct数据集中采样的用户提示组成,并代表羊驼模型的分布数据。为了提供第二个更真实的评估协议,还引入了 (Koala) 测试集,其中包含在线发布的180 个真实用户查询。这些用户查询涵盖各种主题,通常是对话式的,并且可能更能代表基于聊天的系统的真实用例。为了减少可能的测试集泄漏,使用训练集中的任何示例过滤掉了 BLEU 分数大于 20% 的查询。此外,还删除了非英语和与编码相关的提示,因为对这些查询的回答无法由评分员(人群工作者)可靠地审查。

有了这两个评估集,通过在 Amazon Mechanical Turk 平台上询问大约 100 名评估员来比较这些保留的提示集上模型输出的质量,从而进行了盲配对比较。在评分界面中,向每个评分者展示一个输入提示和两个模型的输出。然后要求他们使用与响应质量和正确性相关的标准来判断哪个输出更好(或者它们同样好)。

在 Alpaca 测试集上,Koala-All 表现出与 Alpaca 相当的性能。然而,在由真实用户查询组成的测试集上,Koala-All 在近一半的情况下被评为优于Alpaca,并且在 70% 的情况下超过或与Alpaca持平。当然,Koala 测试集中的对话提示越多,越接近 Koala 训练集,所以这也许并不奇怪,但就此类提示越接近此类模型的可能下游用例而言,这表明 Koala 是预期的在类似助手的应用程序中表现更好。这表明来自用户在网络上发布的示例的 LLM 交互数据是赋予此类模型有效指令执行能力的有效策略。

也许更令人惊讶的是,发现除了蒸馏数据 (Koala-All) 之外,对开源数据的训练比仅对 ChatGPT 蒸馏数据 (Koala-Distill) 的训练表现稍差,如与 Koala-Distill 在两个数据集。尽管差异可能并不显着,但这一结果表明 ChatGPT 对话的质量如此之高,以至于即使包含两倍的开源数据也不会带来显着的改进。最初的假设是 Koala-All 应该至少表现得更好一些,因此在所有评估中都将其用作主要模型,但这些实验的一个潜在收获是有效的指令和辅助模型可以从 LLM 主干(如 LLaMA)中进行微调完全使用来自更大更强大模型的数据,只要这些响应的提示代表用户将在测试时提供的提示类型。这也进一步支持了这样一种观点,即建立强大的对话模型的关键可能更多地在于策划用户查询多样化的高质量对话数据,而不是简单地将现有数据集重新格式化为问题和答案。

模型局限性

除了幻觉之外,Koala 还存在其他聊天机器人语言模型的不足之处。其中一些包括:

  • 偏见和刻板印象:模型会从它所训练的对话数据中继承偏见,可能会延续有害的刻板印象、歧视和其他危害。

  • 缺乏常识:虽然大型语言模型可以生成看起来连贯且语法正确的文本,但它们往往缺乏人类认为理所当然的常识知识。这可能会导致无意义或不适当的反应。

  • 有限的理解:大型语言模型可能难以理解对话的上下文和细微差别。他们也可能难以识别讽刺或讽刺,这可能会导致误解。

为了解决 Koala 的安全隐患,在 ShareGPT 和 Anthropic HH 的数据集中加入了对抗性提示,以使模型更加稳健和无害。为了进一步减少潜在的滥用,在线演示中部署了 OpenAI 的内容审核过滤器,以标记和删除不安全的内容。

未来的规划

希望 Koala 模型将成为未来大型语言模型学术研究的有用平台:该模型足以展示我们与现代 LLM 相关的许多功能,同时又足够小以进行微调或用于更多有限的计算。潜在有希望的方向可能包括:

  • 安全性和一致性:Koala 允许进一步研究语言模型的安全性并更好地与人类意图保持一致。

  • 模型偏差:Koala 能够更好地理解大型语言模型的偏差、对话数据集中虚假相关和质量问题的存在,以及减轻此类偏差的方法。

  • 理解大型语言模型:由于 Koala 推理可以在相对便宜的商品 GPU 上执行,能够更好地检查和理解对话语言模型的内部结构,使(以前的黑盒)语言模型更具可解释性。文章来源地址https://www.toymoban.com/news/detail-502508.html

到了这里,关于Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据分析(以kaggle上的加州房价为例)

    数据来源:House Prices - Advanced Regression Techniques 参考文献: Comprehensive data exploration with Python 偏度(Skewness)是一种衡量随机变量概率分布的偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度可以用来反映数据分布相对于对称分布的偏斜程度。偏度的取值范

    2024年02月09日
    浏览(44)
  • 推荐一款 IntelliJ IDEA 神级插件,由 ChatGPT 团队开发,免费使用,堪称辅助神器!

    来源:https://blog.csdn.net/m0_64880608/article/details/130201349 Bito是一款在IntelliJ IDEA编辑器中的插件,Bito插件是由ChatGPT团队开发的,它是ChatGPT团队为了提高开发效率而开发的一款工具。 ChatGPT团队是一支专注于自然语言处理技术的团队,他们开发了一款基于GPT的自然语言处理模型,可

    2024年02月02日
    浏览(54)
  • 机器学习入门实例-加州房价预测-1(数据准备与可视化)

    数据来源:California Housing Prices dataset from the StatLib repository,1990年加州的统计数据。 要求:预测任意一个街区的房价中位数 缩小问题:superwised multiple regressiong(用到人口、收入等特征) univariate regression(只预测一个数据)plain batch learning(数据量不大+不咋变动) 下载数据 可以

    2023年04月19日
    浏览(82)
  • 大学生对chatGPT的认知和使用

    新一代对话式人工智能chatGPT在全球范围狂揽1亿名用户,不止于科技界破圈,更成为街头巷尾的谈资。 chatGPT能干什么? https://openai.com/blog/chatgpt/  chatGPT官网  写解决方案 编写代码  说笑话  chatGPT溯缘本末 chatGPT诞生 - OpenAI 美国人工智能公司OpenAI近期推出自然语言处理工具

    2023年04月12日
    浏览(35)
  • python 导入fetch_california_housing 加州房价数据集报错解决

    1 导入加州房价数据集 显示 HTTP Error 403:Forbidden 2 处理方法  ①手工下载数据集  打开_california_housing.py 文件,里面有数据集的下载地址,不知道_california_housing.py文件地址的可以看报错中提示的位置  _california_housing.py文件中43行,有数据集的下载地址(https://www.dcc.fc.up.pt/~l

    2024年02月07日
    浏览(40)
  • 7B LLaMA模型接近ChatGPT 95%的能力!港科大提出全新对抗蒸馏框架Lion

    ©PaperWeekly 原创 · 作者 |  黄一天 单位 |  华为 研究方向 |  自然语言处理 由香港科技大学提出的针对闭源大语言模型的对抗蒸馏框架,成功将 ChatGPT 的知识转移到了参数量  7B   的 LLaMA 模型(命名为 Lion),在只有  70k   训练数据的情况下,实现了近  95 % 的 ChatGPT 能力近

    2024年02月12日
    浏览(34)
  • 清华大学团队提出一种基于稳态视觉诱发反应的混合脑机接口

    更多脑机接口前沿技术,关注公众号:脑机接口社区 近日,清华大学团队提出一种基于脑电图(EEG)和磁脑电图(MEG)混合的脑机接口(BCI)系统的研究,旨在提高BCI性能并解决“BCI文盲”的问题。虽然EEG-based BCI已经实现了大脑和外部设备之间的通讯,但由于头骨会减弱和

    2024年02月12日
    浏览(43)
  • PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

    蛋白质是生命体执行功能的基本生物分子。蛋白质分子折叠结构的多样性赋予了它们独特而丰富的功能,从而也让生命世界丰富多彩。 尽管理论上蛋白质序列和结构空间十分庞大,然而历经数十亿年进化后,只有极少部分蛋白空间出现于自然界。 这可能是生命体在演化过程

    2024年02月07日
    浏览(47)
  • 本地构建自己的chatgpt已成为可能,国外团队从GPT3.5提取大规模数据完成本地机器人训练,并开源项目源码和模型支持普通在笔记上运行chatgpt

    国外团队从GPT3.5提取大规模数据完成本地机器人训练,并开源项目源码和模型支持,普通在笔记上运行chatgpt。下面是他们分享的:收集到的数据、数据管理程序、训练代码和最终模型,以促进开放研究和可重复性。 在 2023 年 3 月 20 日至 2023 年 3 月 26 日期间,该团队使用 GPT

    2023年04月21日
    浏览(68)
  • 知识蒸馏实战:使用CoatNet蒸馏ResNet

    知识蒸馏(Knowledge Distillation),简称KD,将已经训练好的模型包含的知识(”Knowledge”),蒸馏(“Distill”)提取到另一个模型里面去。Hinton在\\\"Distilling the Knowledge in a Neural Network\\\"首次提出了知识蒸馏(暗知识提取)的概念,通过引入与教师网络(Teacher network:复杂、但预测精度优

    2024年02月06日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包