130亿参数,8个A100训练,UC伯克利发布对话模型Koala

这篇具有很好参考价值的文章主要介绍了130亿参数,8个A100训练,UC伯克利发布对话模型Koala。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

平替再平替,可以在消费级 GPU 上运行的 Koala 模型能实现 ChatGPT 一半的性能。

自从 Meta 发布并开源了 LLaMA 系列模型,来自斯坦福大学、UC 伯克利等机构的研究者们纷纷在 LLaMA 的基础上进行「二创」,先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型。

羊驼已然成为开源社区的新晋顶流。由于「二创」过于丰富,生物学羊驼属的英文单词都快不够用了,但是用其他动物的名字给大模型命名也是可以的。

最近,UC 伯克利的伯克利人工智能研究院(BAIR)发布了一个可以在消费级 GPU 上运行的对话模型 Koala(直译为考拉)。Koala 使用从网络收集的对话数据对 LLaMA 模型进行微调。

130亿参数,8个A100训练,UC伯克利发布对话模型Koala

项目地址:https://bair.berkeley.edu/blog/2023/04/03/koala/

Koala 已经推出线上测试 demo:

130亿参数,8个A100训练,UC伯克利发布对话模型Koala

Demo 地址:https://chat.lmsys.org/?model=koala-13b

开源地址:https://github.com/young-geng/EasyLM

Koala 概述

与 Vicuna 类似,Koala 也使用从网络收集的对话数据对 LLaMA 模型进行微调,其中重点关注与 ChatGPT 等闭源大模型对话的公开数据。

研究团队表示,Koala 模型在 EasyLM 中使用 JAX/Flax 实现,并在配备 8 个 A100 GPU 的单个 Nvidia DGX 服务器上训练 Koala 模型。完成 2 个 epoch 的训练需要 6 个小时。在公共云计算平台上,进行此类训练的成本通常低于 100 美元。

研究团队将 Koala 与 ChatGPT 和斯坦福大学的 Alpaca 进行了实验比较,结果表明:具有 130 亿参数的 Koala-13B 可以有效地响应各种用户查询,生成的响应通常优于 Alpaca,并且在超过一半的情况下与 ChatGPT 性能相当。

130亿参数,8个A100训练,UC伯克利发布对话模型Koala

Koala 最重要的意义是它表明:在质量较高的数据集上进行训练,那么小到可以在本地运行的模型也可以获得类似大模型的优秀性能。这意味着开源社区应该更加努力地管理高质量数据集,因为这可能比简单地增加现有系统的规模更能实现安全、真实和强大的模型。从这个角度看,Koala 是 ChatGPT 一种小而精的平替。

不过,Koala 还只是一个研究原型,在内容、安全性和可靠性方面仍然存在重大缺陷,也不应用于研究之外的任何用途。

数据集和训练

构建对话模型的主要障碍是管理训练数据。ChatGPT、Bard、Bing Chat 和 Claude 等大型对话模型都使用带有大量人工注释的专有数据集。为了构建 Koala 的训练数据集,研究团队从网络和公共数据集中收集对话数据并整理,其中包含用户公开分享的与大型语言模型(例如 ChatGPT)对话的数据。

不同于其他模型尽可能多地抓取网络数据来最大化数据集,Koala 是专注于收集小型高质量数据集,包括公共数据集中的问答部分、人类反馈(正面和负面)以及与现有语言模型的对话。具体而言,Koala 的训练数据集包括如下几个部分:

ChatGPT 蒸馏数据:

  • 公开可用的与 ChatGPT 对话数据(ShareGPT);

  • Human ChatGPT 比较语料库 (HC3),其中同时使用来自 HC3 数据集的人类和 ChatGPT 响应。

开源数据:

  • Open Instruction Generalist (OIG);

  • 斯坦福 Alpaca 模型使用的数据集;

  • Anthropic HH;

  • OpenAI WebGPT;

  • OpenAI Summarization。

实验与评估

该研究进行了一项人工评估,将 Koala-All 与 Koala-Distill、Alpaca 和 ChatGPT 几个模型的生成结果进行比较,结果如下图所示。其中,使用两个不同的数据集进行测试,一个是斯坦福的 Alpaca 测试集,其中包括 180 个测试查询(Alpaca Test Set),另一个是 Koala Test Set。

130亿参数,8个A100训练,UC伯克利发布对话模型Koala

总的来说,Koala 模型足以展示 LLM 的许多功能,同时又足够小,方便进行微调或在计算资源有限的情况下使用。研究团队希望 Koala 模型成为未来大型语言模型学术研究的有用平台,潜在的研究应用方向可能包括:

  • 安全性和对齐:Koala 允许进一步研究语言模型的安全性并更好地与人类意图保持一致。

  • 模型偏差:Koala 使我们能够更好地理解大型语言模型的偏差,深入研究对话数据集的质量问题,最终有助于改进大型语言模型的性能。

  • 理解大型语言模型:由于 Koala 模型可以在相对便宜的消费级 GPU 上运行,并且执行多种任务,因此 Koala 使我们能够更好地检查和理解对话语言模型的内部结构,使语言模型更具可解释性。

参考链接:https://bair.berkeley.edu/blog/2023/04/03/koala/文章来源地址https://www.toymoban.com/news/detail-409214.html

到了这里,关于130亿参数,8个A100训练,UC伯克利发布对话模型Koala的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • NVDIA GPU参数列表: 3090,4090, A40, A30,V100, A100, A800性能参数

    GeForce RTX 4090    GeForce RTX 3090 Ti (左)   GeForce RTX 3090(右)   A40: The NVIDIA A40 accelerates the most demanding visual computing workloads from the data center, combining the latest NVIDIA Ampere architecture RT Cores, Tensor Cores, and CUDA® Cores with 48 GB of graphics memory. From powerful virtual workstations accessible from an

    2024年02月06日
    浏览(46)
  • 【AI Code】CodeGeex:你的免费AI编程助手——基于清华ChatGLM的130亿参数预训练大模型

    CodeGeex官网:https://codegeex.cn/zh-CN  在线体验地址:https://codegeex.cn/zh-CN/playground 论文: https://arxiv.org/pdf/2303.17568.pdf 开源地址:GitHub - THUDM/CodeGeeX: CodeGeeX: An Open Multilingual Code Generation Model 目录

    2024年02月15日
    浏览(45)
  • 揭秘 ChatGPT 背后天价超算!上万颗英伟达 A100,烧光微软数亿美元

    视学算法报道 编辑:Aeneas 好困 【新智元导读】 ChatGPT背后,是微软超级昂贵的超级计算机,耗资数亿美元,用了英伟达数万颗芯片。 ChatGPT能成为如今火遍全球的顶流模型,少不了背后超强的算力。 数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,

    2024年02月04日
    浏览(48)
  • 接入 NVIDIA A100、吞吐量提高 10 倍!Milvus GPU 版本使用指南

    Milvus 2.3 正式支持 NVIDIA A100! 作为为数不多的支持 GPU 的向量数据库产品,Milvus 2.3 在吞吐量和低延迟方面都带来了显著的变化,尤其是与此前的 CPU 版本相比,不仅吞吐量提高了 10 倍,还能将延迟控制在极低的水准。 不过,正如我前面提到的,鲜有向量数据库支持 GPU,这其

    2024年02月09日
    浏览(39)
  • 记NVIDIA显卡A100在K8S POD中“Failed to initialize NVML: Unknown Error“问题解决

    因项目原因需要在k8s上跑GPU相关的代码,优选使用NVIDIA A100显卡,但在根据官方文档简单并部署GitHub - NVIDIA/k8s-device-plugin:适用于 Kubernetes 的 NVIDIA 设备插件后,出现了pod中GPU运行一段时间后丢失的问题,进入容器后发现nvidia-smi命令报错\\\"Failed to initialize NVML: Unknown Error\\\"。尝试

    2024年02月08日
    浏览(57)
  • 从芯片建模详解UC2843工作原理与参数计算

    UCx843系列是非常经典的峰值电流模式PWM控制器,今天通过行为建模捋一捋其工作原理与频率、最大占空比计算。 1、电源滞回与基准 以UCX843为例,8.4V启动,7.6V欠压,回差0.8V,使用simplis滞回比较器可以直接实现该效果,HYSTWD=8.4-7.6=0.8,参考电压(8.4-7.6)/2=8。 因为比较器输出有

    2024年02月05日
    浏览(62)
  • linux(centos7)离线安装A100显卡驱动cuda/cudnn 以及解决docker not select device driver...gpu

    1.确认GPU型号和操作系统版本,本示例中以A100以及操作系统为Centos 7.9进行操作。 准备GPU驱动和CUDA 11.2软件包,在nvidia官网进行驱动包和CUDA包下载 链接: link linux系统均选择 Linux 64-bit CUDA Toolkit选择最新版本 如您需要老版本CUDA,请前往老版本CUDA下载 本示例中使用CUDA 11.2。 访

    2024年02月15日
    浏览(47)
  • GLM-130B-一个开放的双语通用预训练模型-论文精读

    本文为作为类ChatGPT的模型ChatGLM的前期基础论文2《AN OPEN BILINGUAL PRE-TRAINED MODEL》的精读笔记,基础论文1的精读笔记请见《GLM论文精读-自回归填空的通用语言模型》。希望对大家有帮助,欢迎讨论交流。GLM-130B,主要思想概述:一个双语(英文和中文)的基于GLM的双向稠密模型

    2024年02月12日
    浏览(55)
  • leaflet使用L.geoJSON加载文件,参数pointToLayer的使用方法(130)

    第130个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+leaflet中加载geojson文件,这里介绍pointToLayer的使用方法。 点的处理方式不同于折线和多边形。默认情况下,简单标记使用为GeoJSON点绘制。在创建GeoJSON涂层时,我们可以通过pointToLayer在GeoJSON选项对象中传递函数来改

    2023年04月09日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包