大型语言模型比较: Gen2/Gen3模型(Bloom、 Gopher、 OPT 和 其它)

这篇具有很好参考价值的文章主要介绍了大型语言模型比较: Gen2/Gen3模型(Bloom、 Gopher、 OPT 和 其它)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大语言模型是产生文本的复杂的神经网络。自2018年成立以来,它们发生了戏剧性的进化,传递的信息可以与人类媲美。为了更好地理解这种演变,这个博客系列调查模型,以揭示它们如何前进。具体来说,从已发表的论文中对每个模型的见解进行了解释,并从基准比较中得出结论。

本文涵盖以下 LLM:

  • Hugging Face
    • Bloom
    • BloomZ
  • Deep Mind
    • Gopher
    • Chinchilla
    • Sparrow
  • Nvidia
    • Megatron-Turing NLG
  • Meta AI
    • Open Pretrained Transformer
  • Allen Institute for AI
    • TK Instruct

Bloom

Bloom
Date 2021-11
Producer Hugging Face
Paper BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
Source Code,Wikipedia

BLOOM大型语言模型(LLM)是由100人组成的开放研究协作的成果,其明确目标是实现大型语言模型的民主化(更加开放和可访问,以便更广泛的研究和开发社区能够使用和贡献)。在其研究论文中,介绍了这个研究项目的组织结构、不同工作组以及个人所贡献的研究领域。为了指导整个项目,采用了一套核心价值观。除了这些组织信息外,还公开发布了完整的模型训练脚本、输入数据和模型检查点,且均可公开访问。

BLOOM是一款仅包含解码器的变换器(decoder-only transformer)模型。其训练数据被命名为ROOTS语料库,包含了1.61TB的多语言内容,来源于252个不同的来源,并且增加了来自GitHub的源代码仓库以及CommonCrawl数据集。所有文本材料都经过清洗,以获得“由人类为人类编写”的文本,然后在用作训练模型的输入之前进行了去重。这个多语言语料库包含了46种自然语言和13种编程语言。

该模型在法国政府资助的一台超级计算机上进行了培训,该计算机有48个节点,总数为384个 NVIDIA A100图形处理器。为了训练,图书馆使用了威震天和深度极速。与其他 LLM 一样,公布了不同的模型尺寸,范围从560M 到3B、7.1 B 和176B 参数版本。

这个模型被用于第一代 LLM 中的各种 NLP 基准测试的零镜头或少镜头指令,如 SuperGlue、机器翻译数据集 WMT14、 Flores-101和 DiaBLa,以及 WikiLangua 文本摘要。它也被应用在代码生成中。BLOOM 模型超过了 GPT-Neo 和 GPT-J,但是在代码生成方面,CodeX 得到了更好的分数。在比较生成文本的准确性、偏差和公平性等方面,未经微调的 BLOOM 模型取得了较好的效果,但仍不能超过 GPT3 Davinci 模型。

BloomZ

BloomZ
Date 2022-07
Producer Hugging Face
Paper Crosslingual Generalization through Multitask Finetuning
Source Code

BloomZ模型是对Bloom模型的精调版本。基于研究发现,指令式微调极大地增强了模型的小样本学习能力,从而提高了其在基准测试中的整体性能,英语P3指令数据集被扩展为两个变体。xP3数据集包含英语提示,但在46种不同语言中具有多语言任务上下文。而xP3mt变体还包含了机器翻译的非英语提示。这些任务涵盖了广泛的范围,如多项选择、提取式和闭卷问答,以及摘要、程序合成和共指解析。

对比Bloom与BloomZ的性能,证据明确:指令式微调显著提高了每个任务的性能。此外,在句子完成、自然语言干扰和共指解析等任务中的性能随着指令式微调数据集变体的增加而提高。例如,在自然语言干扰中,Bloom-P3得分为47.7,BloomZ-xP3为55.3,而BloomZ-xP3mt为57.7。

观察到几个有趣的方面。首先,仅英语的微调提示增加了LLM在其所有其他训练语言中的任务泛化能力。其次,微调在仅使用零样本提示的任务中带来了几个最佳表现。第三,当给定特别设计的多样本提示任务时,模型甚至可以生成它未经训练的语言的文本。虽然所有未训练语言的性能没有显著提高,但某些测试中展现出惊人的结果,例如在自然语言干扰中。

Gopher

Gopher
Date 2021-12
Producer Deep Mind
Paper Scaling Language Models: Methods, Analysis & Insights from Training Gopher
Source Blog

Deep Mind的Gopher模型系统地检验了模型大小对模型性能的影响。Gopher模型系列是自回归变换器,分别训练了五种不同大小的模型:44M、117M、417M、1.4B、7.1B、280B。

所有模型都是用来自一个名为MassiveText的数据集的300B令牌进行训练的。这个数据集受到The Pile的启发,包含了来自多个来源的文本,如书籍、新闻、GitHub上的源代码和维基百科。文本处理流程非常详细:内容过滤、文本提取、质量过滤、重复移除、文档去重和测试集过滤。只考虑英语文本。训练使用了Jax库。

所得到的模型与彼此以及以下模型进行了比较:GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)。基准任务范围从语言建模、阅读理解到事实检查和BIG bench,共包含156个任务。研究人员发现,在阅读理解任务中取得了均匀的任务改进,但在常识和逻辑推理任务中,Gopher模型表现更差。

Megatron-Turing NLG

Megatron-Turing NLG
Date 2021-10
Producer NVIDIA
Paper Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model
Source Blog

Megatron Turing NLG的研究目标是大规模的大型语言模型(LLM)。为了训练这个560B模型,需要进行软件和硬件方面的创新。研究论文提到了关键的学习点。为了有效地切分270B令牌输入,管道并行和数据并行是基础。这通过结合Deep Speed开源库(用于从输入数据创建批次)和使用Megatron框架并行化结果张量来实现。

训练硬件是庞大的:560台DGX A100服务器,每台装有8个A100 GPU。单个GPU在16FP精度下的峰值计算输出为每个GPU 312 tFLOP/s。数据来源包括The Pile,以及来自common crawl、real new和CC-Stories的快照。与其他研究相似,有效的输入文本过滤被认为是必不可少的,论文提到了所有应用的方法。从所有来源中提取自然语言文本,计算质量评分和模糊相似度评分。只有通过给定阈值的文本才被考虑。这导致了3390亿个令牌,从中通过加权输入数据来源取出270B。

应用的基准测试包括完成预测、阅读理解和常识推理。与GPT3和Gopher相比,结果有所不同:在完成预测方面,只能看到边际改进,但在阅读理解方面,零样本示例性能从GPT3的60.50提高到Megatron的78.20。

Chinchilla

Chinchilla
Date 2022-03
Producer Deep Mind
Paper Training Compute-Optimal Large Language Models

Chinchilla大型语言模型是Gopher的继续。研究人员想要确定在训练中如何投入计算能力,即浮点运算次数(FLOPs)。本质上是:是扩大模型的参数大小更好,还是增加训练输入数据的数量更好?他们训练了从70M到10B不等大小的模型,并估计了最佳模型大小和令牌数量。

基于这一观察,他们随后训练了Chinchilla,一个70B参数大小的模型,输入令牌为1.4万亿。对比一下:175B的GPT-3有300B令牌,280B的Gopher也有300B令牌。输入令牌来自MassiveText数据集,这个数据集遵循与Gopher相同的原则来收集、清理、去重文本。训练是在TPUv3和TPUv4上进行的,使用Jax和Haiku库。

结果令人震惊:更小的Chinchilla模型在一致性和显著性上均优于Gopher、GPT-3和其他更大的模型。此外,它使用的计算能力和能源显著更少,更小的大小使其进行进一步微调更为可行和高效。另一个有趣的结果是在Massive Multitask Language Understanding (MMLU)任务中的表现得分。对于五样本提示,Chinchilla达到了67.6%,与Gopher的60.0%和GPT-3的43.9%相比有显著提升。

Sparrow

Sparrow
Date 2022-09
Producer Deep Mind
Paper Improving alignment of dialogue agents via targeted human judgements
Source Blog

Sparrow 是一款专为对话设计的大型语言模型(LLM)。该模型以对话引导的Chinchilla LLM作为基础模型,然后应用了人类反馈驱动的强化学习(RLHF)作为微调步骤。这个模型的独特之处在于,它的对话规则是以自然语言形式制定的。总共制定了23条规则,从关于整个对话的总体范式到详细的“每轮对话”规则,这些规则仅适用于单次文本生成。例如,这些规则包括“不要假装拥有身体或能够在身体中移动”、“只做可能是真实的陈述;不要说明显是假的事情”和“代理人不应该不必要地重复自己”。

在微调阶段,用户面临三项任务。在每轮响应参考任务中,用户被展示对话的部分内容,以及对话应如何继续的选项。这些选项实际上是不同LLM的输出,因此用户的投票决定了哪个模型表现更好。在对抗性探测任务中,给用户一条对话规则,并要求他们使模型违反这条规则。计算规则违反率进一步帮助选择表现最佳的模型。最后,在模型的带证据响应任务中,用户可以看到模型用于提供答案的数据,并可以评价模型在给定答案中使用其证据的效果。对于证据本身,模型使用一个功能执行谷歌搜索查询,抓取结果网页,并接收一个500字符的文本,然后用于制作响应。

比较基础的对话引导的Chinchilla 70B模型与微调后的版本,趋势是可辨识的。用户更喜欢Gopher模型而非基础模型。对于事实性问题,支持性证据被正确引用了78%,规则违反率降至8%。

Open Pretrained Transformer

Open Pretrained Transformer
Date 2022-05
Producer Meta AI
Paper OPT: Open Pre-trained Transformer Language Models
Source Code ,Blog

开放预训练变换器(Open Pretrained Transformer,简称OPT)大型语言模型是一个开源变换器模型。该模型以10种不同的大小发布,从125M到6.7B以及175B,可以从其代码仓库下载。训练材料包括几个来源:BookCorpus、Stories、CC- News v2、The Pile和PushShift.io Reddit。所有输入源都经过了仔细的去重处理,作者特别指出,在The Pile语料库中存在多个重复项。

这些模型在16种不同的自然语言处理任务上进行了测试,如OpenBook QA和SuperGLUE。零样本性能与GPT3相当(尽管在某些任务上可以确定一些差异),但在多样本任务上,性能下降。另一组基准测试用于评估对话中的性能,如Empathetic Dialogue和Blended Skill Talk。研究人员得出结论,OPT 175B在对话中展现出一致的人格特征。

忠于研究者的开源目标,他们甚至发布了完整的训练步骤日志。这个有趣的资源详细记录了训练的几个操作细节,包括处理软件和硬件错误,这些错误延迟了模型的训练。

TK Instruct

TK Instruct
Date 2022-04
Producer Allen Institute for AI
Paper Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
Source Code

指令式微调是提升大型语言模型(LLM)性能的基石。为了理解和比较模型对未预见任务的表现,研究人员创建了一个新的基准测试,名为超自然指令(Super Natural Instructs,简称SNI),涵盖了76种任务类型,包含1616个任务。SNI基准测试包含的任务被构建为上下文中的指令,也称为k-shot示例。这些指令提示包括任务描述、上下文,以及可选的正面和负面示例。

研究人员使用预训练的T5模型作为基础,对Instruct-TK进行了元训练和在SNI数据集上的微调,然后对其进行了未见任务的基准测试。选择的比较指标是ROGUE-L,它用于确定文本之间最长公共子序列的长度,例如,比较模型创建的文本与预期文本。使用ROUGE-L指标的基准测试结果显示,11B的Instruct-TK比未进行任务微调的T5和GPT3高出30%,甚至比进行了任务微调的175B InstructGPT高出10%。

其他值得注意的发现包括,在Instructs-TK训练期间,每个任务64个实例就足以饱和下游性能。显然,存在一个模型需要消耗的实例上限阈值,超过这个阈值后,模型才能学会概括特定任务,避免过度拟合训练数据。此外,用更多样化的任务进行任务微调,即使对于较小的模型大小,也显著提高了性能。

总结

第二代和第三代大型语言模型(LLM)沿着参数复杂性、训练材料和指令式微调不断发展。从本文涉及的模型中可以观察到以下趋势。首先,如Megatron模型所示并引领的,有效的管道和数据并行对于有效且可扩展的训练至关重要。几个开源框架解决了这些训练需求,并可被所有后续研究所使用。其次,如BLOOM和TK-Instruct所展示的,使用指令式提示进行训练或微调,可以显著提高模型在多个NLP和任务基准测试中的性能。似乎存在一个阈值,即每个任务所需的实例数量,以实现这种泛化。接下来,如BloomZ所示,一个多语言模型可以仅用英语提示进行任务微调,并扩展其在所有其他训练语言中的能力。然后,麻雀(Sparrow)模型展示了如何使用指令式提示来定义模型的“行为”,在这个案例中是用于对话。最后,Chinchilla LLM表明,计算效率高的模型应该着重于使用更多的输入文本进行训练。他们的70B参数模型,配备了1.4万亿的输入文本,明显优于参数数量是其2倍或5倍的模型。文章来源地址https://www.toymoban.com/news/detail-835869.html

到了这里,关于大型语言模型比较: Gen2/Gen3模型(Bloom、 Gopher、 OPT 和 其它)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 终于来了,Runway gen2 制作AI视频的全功能超详细使用教程

    最近有好几个学员私信我们,让我出一期Runway完整的使用教程,刚好11月Runway对外发布运动涂笔等新功能,那么今天就给大家安排一期全功能,超详细的从Gen1到Gen2的使用教程。 Runway 是国外一家在线视频剪辑制作网站,作为全球AI视频制作前沿模型,目前拥有30多个AI应用工具

    2024年02月03日
    浏览(52)
  • 视频生成的原理解析:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0、W.A.L.T

    考虑到文生视频开始爆发,比如11月份就是文生视频最火爆的一个月 11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品(runway是Stable Diffusion最早版本的开发商,Stability AI则开发的SD后续版本) 11月16日,Meta发布文生视频模型Emu Video 11月18日,字节跳动半路杀出发

    2024年02月04日
    浏览(46)
  • 视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0、W.A.L.T

    考虑到文生视频开始爆发,比如11月份就是文生视频最火爆的一个月 11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品(runway是Stable Diffusion最早版本的开发商,Stability AI则开发的SD后续版本) 11月16日,Meta发布文生视频模型Emu Video 11月18日,字节跳动半路杀出发

    2024年02月19日
    浏览(52)
  • 【AI生成视频工具】阿里推出图片生成视频Ai工具,免费无限制国内可用,比GEN2香多了

    大家好,我是龙一,专注AI轻创副业项目分享,今天给大家分享一款阿里近日推出的开源的图片生成视频的Ai工具,目前可免费使用,没有使用次数的限制,效果非常好,不得不说比RunwayGen2香多了。 可以根据用户输入的静态图像和文本生成目标接近、语义相同的视频,生成的

    2024年02月08日
    浏览(86)
  • Sora之前的视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

    考虑到文生视频开始爆发,比如11月份就是文生视频最火爆的一个月 11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品(runway是Stable Diffusion最早版本的开发商,Stability AI则开发的SD后续版本) 11月16日,Meta发布文生视频模型Emu Video 11月18日,字节跳动半路杀出发

    2024年02月20日
    浏览(61)
  • 视频生成的发展史及其原理解析:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

    考虑到文生视频开始爆发,比如11月份就是文生视频最火爆的一个月 11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品(runway是Stable Diffusion最早版本的开发商,Stability AI则开发的SD后续版本) 11月16日,Meta发布文生视频模型Emu Video 11月18日,字节跳动半路杀出发

    2024年02月05日
    浏览(41)
  • 通俗易懂地解释OpenAI Sora视频生成的特点有哪些?与Runway Gen2、Pika有什么区别?缺点是什么?

    OpenAI的Sora模型是最近两天最火热的模型。它生成的视频无论是清晰度、连贯性和时间上都有非常好的结果。在Sora之前,业界已经有了很多视频生成工具和平台。但为什么Sora可以引起如此大的关注?Sora生成的视频与此前其它平台生成的视频到底有哪些区别?有很多童鞋似乎对

    2024年02月19日
    浏览(50)
  • 轻松玩转开源大语言模型bloom(四)

    前几篇都围绕着语言模型的decoding strategy来讲述,今天将进入进阶篇,在解码策略效果有限和提示词修改也无法满意的情况下如何提升模型的效果呢?这时我们需要对大语言模型进行 fine-tune ,即 微调 。一般我们用的大语言模型都是别人在通用的大数据集上训练过后的,或者

    2024年02月05日
    浏览(38)
  • ThinkPad T14/T15/P14s/P15s gen2电脑原厂Win10系统镜像 恢复笔记本出厂时预装自带OEM系统

    lenovo联想原装出厂Windows10系统,适用型号: ThinkPad T14 Gen 2,ThinPad T15 Gen 2,ThinkPad P14s Gen 2,ThinkPad P15s Gen 2  (20W1,20W5,20VY,20W7,20W0,20W4,20VX,20W6) 链接:https://pan.baidu.com/s/1mlRyPxOii_9DhWQ-0lj2SQ?pwd=42pp  提取码:42pp  系统自带所有驱动、出厂主题壁纸、系统属性联机支持标志、系统

    2024年01月21日
    浏览(190)
  • 《大型语言模型自然语言生成评估》综述

    在快速发展的自然语言生成(NLG)评估领域中,引入大型语言模型(LLMs)为评估生成内容质量开辟了新途径,例如,连贯性、创造力和上下文相关性。本综述旨在提供一个关于利用LLMs进行NLG评估的全面概览,这是一个缺乏系统分析的新兴领域。 我们提出了一个连贯的分类体

    2024年01月23日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包