LLM预训练大型语言模型Pre-training large language models

这篇具有很好参考价值的文章主要介绍了LLM预训练大型语言模型Pre-training large language models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在上一个视频中,您被介绍到了生成性AI项目的生命周期。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

如您所见,在您开始启动您的生成性AI应用的有趣部分之前,有几个步骤需要完成。一旦您确定了您的用例范围,并确定了您需要LLM在您的应用程序中的工作方式,您的下一步就是选择一个要使用的模型。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

您首先的选择将是使用现有的模型还是从头开始训练您自己的模型。在某些特定情况下,从头开始训练您自己的模型可能是有利的,您将在本课程后面了解到这些情况。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

但是,通常情况下,您将使用现有的基础模型开始开发您的应用程序。许多开源模型都可供像您这样的AI社区成员在您的应用程序中使用。一些主要框架的开发者,如用于构建生成性AI应用的Hugging Face和PyTorch,已经策划了您可以浏览这些模型的中心。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

这些中心的一个非常有用的特点是包括模型卡片,描述了每个模型的最佳用例、如何进行训练以及已知的限制的重要细节。您将在本周结束时的阅读材料中找到这些模型中心的一些链接。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

您选择的确切模型将取决于您需要执行的任务的细节。Transformers模型架构的变体适用于不同的语言任务,这主要是因为模型训练方式的差异。为了帮助您更好地了解这些差异,并发展关于哪个模型用于特定任务的直觉,让我们仔细看看大型语言模型是如何被训练的。有了这些知识,您将更容易浏览模型中心并找到最适合您用例的模型。

首先,让我们从高层次看看LLMs的初始训练过程。这个阶段通常被称为预训练。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

如您在第1课中所见,LLMs编码了语言的深度统计表示。这种理解是在模型的预训练阶段发展起来的,当模型从大量的非结构化文本数据中学习时。这可以是GB、TB,甚至是PB大小的非结构化文本。这些数据来自许多来源,包括从互联网上抓取的数据和为训练语言模型专门组装的文本语料库。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

在这个自监督学习步骤中,模型内化了语言中存在的模式和结构。这些模式然后使模型能够完成其训练目标,这取决于模型的架构,正如您很快将看到的那样。在预训练期间,模型权重得到更新,以最小化训练目标的损失。编码器为每个令牌生成一个嵌入或向量表示。预训练也需要大量的计算和使用GPUs。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

请注意,当您从公共网站如互联网抓取训练数据时,您通常需要处理数据以提高质量,解决偏见,并删除其他有害内容。由于这种数据质量策划,通常只有1-3%的令牌用于预训练。当您估计需要收集多少数据时,如果您决定预训练您自己的模型,您应该考虑这一点。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

本周早些时候,您看到Transformers模型有三种变体;仅编码器、编码器-解码器模型和仅解码器。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

每一个都是基于一个不同的目标进行训练的,因此学会执行不同的任务。

仅编码器模型也被称为自动编码模型,它们使用遮罩语言建模进行预训练。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

这里,输入序列中的令牌被随机遮罩,训练目标是预测遮罩令牌以重构原始句子。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

这也被称为去噪目标。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

自动编码模型产生了输入序列的双向表示,这意味着模型对令牌的整个上下文有了解,而不仅仅是之前的单词。仅编码器模型非常适合从这种双向上下文中受益的任务。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

您可以使用它们执行句子分类任务,例如情感分析或令牌级任务,如命名实体识别或单词分类。自动编码模型的一些众所周知的示例是BERT和RoBERTa。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

现在,让我们看看仅解码器或自回归模型,它们使用因果语言建模进行预训练。这里,训练目标是基于之前的令牌序列预测下一个令牌。
预测下一个令牌有时被研究人员称为完整的语言建模。基于解码器的自回归模型,遮罩输入序列,只能看到直到问题令牌的输入令牌。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

模型不知道句子的结尾。然后,模型一个接一个地迭代输入序列来预测下一个令牌。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

与编码器架构相反,这意味着上下文是单向的。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

通过学习从大量示例中预测下一个令牌,模型建立了语言的统计表示。这种类型的模型使用原始架构的解码器组件,而不使用编码器。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

仅解码器模型通常用于文本生成,尽管较大的仅解码器模型显示出强大的Zero shot推理能力,并且通常可以很好地执行一系列任务。GPT和BLOOM是基于解码器的自回归模型的一些众所周知的示例。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

Transformers模型的最后一个变体是使用原始Transformers架构的编码器和解码器部分的序列到序列模型。预训练目标的确切细节因模型而异。一个受欢迎的序列到序列模型T5,使用Span corruption跨度腐败预训练编码器,这遮罩随机输入令牌序列。那些遮罩序列然后被替换为一个唯一的哨兵令牌,这里显示为x。哨兵令牌是添加到词汇表的特殊令牌,但不对应于输入文本的任何实际单词。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

解码器然后被分配自回归地重建遮罩令牌序列。输出是哨兵令牌后面的预测令牌。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

您可以使用序列到序列模型进行翻译、摘要和问答。当您有一体文本作为输入和输出时,它们通常是有用的。除了T5,您将在本课程的实验室中使用,另一个众所周知的编码器-解码器模型是BART,不是Bird。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

总之,这是一个快速比较不同的模型架构和预训练目标的目标。自动编码模型使用遮罩语言建模进行预训练。它们对应于原始Transformers架构的编码器部分,通常与句子分类或令牌分类一起使用。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

自回归模型使用因果语言建模进行预训练。这种类型的模型使用原始Transformers架构的解码器组件,并经常用于文本生成。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

序列到序列模型使用原始Transformers架构的编码器和解码器部分。预训练目标的确切细节因模型而异。T5模型使用span corruption跨度腐败进行预训练。序列到序列模型通常用于翻译、摘要和问答。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

现在您已经看到了这些不同的模型架构是如何被训练的,以及它们适合的特定任务,您可以选择最适合您用例的模型类型。还有一件事要记住的是,任何架构的较大模型通常更有能力很好地执行它们的任务。研究人员发现,模型越大,就越有可能在没有额外的上下文学习或进一步训练的情况下按照您的需要工作。这种观察到的模型能力随大小增加的趋势,近年来推动了更大模型的发展。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

这种增长是由研究中的拐点驱动的,如高度可扩展的Transformers架构的引入,用于训练的大量数据的访问,以及更强大的计算资源的开发。
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

这种模型大小的稳定增长实际上使一些研究人员推测LLMs存在一个新的摩尔定律。像他们一样,您可能会问,我们是否可以只是继续添加参数来增加性能并使模型更智能?这种模型增长可能会导致什么?
LLM预训练大型语言模型Pre-training large language models,LLM-Large Language Models,语言模型,人工智能,自然语言处理

虽然这听起来很棒,但事实证明,训练这些巨大的模型是困难和非常昂贵的,以至于不断地训练更大和更大的模型可能是不可行的。让我们在下一个视频中仔细看看与训练大型模型相关的一些挑战。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/2T3Au/pre-training-large-language-models文章来源地址https://www.toymoban.com/news/detail-671066.html

到了这里,关于LLM预训练大型语言模型Pre-training large language models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大型语言模型(LLM, Large Language Models)基模和 Chat 模型之间的区别

    最近看大模型相关的知识,有看到大模型都有基础模型(base)和对话模型(chat),不太清楚什么时候用到基础模型,什么时候用到对话模型,故有此文。 通过了解,最简单的概述就是基于基础模型会训练出一个对话(Chat)模型,对话模型主要用于对话场景,基础模型主要做

    2024年02月21日
    浏览(32)
  • GPT(Generative Pre-Training)论文解读及实现(一)

    Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood: 在给定语料上下文环境下,目标时最大化下面的语言模型,即在给定前 i-1个词和参数θ前提下,使第 i 个词出现的概率最大。 we use a multi-layer Transformer decoder [34] for

    2024年02月15日
    浏览(150)
  • Grounded Language-Image Pre-training论文笔记

    Title:Grounded Language-Image Pre-training Code 目前的视觉识别任务通常是在一个预先定义好的类别范围内进行的,这样限制了其在真实场景中的扩展。CLIP的出现打破了这一限制,CLIP利用image-text对进行训练,从而使得模型可以根据文字prompt识别任意类别。CLIP适用于分类任务,而GLI

    2024年02月11日
    浏览(42)
  • 【论文笔记】Improving Language Understanding by Generative Pre-Training

    背景: 自然语言理解 包括广泛的不同任务,如文本蕴涵、QA问答、语义相似性评估和文档分类。 问题: 尽管 大型未标记文本语料库 (corpora)非常丰富;但用于 学习特定任务的标记数据 却很少,这使得采用传统的有监督深度学习方法训练得到的模型表现较差。 解决: 通过

    2024年03月24日
    浏览(59)
  • 【论文笔记】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS

    GitHub 视觉转换器的输入单元,即图像补丁,没有预先存在的词汇。 预测遮罩面片的原始像素往往会在预训练短程依赖性和高频细节上浪费建模能力 输入编码:通过tokenizer将输入的文本中的每个单词转换为固定维度的向量表示 输入Transformer 编码器:使用多层的 Transformer 编码

    2024年02月11日
    浏览(37)
  • BEiT: BERT Pre-Training of Image Transformers 论文笔记

    论文名称: BEiT: BERT Pre-Training of Image Transformers 论文地址:2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org) 代码地址:unilm/beit at master · microsoft/unilm (github.com) 作者讲解:BiLiBiLi 作者PPT:文章资源 首先展示的是我基于这个算法搭建的网页 demo ,欢迎体验。https://wangqvq-be

    2024年02月11日
    浏览(34)
  • 论文阅读-(GLIP)Grounded Language-Image Pre-training (目标检测+定位)

    Paper:Grounded Language-Image Pre-training Code:https://github.com/microsoft/GLIP 简介: 定位任务与图像检测任务非常类似,都是去图中找目标物体的位置,目标检测为给出一张图片找出bounding box,定位为给出一个图片和文本,根据文本找出物体。GLIP 模型统一了目标检测(object detection)和

    2024年02月05日
    浏览(32)
  • 【NLP经典论文精读】Improving Language Understanding by Generative Pre-Training

    chatGPT的初代工作,可以说没有GPT,就没有现在的大模型百家争鸣,本篇文章回顾这篇经典论文,思考作者是如何根据前者的工作在思想上进行创新,从而得到通用的模型架构。 Paper: https://www.mikecaptain.com/resources/pdf/GPT-1.pdf Code: https://github.com/huggingface/transformersGPT 自然语言理解

    2024年02月15日
    浏览(352)
  • 论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模态 论文,利用对比学习和动量来进行图片与文本信息的上游预训练。 作者提出问题 简单的跨模态比对模型无法确保来自同一模态的相似输入保持相似。(模态内部语义信息损失) 全局互信息最大化的操作没有考虑局部信息和结构信息。 对于上

    2024年04月13日
    浏览(41)
  • ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》

    以下是我阅读完整篇论文做的个人总结,基本包含了ChatGPT1设计的完整框架思路,可以仅看【论文总结】章节。 在GPT1实现的核心架构中,包含两个阶段。 第一阶段 在 第一阶段 基于一个包含 7000本书籍 内容的海量 未标注文本数据集 进行无监督预训练,该阶段引入了一种 T

    2024年02月05日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包