LLMs领域适应的预训练Pre-training for domain adaptation

这篇具有很好参考价值的文章主要介绍了LLMs领域适应的预训练Pre-training for domain adaptation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

到目前为止,我强调了在开发应用程序时,您通常会使用现有的LLM。这为您节省了大量时间,并可以更快地得到一个工作原型。

但是,有一种情况下,您可能会发现有必要从头开始预训练自己的模型。如果您的目标领域使用的词汇和语言结构在日常语言中并不常用,您可能需要进行领域适应以实现良好的模型性能。

例如,想象一下您是一个开发人员,正在构建一个应用程序,帮助律师和律师助理总结法律摘要。法律写作使用了非常特定的术语,如第一个例子中的"mens rea"和第二个例子中的"res judicata"。这些词在法律界外很少使用,这意味着它们不太可能在现有LLM的训练文本中广泛出现。因此,模型可能难以理解这些术语或正确使用它们。
LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

另一个问题是,法律语言有时在不同的上下文中使用日常词汇,如第三个例子中的"consideration"。这与友善无关,而是指的是使协议可执行的合同的主要元素。出于类似的原因,如果您尝试在医疗应用中使用现有的LLM,可能会遇到挑战。

医学语言包含许多不常用的词汇来描述医学状况和程序。这些可能不会经常出现在由网络抓取和书籍文本组成的训练数据集中。有些领域也以高度特异的方式使用语言。

这最后一个医学语言的例子可能只是一串随机字符,但它实际上是医生用来写处方的速记。这段文字对于药剂师来说意义非凡,意思是饭后和睡前口服一片,每天四次。
LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

因为模型通过原始预训练任务学习它们的词汇和语言理解,所以从头开始预训练您的模型将为法律、医学、金融或科学等高度专业化的领域产生更好的模型。

现在,让我们回到BloombergGPT,首次在2023年由Bloomberg的Shijie Wu、Steven Lu和同事们在一篇论文中宣布。BloombergGPT是一个已经为特定领域预训练的大型语言模型的例子,这个领域是金融。

Bloomberg的研究人员选择将金融数据和通用税务数据结合起来,预训练一个在金融基准上取得最佳结果的模型,同时在通用LLM基准上保持竞争性能。因此,研究人员选择了由51%的金融数据和49%的公共数据组成的数据。
LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

在他们的论文中,Bloomberg的研究人员更详细地描述了模型的架构。他们还讨论了他们是如何从Chinchilla的缩放法则开始寻求指导,以及他们在哪里不得不做出权衡。

这两张图比较了包括BloombergGPT在内的一些LLM与研究人员讨论的缩放法则。
LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

左边,对角线追踪了一系列计算预算的最佳模型大小,以十亿参数为单位。

右边,线追踪了计算最佳训练数据集大小,以令牌数量为单位。

每张图上的虚线粉红线表示Bloomberg团队用于训练新模型的计算预算。
LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

粉红色阴影区域对应于Chinchilla论文中确定的计算最佳缩放损失。
LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

在模型大小方面,您可以看到BloombergGPT大致遵循了给定计算预算为130万GPU小时,或大约2.3亿petaflops的Chinchilla方法。模型只是略高于粉红色阴影区域,表明参数数量接近最佳。
LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

然而,用于预训练BloombergGPT的实际令牌数量为5690亿,低于可用计算预算的推荐Chinchilla值。小于最佳的训练数据集是由于金融领域数据的有限可用性。
LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

显示实际约束可能迫使您在预训练自己的模型时做出权衡。

恭喜您完成了第一周的学习,您已经涵盖了很多内容,所以让我们花一分钟回顾一下您所看到的。

  1. Mike带您了解了LLM的一些常见用途,如写作、对话摘要和翻译。
    LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

  2. 然后,他详细介绍了为这些模型提供动力的Transforms架构。

  3. 并讨论了您在推理时可以使用的一些参数来影响模型的输出。

  4. 他总结了一个您可以用来计划和指导应用程序开发工作的生成性AI项目生命周期。
    LLMs领域适应的预训练Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,语言模型

  5. 接下来,您看到了模型在一个称为预训练的初始训练阶段如何在大量的文本数据上进行训练。这是模型发展其语言理解的地方。

  6. 您探讨了训练这些模型的计算挑战,这些挑战是很大的。

  7. 在实践中,由于GPU内存限制,您几乎总是在训练模型时使用某种形式的量化。

  8. 您本周结束时讨论了LLM的缩放法则以及如何使用它们设计计算最佳模型。

如果您想阅读更多的细节,请务必查看本周的阅读练习。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/BMxlN/pre-training-for-domain-adaptation文章来源地址https://www.toymoban.com/news/detail-668307.html

到了这里,关于LLMs领域适应的预训练Pre-training for domain adaptation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然语言处理(Natural Language Processing,NLP)领域内的 预训练语言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。

    2024年02月14日
    浏览(44)
  • 论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    标题:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI   文章给出了一种新的NLP预训练模型的训练方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    浏览(41)
  • 【论文笔记】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

    论文地址:https://arxiv.org/abs/2302.00861 时间序列分析被广泛应用于各个领域。近年来,为了降低标签费用,使各种任务受益, 自我监督式预训练 引起了人们的极大兴趣。一种主流范式是 masked 建模,它通过学习基于未 masked 部分 重构 masked 内容来成功地预训练深度模型。然而,

    2024年01月21日
    浏览(37)
  • 跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 视觉语言预训练的位置引导文本提示 视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力,促进了各种跨模态的学习任务。 然而,我们注意到,VLP模型往往缺乏视觉基础/定位能力,这对许多下游任务如视觉推理至

    2024年02月11日
    浏览(34)
  • LLMs参考资料第一周以及BloombergGPT特定领域的训练 Domain-specific training: BloombergGPT

    以下是本周视频中讨论的研究论文的链接。您不需要理解这些论文中讨论的所有技术细节 - 您已经看到了您需要回答讲座视频中的测验的最重要的要点。 然而,如果您想更仔细地查看原始研究,您可以通过以下链接阅读这些论文和文章。 注意力就是你需要的 《Attention is Al

    2024年02月11日
    浏览(28)
  • GPT(Generative Pre-Training)论文解读及实现(一)

    Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood: 在给定语料上下文环境下,目标时最大化下面的语言模型,即在给定前 i-1个词和参数θ前提下,使第 i 个词出现的概率最大。 we use a multi-layer Transformer decoder [34] for

    2024年02月15日
    浏览(146)
  • Grounded Language-Image Pre-training论文笔记

    Title:Grounded Language-Image Pre-training Code 目前的视觉识别任务通常是在一个预先定义好的类别范围内进行的,这样限制了其在真实场景中的扩展。CLIP的出现打破了这一限制,CLIP利用image-text对进行训练,从而使得模型可以根据文字prompt识别任意类别。CLIP适用于分类任务,而GLI

    2024年02月11日
    浏览(36)
  • 【论文笔记】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS

    GitHub 视觉转换器的输入单元,即图像补丁,没有预先存在的词汇。 预测遮罩面片的原始像素往往会在预训练短程依赖性和高频细节上浪费建模能力 输入编码:通过tokenizer将输入的文本中的每个单词转换为固定维度的向量表示 输入Transformer 编码器:使用多层的 Transformer 编码

    2024年02月11日
    浏览(31)
  • BEiT: BERT Pre-Training of Image Transformers 论文笔记

    论文名称: BEiT: BERT Pre-Training of Image Transformers 论文地址:2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org) 代码地址:unilm/beit at master · microsoft/unilm (github.com) 作者讲解:BiLiBiLi 作者PPT:文章资源 首先展示的是我基于这个算法搭建的网页 demo ,欢迎体验。https://wangqvq-be

    2024年02月11日
    浏览(30)
  • 【论文笔记】Improving Language Understanding by Generative Pre-Training

    背景: 自然语言理解 包括广泛的不同任务,如文本蕴涵、QA问答、语义相似性评估和文档分类。 问题: 尽管 大型未标记文本语料库 (corpora)非常丰富;但用于 学习特定任务的标记数据 却很少,这使得采用传统的有监督深度学习方法训练得到的模型表现较差。 解决: 通过

    2024年03月24日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包