探索大语言模型垂直化训练技术和应用-陈运文

这篇具有很好参考价值的文章主要介绍了探索大语言模型垂直化训练技术和应用-陈运文。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

内容来源:ChatGPT 及大模型专题研讨会 

分享嘉宾:达观数据董事长兼CEO 陈运文博士

分享主题:《探索大语言模型垂直化训练技术和应用》 

转载自CSDN稿件

本文整理自 3月11日 《ChatGPT 及大规模专题研讨会》上,达观数据董事长兼CEO 陈运文博士关于《探索大语言模型垂直化训练技术和应用》的分享,将介绍达观数据在大语言模型应用中的探索与思考。

此次分享的主要内容分为 6 块,分别是:

  1. 参数规模和数据规模的探索

  2. 垂直领域适应预训练

  3. 微调技术探索

  4. 提示工程和垂直优化

  5. 模型训练加速思路

  6. 模型功能的垂直效能增强

在探索大语言模型应用过程中,将团队的思考列为了四点:

  • 整体来看,尽管模型的参数规模越大越好,但可探索性价比更高的参数规模方案

  • 训练数据尽管越多越好,但针对垂直场景可探索更高效和有针对性的数据提炼方法

  • 为强化垂直方向的效果,可在模型预训练和微调技术上探索一些好的思路

  • 为更贴合垂直场景的产品应用,探索模型的功能增强、以及 prompt 等方向的产品创新 

探索大语言模型垂直化训练技术和应用-陈运文

陈运文,达观数据董事长兼CEO,复旦大学博士,计算机技术专家,国际计算机学会(ACM)和电子电器工程师学会(IEEE)会员

参数规模和数据规模的探索

一、缩放法则 (Scaling Laws)

众所周知,大模型的算力非常惊人。在 2020 年,从 OpenAI 在语言模型方面的研究可以看到,语言模型的效果与参数量、数据量、计算量基本呈平滑的幂定律——缩放法则 (Scaling Laws) 。随着模型的参数量(Parameters)、参与训练的数据量(Tokens)以及训练过程累积的计算量(FLOPS)的指数性增大, 模型在测试集上的 Loss 就线性降低,也就意味着模型的效果越好。

探索大语言模型垂直化训练技术和应用-陈运文

Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

如下图所示,在运算量的增加过程中,参数规模的增加可以起到更关键的作用。在给定的计算量且参数规模较小时, 增大模型参数量对于模型效果的贡献,远优于增加数据量和训练步数。这也作为后续推出的 GPT-3(175B) 和其他千亿级别模型奠定了理论基础。

探索大语言模型垂直化训练技术和应用-陈运文

Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

二、Compute-Optimal 

在 2022 年,DeepMind 在 ScalingLaw 里又做了进一步分析。研究通过定量的实验验证,语言模型训练数据大小,应该和模型参数量大小等比放大。可以看到,在计算总量不变的情况下,模型训练的效果在参数量和训练数据量当中有个最优平衡点,曲线下面的最低点是在参数规模和训练数据量当中有个非常好的折中点。

探索大语言模型垂直化训练技术和应用-陈运文

Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.

进一步研究表明,像 GPT-3(175B) 这么大规模的参数里,用这三种计算方式进行拟合的话,会发现 GPT-3 并没有充分得到训练。

因此,我们需要考虑真正落地应用在垂直领域时,千亿级别参数规模的庞大模型所消耗的巨大成本,以避免参数的浪费。

探索大语言模型垂直化训练技术和应用-陈运文

Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.

三、Open and Efficient 

探索大语言模型垂直化训练技术和应用-陈运文

Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and Efficient Foundation Language Models[J]. arXiv preprint arXiv:2302.13971, 2023.

Meta 受到 DeepMind 理论的启发,在 2023 年推出了百亿模型 LLaMA,经过 1.4 万亿 Token(近 4.7 倍于 GPT-3 )的训练数据,在很多下游实验任务当中效果明显好于 GPT3 千亿规模的参数。因此,即便你的参数规模可能没那么大,增加训练 Token 量依然能够看到效果。

探索大语言模型垂直化训练技术和应用-陈运文

Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and Efficient Foundation Language Models[J]. arXiv preprint arXiv:2302.13971, 2023.

在训练过程中,无论是 65B、33B、17B,甚至 7B 的小模型,在训练数据接近超过万亿 Token 之后,下游任务的效果仍在提升,也就是说这些参数的潜力可以通过更多 Token 训练进一步激发出来。故此可推测,百亿模型的潜力仍有待深入挖掘,尤其在算力资源受限的情况下,存在性价比更高的优化空间。

四、数据规模存在瓶颈 :开放数据即将耗尽    

探索大语言模型垂直化训练技术和应用-陈运文

Villalobos P, Sevill文章来源地址https://www.toymoban.com/news/detail-495769.html

到了这里,关于探索大语言模型垂直化训练技术和应用-陈运文的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI大模型探索之路-训练篇3:大语言模型全景解读

    大规模语言模型(Large Language Models,LLM),也称大语言模型或大型语言模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法通过大量无标注文本进行训练。 语言模型旨在对于人类语言的内在规律进行建模,从而准确预测词序列中未来

    2024年04月26日
    浏览(51)
  • 垂直领域大模型——文档图像大模型的思考与探索

    12月1日,2023中国图象图形学学会青年科学家会议在广州召开。超1400名研究人员齐聚一堂,进行学术交流与研讨,共同探索促进图象图形领域“产学研”交流合作。 大会上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士在《垂直领域大模型》主题论坛上进行了

    2024年01月19日
    浏览(34)
  • ChatGPT:探索人工智能语言模型的前沿技术

    一、ChatGPT的背景和原理 ChatGPT是由OpenAI开发的基于GPT-3.5架构的语言模型。它通过大规模的预训练和微调过程,学习了海量的文本数据,并能够生成连贯、有逻辑的回答。ChatGPT使用了自注意力机制和深度神经网络,能够对上下文进行理解和生成有意义的响应。 二、ChatGPT在自然

    2024年02月16日
    浏览(74)
  • 自然语言处理从入门到应用——预训练模型总览:预训练模型的拓展

    分类目录:《自然语言处理从入门到应用》总目录 相关文章: · 预训练模型总览:从宏观视角了解预训练模型 · 预训练模型总览:词嵌入的两大范式 · 预训练模型总览:两大任务类型 · 预训练模型总览:预训练模型的拓展 · 预训练模型总览:迁移学习与微调 · 预训练模型

    2024年02月11日
    浏览(51)
  • 精进语言模型:探索LLM Training微调与奖励模型技术的新途径

    LLMs Trainer 是一个旨在帮助人们从零开始训练大模型的仓库,该仓库最早参考自 Open-Llama,并在其基础上进行扩充。 有关 LLM 训练流程的更多细节可以参考 【LLM】从零开始训练大模型。 使用仓库之前,请先安装所有需要的依赖: 继续预训练是指,在一个已有的模型上继续进行

    2024年02月11日
    浏览(39)
  • LLM大语言模型训练中常见的技术:微调与嵌入

    微调 (Fine-Tuning): 微调是一种用于预训练语言模型的技术。在预训练阶段,语言模型(如GPT-3.5)通过大规模的文本数据集进行训练,从而学会了语言的语法、语义和世界知识。然后,在微调阶段,模型会在特定任务或领域的小规模数据集上进行额外的训练。这个微调过程

    2024年02月06日
    浏览(46)
  • 【自然语言处理】:实验4布置,预训练语言模型实现与应用

    清华大学驭风计划 因为篇幅原因实验答案分开上传,自然语言处理专栏持续更新中,期待的小伙伴敬请关注 有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~ 案例简介  2018年,Google提出了预训练语言模型BERT,该模型在各种NLP任务上都取得了很好的效果。与

    2024年02月19日
    浏览(55)
  • 自然语言处理 Paddle NLP - 预训练语言模型及应用

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月08日
    浏览(77)
  • 【自然语言处理】:实验4答案,预训练语言模型实现与应用

    代码和报告均为本人自己实现(实验满分),只展示主要任务实验结果,如果需要详细的实验报告或者代码可以私聊博主,接实验技术指导1对1 运行模型,测试模型在有 100% / 50% / 10% training data(通过随机 sample 原 training set 一部分的数据,10%代表低资源的设定)的情况下模型

    2024年02月22日
    浏览(74)
  • 探索ChatGPT:了解语言模型在对话系统中的应用

      第一章:引言 在当今数字化时代,人工智能技术的迅猛发展使得对话系统成为一个备受关注的领域。随着语言模型的进步,像ChatGPT这样的模型正在改变我们与计算机进行交流的方式。本文将探索ChatGPT作为一种语言模型在对话系统中的应用,介绍其原理、技术案例,并探讨

    2024年02月11日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包