LLM技术发展及在垂直领域中如何应用-经验学习大全

这篇具有很好参考价值的文章主要介绍了LLM技术发展及在垂直领域中如何应用-经验学习大全。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大语言模型综述

前景

语言建模(LM)是提高机器语言智能的主要方法之一。一般来说,LM旨在对词序列的生成概率进行建模,以预测未来tokens的概率。语言建模的研究在文献中受到了广泛关注,可以分为四个主要发展阶段:

  • 统计语言模型(SLM): 起源于 20世纪90年代。其基本思想是基于马尔可夫假设建立词预测模型,由于需要估计指数级数量的转换概率,因此很难准确估计高阶语言模型。因此需要专门设计平滑策略,如回退估计和古德图灵估计被引入以缓解数据稀疏问题。

  • 神经语言模型(NLM): 通过神经网络,如循环神经网络(RNN),来描述单词序列 的概率。作为一个显著贡献。工作引入了词的分布式表示这一概念,并在聚合上下文特征的条件下构建词预测函数。有研究开发了一种通用神经网络方法来为各种NLP任务构建统一解决方案。word2vec提出了构建一个简化的浅层神经网络来学习分布式单词表示方法,这些表示在各种NLP任务重被证明非常有效。

  • 预训练语言模型(PLM): 作为早期尝试,ELMo被提出来通过预训练一个双向LSTM网络来捕捉上下文感知的词表示,然后根据特定的下游任务微调biLSTM网络。进一步,基于自注意力机制的高度并行化Transformer架构,BERT作为双向 语言模型,在大规模无标签库上使用专门设计的预训练任务。利用预训练的上下文感知词表示作为通用语义特征非常有效,其极大地提高了NLP任务的性能。

  • 大语言模型(LLM): 拓展PLM通常会提高下游任务的模型性能。许多研究通过训练越来越大的PLM来探索性能极限。GPT-3通过上下文学习来解决少样本任务,但gpt-2表现不佳。

大模型目前已经具备了开放世界的理解能力。大模型往往也是通用的,而通用是理解领域的前提。一般来说训练语料越广泛而多样,通用大模型能力越强。大模型具备强大的组合创新能力,其能够将任意两种学科组合创新,“举一反三”成为可能。大模型也具备强大的评估评价能力。例如,GPT4其在语义相关任务中具有出色的评估能力,这使得高质量的自动化评估成为可能。基于n-gram的自动评估指标无法聚焦于翻译质量,后续可使用GPT-4类大模型对习语翻译质量打分。大模型对于用户的指令提示高度敏感,能够遵循指令完成任务,大模型的智能本质上情景化生成能力。基于思维链等技术,大模型初步具备复杂任务的分解能力,具备一定的完成复杂任务所需的动作规划能力。大模型已经具备了常识、符号和逻辑推理等复杂推理能力。大模型在学习语言的过程中捕捉到数据中价值观的共性,并在某些情况下将它们表达出来(价值对齐)。大模型具备了统一的任务形式,所有的任务都可以统一为生成范式。

百亿参数量级别的模型通常需要数百甚至上千个GPU或TPU。例如,GPT_NeoX-20B使用了12个为微服务器,每个服务器配备了8个NVIDIA A100-SXM4-40GB GPU,LLaMA使用了2048个A100-80G GPU。为了准确估计所需的计算资源,还是建议使用衡量涉及计算量的指标,例如计算FLOPS(每秒浮点数运算次数)。

千亿参数量级别的模型通常需要数千个GPU或TPU进行训练。例如,OPT(175B)使用了992个A100-80GB GPU,GLM(130B)使用了96个NVIDIA DGX-A100(8x40G) GPU节点集群。

大语言模型的公共API。当下OpenAI提供了七个主要的 GPT-3系列模型接口:ada、babbage(1B)、curie(6.7B)、davinci(175B)、text-ada-001、text-babbage-001和 text-curie-001。

已有的大模型

LLM技术发展及在垂直领域中如何应用-经验学习大全,学习,人工智能,大模型,语言模型,GPT

  1. GPT-3 [55]

  2. PaLM [56](将参数规模提升到了破纪录的5400亿)

  3. Galactica [34]

  4. LLaMA(65B)

  5. DeepSpeed和Megatron-LM,为了支持分布式训练,发布了一些优化框架来促进并行算法的实现和部署

  6. GPT-4提出开发特殊的基础设施和优化方法,可靠地预测远小于大模型的小模型的性能;其也采用了类似于InstructGPT的技术,在产生高质量、无害的回答方面表现出很强的对齐能力。

  7. InstructGPT设计了一种有效的微调方法,使LLM与人类价值观保持一直。其中利用了基于人类反馈的强化学习技术(P. F. Christiano, J. Leike, T. B. Brown, M. Martic, S. Legg, and D. Amodei, “Deep reinforcement learning from human preferences,” in Advances in Neural Infor mation Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, I. Guyon, U. von Luxburg, S. Bengio, H. M. Wallach, R. Fergus, S. V. N. Vishwanathan, and R. Garnett, Eds., 2017, pp. 4299–4307)。他将人类纳入训练循环中,采用精心设计的标注策略。

  8. NLLB(最大版本54.5B)

  9. F文章来源地址https://www.toymoban.com/news/detail-612676.html

到了这里,关于LLM技术发展及在垂直领域中如何应用-经验学习大全的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 视频生成领域的发展概述:从多级扩散到LLM

    2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。 在这篇文章中,我们将整理视频生成在

    2024年02月21日
    浏览(39)
  • 人员定位系统的功能及在不同领域的应用

    人员定位系统是实时定位系统(RTLS)的一种,是用于跟踪人员位置的软硬件一体化系统。它使用无线通信技术和传感器来获取位置数据,并将其发送到监控中心或移动设备。它在多个领域使用,包括工业、医疗保健、军事、物流等。下面我们将讨论人员定位系统的功能及在不

    2024年02月07日
    浏览(55)
  • CloudNative:云原生(分布式云)的简介(发展&演变/为什么需要/优势&价值/安全/对比传统企业应用)、四大核心技术、CNCF云原生交互景观、云原生技术的使用经验及方法之详细攻略

    CloudNative:云原生(分布式云)的简介(发展演变/为什么需要/优势价值/安全/对比传统企业应用)、四大核心技术、CNCF云原生交互景观、云原生技术的使用经验及方法之详细攻略 导读 :从“ 软件正在吞噬世界 ”到“ 开源正在吞噬软件 ”,到如今“ 云原生吞噬开源 ”,开源项目

    2023年04月16日
    浏览(217)
  • 前沿技术的发展领域

    人工智能(AI):人工智能是一种模拟人类智能行为和思维过程的技术,包括机器学习、自然语言处理和计算机视觉等领域。它在医疗诊断、机器人技术和自动驾驶等方面有广泛的应用。 量子计算机:量子计算机利用量子力学原理进行计算,其处理速度和能力远远超越传统计

    2024年02月12日
    浏览(37)
  • Graph + LLM图数据库技术如何助力行业大语言模型应用落地

    随着 AI 人工智能技术的迅猛发展和自然语言处理领域的研究日益深入,如何构建强大的大语言模型对于企业来说愈发重要,尤其是在特定行业领域中。 图数据库作为处理复杂数据结构的有力工具,为企业构建行业大语言模型提供了强大的支持。本文将探讨图数据库和图技术

    2024年02月22日
    浏览(49)
  • 系统级封装(SiP)技术如何助力智能化应用发展呢?

    智能化时代,各种智能设备、智能互连的高速发展与跨界融合,需要高密度、高性能的微系统集成技术作为重要支撑。 例如,在系统级封装(SiP)技术的加持下,5G手机的射频电路面积更小,但支持的频段更多。 射频前端(RFFE)、低功耗蓝牙、WiFi、雷达(Radar)、传感器(

    2024年02月11日
    浏览(48)
  • VR全景技术如何应用在城市发展,助力城市宣传展示

    引言: 随着科技的不断发展,VR全景技术正逐渐渗透到各行各业,其中较为广泛的应用之一便是城市展示。那么VR全景技术如何运用在城市展示领域,这项技术给城市发展带来了哪些好处? 一. VR全景技术简介 1.什么是VR全景技术? VR全景技术是利用虚拟现实技术,通过360度全

    2024年01月18日
    浏览(50)
  • 和数集团Baas服务如何推动区块链技术应用和产业发展?

    近日,《区块链和分布式记账技术 参考架构》(GB/T 42752-2023)国家标准正式发布。这是我国首个获批发布的区块链技术领域国家标准。该标准在区块链技术应用和产业发展方面提出了参考架构规范,包括用户视图、功能视图、实现视图和部署视图。在功能架构方面,包含用户层

    2024年02月15日
    浏览(41)
  • 数字化印刷技术在物流领域的应用:如何保证印刷品的质量和安全?

    作者:禅与计算机程序设计艺术 随着信息技术的发展,数字化技术已经逐渐成为主要的生产方式。数字化技术可以提高生产效率、降低成本、缩短产品开发时间、提升竞争力等方面的能力。近年来,数字化印刷技术也在蓬勃发展,成为物流行业的一个重要领域。但是,由于印

    2024年02月01日
    浏览(67)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包