[ai笔记13] 大模型架构对比盘点:Encoder-Only、Decoder-Only、Encoder-Decoder

这篇具有很好参考价值的文章主要介绍了[ai笔记13] 大模型架构对比盘点:Encoder-Only、Decoder-Only、Encoder-Decoder。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

欢迎来到文思源想的ai空间,这是技术老兵重学ai以及成长思考的第13篇分享!

最近看完《这就是chatgpt》对于大语言模型的三种架构演进图印象颇深,今日就专题盘点一下三种大模型架构理论,同时做一个简单对比。

encoder-only,文思AI笔记,人工智能,文思ai笔记,AIGC,架构,语言模型

1 Encoder-Only架构

Encoder-Only 架构,也被称为单向架构,仅包含编码器部分。它主要适用于不需要生成序列的任务,只需要对输入进行编码和处理的单向任务场景,如文本分类、情感分析等。这种架构的代表是 BERT 相关的模型,例如 BERT、RoBERT 和 ALBERT 等。

Encoder-Only 架构的核心思想是利用神经网络对输入文本进行编码,提取其特征和语义信息,并将编码结果传递给后续的处理模块。这种架构的优点是能够更好地理解输入文本的语义和上下文信息,从而提高文本分类和情感分析等任务的准确性。缺点是它无法直接生成文本输出,因此在需要生成文本的任务中不太适用。

Encoder-Only架构的大模型有谷歌的BERT、智谱AI发布的第四代基座大语言模型GLM4等。其中,BERT是基于Encoder-Only架构的预训练语言模型。GLM4是智谱AI发布的第四代基座大语言模型,该模型在IFEval评测集上,在Prompt提示词跟随(中文)方面,GLM-4达到了GPT-4 88%的水平。

2 Decoder-Only架构

Decoder-Only 架构,也被称为生成式架构,仅包含解码器部分。它通常用于序列生成任务,如文本生成、机器翻译等。这种架构的模型适用于需要生成序列的任务,可以从输入的编码中生成相应的序列。同时,Decoder-Only 架构还有一个重要特点是可以进行无监督预训练。在预训练阶段,模型通过大量的无标注数据学习语言的统计模式和语义信息。

Decoder-Only 架构的优点是擅长创造性的写作,比如写小说或自动生成文章。它更多关注于从已有的信息(开头)扩展出新的内容。其缺点是需要大量的训练数据来提高生成文本的质量和多样性。

Decoder-Only架构的大模型的代表有GPT系列、LLaMA、OPT、BLOOM等。这类模型采用预测下一个词进行训练,常见下游任务有文本生成、问答等,因此被称为ALM(Autoregressive Language Model)。

国内采用Decoder-Only架构研发的大模型有妙想金融大模型、XVERSE-13B大模型等。其中,妙想金融大模型是东方财富旗下自主研发的金融行业大语言模型,目前已经覆盖了7B、13B、34B、66B及104B参数。而XVERSE-13B大模型是由前腾讯副总裁、腾讯AI lab创始人姚星创立的明星独角兽元象研发的,该模型支持40多种语言、8192上下文长度,在多项中英文测评中,性能超过了同尺寸(130亿参数)的LIama2、Baichuan等。

3 Encoder-Decoder架构

Encoder-Decoder 架构,也被称为序列到序列架构,同时包含编码器和解码器部分。它通常用于序列到序列(Seq2Seq)任务,如机器翻译、对话生成等。这种架构的代表是以 Google 训练出来的 T5 为代表的相关大模型。

Encoder-Decoder 架构的核心思想是利用编码器对输入序列进行编码,提取其特征和语义信息,并将编码结果传递给解码器。然后,解码器根据编码结果生成相应的输出序列。这种架构的优点是能够更好地处理输入序列和输出序列之间的关系,从而提高机器翻译和对话生成等任务的准确性。缺点是模型复杂度较高,训练时间和计算资源消耗较大。

Encoder-Decoder架构的大模型有很多,例如Google的T5模型、华为的盘古NLP大模型等。

其中,华为的盘古NLP大模型首次使用Encoder-Decoder架构,兼顾NLP大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性。在下游应用中,仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配,这一模型在智能舆论以及智能营销方面都有不错的表现。

4 架构分析

以上三种架构各有优劣,其应用场景和前景也不尽相同。Encoder-Only 架构适用于文本分类和情感分析等任务,其前景主要取决于其在这些任务中的性能和准确性。Decoder-Only 架构适用于文本生成和机器翻译等任务,其前景主要取决于其生成文本的质量和多样性。Encoder-Decoder 架构适用于机器翻译和对话生成等任务,其前景主要取决于其在这些任务中的性能和准确性。

总的来说,这三种架构都有其独特的优势和应用场景,未来的发展前景也非常广阔。随着技术的不断进步和应用场景的不断拓展,这三种架构将会得到更广泛的应用和发展。文章来源地址https://www.toymoban.com/news/detail-840180.html

到了这里,关于[ai笔记13] 大模型架构对比盘点:Encoder-Only、Decoder-Only、Encoder-Decoder的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 盘点国内10家互联网AI大模型

      ChatGPT在国内掀起热潮后,中国的生成式AI技术也迎来了蓬勃发展。 中国国产AI模型的前景非常广阔,尤其是在中国国家战略的推动下,人工智能领域正在迅速发展。中国的公司和研究机构都在积极进行研发,并取得了一些重大进展。 下面我们来看一下已经开始内测的国产大

    2024年02月09日
    浏览(42)
  • 企业架构LNMP学习笔记13

    上线商城项目: 1)上传项目文件到数据库:   入口文件位置的设计是为了让应用部署更安全,public目录为web可访问目录,其他的文件都可以放到非web访问目录下面。 nginx 默认访问index.html。没有index.html,就会列出目录结构,没有权限列出,所以就显示403。   需要配置数据库

    2024年02月09日
    浏览(38)
  • 系统架构设计师笔记第13期:需求工程

    需求工程(Requirements Engineering)是软件工程中的一个关键过程,旨在识别、分析、规范和验证软件系统的需求。它涉及与相关利益相关者合作,以确保对软件系统的需求达成一致,从而为后续的设计、开发和测试活动提供基础。需求工程通常包括以下活动: 需求收集:在此阶

    2024年02月09日
    浏览(39)
  • AI大模型探索之路-应用篇13:企业AI大模型选型指南

    目录 前言 一、概述 二、有哪些主流模型? 三、模型参数怎么选? 四、参数有什么作用? 五、CPU和GPU怎么选? 六、GPU和显卡有什么关系? 七、GPU主流厂商有哪些? 1、NVIDIA芯片怎么选? 2、CUDA是什么? 3、AMD芯片怎么选? 4、NVIDIA和AMD两者有什么区别? 八、GPU显存怎么选?

    2024年04月17日
    浏览(65)
  • 《微SaaS创富周刊》第3期:GPT-3\ChatGPT、Stable Diffusion等AI模型驱动的微SaaS创意盘点

    大家新年好!第3期《微SaaS创富周刊》问世啦!本周刊面向独立开发者、早期创业团队,报道他们主要的产品形态——微SaaS如何变现的最新资讯和经验分享等。所谓微SaaS,就是“针对利基市场的SaaS”,特点是一般由个人或者小团队来运营,研发和运营成本相对低廉,并专注

    2024年01月23日
    浏览(44)
  • 国内外AI绘画『文生图』大模型效果对比

    最近AI作画确实很火,在DALL-E和Imagen崭露头角之后,ERNIE-ViLG、Stable-Diffusion(SD)、Disco-Diffusion相继开源开放,涌现出丰富多彩的AI作画作品。本次通过一个开源工具来整体测试三种模型效果,用几行代码就整体测试国内外模型的效果。 ERNIE-ViLG效果 prompt:明日方舟,炫酷,兽

    2024年02月09日
    浏览(45)
  • (四) timer+pit(定时器中断)+encoder(编码器)-逐飞TC264库学习(对比STM32 HAL库)

    PIT , 是programmable interval timer 可编程间隔定时器 DSC中的器件 的缩写,所以就是定时器中断,有点像32里的timer(TIMx) 目前看来一共能用通道的有四个 typedef enum // 枚举通道号 {     CCU60_CH0,     CCU60_CH1,     CCU61_CH0,     CCU61_CH1, }pit_index_enum; 因为涉及到中断,为方便设定中断优

    2024年03月15日
    浏览(71)
  • 6种最常用的3D点云语义分割AI模型对比

    由于增强现实/虚拟现实的发展及其在计算机视觉、自动驾驶和机器人领域的广泛应用,点云学习最近引起了人们的关注。 深度学习已成功用于解决 2D 视觉问题,然而,由于其处理面临独特的挑战,深度学习技术在点云上的使用仍处于起步阶段。 推荐:用 NSDT编辑器 快速搭建

    2024年04月17日
    浏览(37)
  • AI绘画与虚拟人生成实践(一):生成人像,AI绘画模型和工具的效果对比

    本篇的目的是生成一个虚拟的女生形象。先进入正题说明人像怎么生成,本篇使用到的工具和工具的介绍放在文末。 先来一波Midjourney生成的美图提升下大家学习的欲望 以上四张图使用的是相同的Prompt,如下: a beautiful chinese girl, 18 years old, detailed and big eyes, white and soft skin,

    2024年02月09日
    浏览(47)
  • 用Python streamlit实现简单的AI 大模型对话对比器

    如何实现与AI大模型的对话?一种选择是登陆AI大模型厂商提供的对话网站或者App。另外,目前网络上还有很多开源的实现,比如Chatbox,Chathub,ChatALL等等。这些项目大多使用Typescript, Javascript,提供配置功能,大模型人设等功能。 这篇文章里,我们使用 Python 的几十行代码来

    2024年03月13日
    浏览(189)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包