【AI学习】Transformer的Token嵌入表示为什么那么长

这篇具有很好参考价值的文章主要介绍了【AI学习】Transformer的Token嵌入表示为什么那么长。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

有朋友问,BERT等大模型的参数量怎么计算的?这个问题,李沐在BERT那篇论文中讲过,主要包括几部分。1、词嵌入:token数量乘以token表示的向量长度,就是 VH;2、注意力计算没有参数,只计算多头注意力的投影矩阵,三个输入的权重矩阵,每个矩阵参数= H(H/头数)头数= HH,输出的权重矩阵参数= HH,共是4HH;3、MLP部分,隐藏层为4H,输入输出层都为H,就是8HH。其他的一些参数量相对较少,大概的参数量就约等于Transformer块数(12HH)+VH。(下图截取自李沐讲论文之BERT篇)
【AI学习】Transformer的Token嵌入表示为什么那么长,AI学习,人工智能,学习,transformer
比如BERT的基础模型,H=768,Transformer块数是12块,V大概是3万,这样参数量就是一亿多。对于著名的GPT3,Transformer块数是96块,H=12288,这样参数量121228812288*96,大概就是1750亿。
这个问题不复杂,但是接着想到,H为什么要取那么大。对于BERT,Token的总数量大概是三万,三万的数量不用20bit就可以表示,为什么Token嵌入表示需要使用768维度的向量,并且,模型越大,Token嵌入表示的向量越长,这是为什么?
想到了这个问题,好像就进一步理解了Transformer架构的内涵。主要是为了使Token嵌入表示能够充分地捕捉到全局的语义信息。注意力机制的本质,我理解,就是信息汇聚,在一个长的文本序列中,通过不断的注意力汇聚,每一个Token除了本身的语义信息,还不断获得整个文本的信息,最后获得了文本序列中与自己相关的全部的语义信息,这样随着模型规模增大,语义信息汇聚的增加,Token嵌入表示就需要使用更高维度的向量表示。换句话说,经过Transformer编码器后的每个Token,已经不是一个单独的Token,而是拥有了过去、现在和未来的全局文本语义信息,能够理解过去,也能够预测未来。

然后继续联想到,大模型的语言,形成了与人类语言不同的范式,有点像蒋特德的科幻小说《你一生的故事》中的外星人的语言。想到这,就觉得,LLM真是太有意思了。

关于《你一生的故事》,摘录百度百科的介绍:
《你一生的故事》是一篇少见的以语言学为核心的科幻小说,荣获1998年的星云奖和斯特金奖。对于那些热衷于描写地球人与外星人交往的科幻作家来说,智慧生物之间交流所必需的语言本是他们必须要解决的首要问题。但是很显然,绝大多数作家都狡猾地回避了这个问题。在他们的故事中,语言障碍总是被一笔带过:故事开始不久,他们就让地球科学家拿着自动翻译器出现在了外星人面前。
从语言学角度切入描写两种智慧生物的交流是对想像力的挑战。科幻有史百余年来,只有特德·蒋在应对这种挑战中,取得了令人瞩目的成就。《你一生的故事》在将语言学的魅力表现到极致的同时,更奠定了特德·蒋科幻名家的地位。《你一生的故事》中的外星人被称为“七肢桶”。七肢桶文字,颇有几分像中国的象形文字,所不同的只是,七肢桶不是靠一个个具有独立意义的字词来表意,而是将所有需要表达的语意都统一在一个字内。语意越是繁复,这个字就越是复杂。
更奇妙的是七肢桶语言背后的感知世界的方式。那种方式与我们完全不同。我们依照前后顺序感知世界,将各个事件之间的关系理解为因与果;而“七肢桶”则同时感知所有事件,既可以先看“因”,也可以先看“果”。这种感知世界的方式深深影响了故事的主人公(她受政府委托掌握七肢桶语言的过程,就是她感知世界的方式发生改变的过程),她因而洞悉了自己,以及她那个暂时还不存在的女儿的一生。虽然我们很明白这意味着什么,但是,当读到“然后,突然间,我已经在太平间。一个勤杂工掀开罩单,露出你的脸。我看见的是二十五岁时的你(她的女儿)”时,那种惊悚,还是让我们猝不及防。小说独具匠心地采用了第一人称视角与第二人称视角交替推进的手法,字里行间充溢着科幻小说特有的奇异感。读者在感受七肢桶语言独特魅力的同时,更感受到一种缘于宿命的忧伤:那忧伤融和着诗一般的意象,最终凝聚成女主人公的感叹——“一瞥之下,过去与未来轰然同时并至,我的意识成为长达半个世纪的灰烬,时间未至已成灰。我的余生尽在其中。”文章来源地址https://www.toymoban.com/news/detail-857625.html

到了这里,关于【AI学习】Transformer的Token嵌入表示为什么那么长的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AIGC基础:大型语言模型 (LLM) 为什么使用向量数据库,嵌入(Embeddings)又是什么?

    嵌入: 它是指什么?嵌入是将数据(例如文本、图像或代码)转换为高维向量的数值表示。这些向量捕捉了数据点之间的语义含义和关系。可以将其理解为将复杂数据翻译成 LLM 可以理解的语言。 为什么有用?原始数据之间的相似性反映在高维空间中对应向量之间的距离上。

    2024年02月21日
    浏览(38)
  • 不是说嵌入式是风口吗,那为什么工作还那么难找?

    最近确实有很多媒体、机构渲染嵌入式可以拿高薪 ,这在行业内也是事实,但前提是你有足够的竞争力,真的懂嵌入式。 时至今日,能做嵌入式程序开发的人其实相当常见,尤其是随着树莓派、Arduino等开发板的普及,甚至软件工程师也可以转向嵌入式开发。 然而,真正能够

    2024年02月12日
    浏览(31)
  • AI训练,为什么需要GPU?

    随着人工智能热潮,GPU成为了AI大模型训练平台的基石,决定了算力能力。为什么GPU能力压CPU,成为炙手可热的主角呢?首先我们要先了解一下GPU的分类。提到分类,就得提及到芯片。 半导体芯片分为 数字芯片 和 模拟芯片 。其中,数字芯片的市场规模占比较大,达到70%左右

    2024年04月11日
    浏览(43)
  • 【译】为什么AI难以概念化时间

    原作:FNTGAI 引言:如何弥合AI与先验概念之间的鸿沟   时间不是你能看到、听到或触摸到的东西。这就是康德所说的“先验”,意味着它在感官中没有对应物。你无法给时间贴标签或分类。这使得AI很难建立时间概念。例如,考虑一下当您询问 ChatGPT 您与它交谈了多长时间时

    2024年02月20日
    浏览(34)
  • 为什么是ChatGPT引发了AI浪潮?

    目录 BERT和GPT简介 BERT和GPT核心差异 GPT的优势 GPT的劣势 总结 随着近期ChatGPT的火热,引发各行各业都开始讨论AI,以及AI可以如何应用到各个细分场景。为了不被时代“抛弃”,我也投入了相当的精力用于研究和探索。但在试验的过程中,我的直观感受是,NLP很厉害,但GPT并不

    2024年02月06日
    浏览(29)
  • AI写作宝-为什么要使用写作宝

    写作一直是一项需要创造力和思考的任务,人工智能(AI)正逐渐成为我们写作过程中的一位新伙伴。AI写作宝等在线AI写作工具正日益普及,为我们提供了更多的写作选择和可能性。 AI写作宝:什么是它们,以及它们能做什么? AI写作宝是一种基于人工智能技术的在线工具,

    2024年02月07日
    浏览(41)
  • ai写作论文会被抄袭吗为什么

    大家好,小发猫降重今天来聊聊ai写作论文会被抄袭吗为什么,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:AI写作论文会被抄袭吗?背后原因深度解析 近年来,随着人工智能技术的飞速发展,AI写作论

    2024年03月10日
    浏览(48)
  • 【译】为什么AI写作会显得枯燥无味

    原作:本·乌兰西 引子:绘画中减色混合的原理   照片由 Unsplash 上的 Lucas K 拍摄 当我还是个孩子的时候,我坐在一个有各种颜色的调色板前,努力尝试混合尽可能多的颜色。怀着兴奋的眼神,我看着鲜艳的颜色在画面上融合。随着越来越多的颜色相互融合,我困惑地盯着由

    2024年02月19日
    浏览(24)
  • 为什么不要相信AI机器人提供的健康信息?

    自从OpenAI、微软和谷歌推出了AI聊天机器人,许多人开始尝试一种新的互联网搜索方式:与一个模型进行对话,而它从整个网络上学到的知识。 专家表示,鉴于之前我们倾向于通过搜索引擎查询健康问题,我们也不可避免地会向ChatGPT、Bing和Bard等工具提问。然而,这些工具会

    2024年02月08日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包