[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics

这篇具有很好参考价值的文章主要介绍了[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本节主要介绍NLP和大模型的基础知识。提及了词表示如何从one-hot发展到Word Embedding。语言模型如何从N-gram发展成预训练语言模型PLMs。然后介绍了大模型在NLP任务上的表现,以及它遵循的基本范式。最后介绍了本课程需要用到的编程环境和GPU服务器。

一篇NLP方向的综述推荐

Advances in Natural Language Processing - Julia Hirschberg,Columbia University(见绑定资源)

基本任务和应用

包括词性标注(Part of speech tagging),命名实体识别,共指消解,依赖关系。对于中文,由于词与词没有空格,所以还有一个中文的自动分词的任务。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

  • 搜索引擎和广告:如何衡量用户的query与所有document的语义相似度-NLP要解决的问题;利用互联网之间的链接信息判断网站或网页的质量-数据挖掘和信息检索关心的问题
  • Knowledge Graph:知识图谱里有非常多NLP问题,如给定一个用户的查询,如何去匹配或寻找最相关的实体,以及相关知识。如何从大规模文本中挖掘,构建大的知识图谱,如何获取三元组结构化知识,本身也需要NLP技术。
  • Knowledge Graph Application:Question Answering
  • Machine Reading:从文本中抽取结构知识,扩展和更新知识图谱
  • Personal Assistant
  • Machine Translation
  • Sentiment Analysis and Opinion Mining
  • Computational Social Science

词表示

词表示的目标:
1.计算词相似性:相似
2.推断词之间的关系
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

常用的词表示方式:one-hot表示

[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记
这种表示方法的缺点是:任意两个词都是相互正交的。不利于考虑相似性。

基于共现词次数的表示

NLP提出了一种contextual的distribution。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记
这种表示方法的缺点是:词表越大,存储要求越高;低频词很稀疏,导致不够鲁棒。

Word Embedding

构建一个低维稠密向量空间,学习每个词的低维稠密向量表示。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

语言模型(Language Modeling)

语言模型的任务是预测下一个词。
它的工作包括两个:1.一个序列的词成为一句话的概率;2.根据已有的词序列,预测下一个词出现的概率。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

基本假设

未来的词只会收到之前词的影响。这样联合概率就可以拆解成如下的条件概率。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

N-gram Model

先介绍一种,在深度学习出现前,经典且重要的语言模型构建方式:N-gram。
以4-gram为例,讨论never to late to后面出现wj的概率,可以用语料库中,too late to wj出现的次数除以too late to出现的次数。
需要统计所有出现的n-gram序列的频度。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记
N-gram的问题是:
1.N一般只会取2或者3:因为取过大的N,序列在语料库中出现的次数会变少,会导致统计结果稀疏。同时过大的N会导致存储的量增大。
2.不能反映词之间的相似性:N-gram是基于符号去做统计,所以对它而言,所有词都是独立的。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

神经语言模型

神经语言模型是基于神经网络来学习词的分布式表示的语言模型。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记
假设当前要预测第t个词为词i的概率,考虑前面n个词:
1.将前面n个词表示成低维向量(从Word Embedding学到的低维稠密向量空间中找到)。
2.拼接上面的低维向量,形成更高的上下文向量。
3.经过非线性转换。
4.利用这个向量来预测下一个词是什么。
所有词的向量,以及整个预测的过程,都是基于神经网络的可调节可学习参数来完成。因此可以利用大规模数据来学习这些向量。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

大模型的发展历程

[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

为什么大模型非常重要

在语言理解,语言生成(如对话系统任务)上,预训练语言模型(PLMs)已经比人类表现要好了。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记
18年开始,PLMs的三个趋势是:更多的参数;更大规模的语料数据;更大规模的分布式计算。这些方式能显著提升模型性能。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记
GPT-3中,我们可以看到PLMs所涌现出来的人类知识。这说明文本知识会被捕捉到PLMs中,并且在大量参数中存储下来。所以渐渐地,大家会将PLMs作为解决NLP问题的基础工具。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记
另一方面,GPT-3有很强的零/小样本学习的能力。
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

大模型背后的范式

预训练阶段,PLMs会从大量无标注数据中进行学习,通过一些自监督任务,去做预训练,从中得到丰富的知识。
在具体应用时候,会引入一些任务相关数据,然后对模型进行微调。
最终保留任务相关的知识。最终得到一个解决具体任务的模型。

[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics,深度学习,读书笔记,自然语言处理,学习,笔记

编程环境和GPU服务器介绍

相关知识,如Linux命令,Git命令等,需要自己了解。文章来源地址https://www.toymoban.com/news/detail-801132.html

到了这里,关于[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

    部署chatglm2和llama2到一个4*V100的GPU机器上遇到问题 config.pbtxt 中设置模型分别在指定gpu上部署实例配置不生效 如以下配置为在gpu0上部署本模型,部署count=1个实例,在gpu1上部署本模型,部署count=2个实例 instance_group [ { count: 1 kind: KIND_GPU gpus: [ 0 ] }, { count: 2 kind: KIND_GPU gpus: [ 1 ] } ] 部

    2024年02月08日
    浏览(39)
  • 模型解释与人工智能道德:在技术与价值观的交叉点

    随着人工智能技术的快速发展,我们正面临着一系列新的挑战。在这些挑战中,模型解释和人工智能道德是两个至关重要的方面。模型解释涉及到如何理解和解释人工智能系统的决策过程,而人工智能道德则关注于如何在技术与价值观之间找到平衡,以确保人工智能技术的可

    2024年02月20日
    浏览(39)
  • 区块链技术与应用 - 学习笔记2【密码学基础】

    大家好,我是比特桃。 本系列笔记只专注于探讨研究区块链技术原理,不做其他违反相关规定的讨论。 区块链技术已被纳入国家十四五规划,在“加快数字发展 建设数字中国”篇章中,区块链被列为“十四五”七大数字经济重点产业之一,迎来创新发展新机遇。 经科技部批

    2024年02月10日
    浏览(43)
  • 探索慢雾安全团队的加密货币安全项目:技术解析与应用指南

    项目地址:https://gitcode.com/slowmist/cryptocurrency-security 在这个数字化的时代,加密货币的安全性是我们无法忽视的重要议题。 SlowMist 团队,作为一个专注于区块链安全的研究和防护组织,发布了一个名为 \\\"cryptocurrency-security\\\" 的开源项目。本文将深入探讨该项目的核心技术、应用场

    2024年04月27日
    浏览(38)
  • 区块链技术与应用 - 学习笔记3【比特币数据结构】

    大家好,我是比特桃。 本系列笔记只专注于探讨研究区块链技术原理,不做其他违反相关规定的讨论。 区块链技术已被纳入国家十四五规划,在“加快数字发展 建设数字中国”篇章中,区块链被列为“十四五”七大数字经济重点产业之一,迎来创新发展新机遇。 经科技部批

    2024年02月09日
    浏览(46)
  • 如何进行测试分析与设计-HTSM启发式测试策略模型 | 京东云技术团队

    测试,没有分析与设计就失去了灵魂; 测试人员在编写用例之前,该如何进行测试分析与设计呢?上次在《测试的底层逻辑》中讲到了【输入输出测试模型】,还讲到了【2W+1H测试分析法】,但2W1H分析法是初步的分析方法,具体在测试中如何落地,还需要更细的设计。 今天

    2024年02月05日
    浏览(51)
  • Java反射源码学习之旅 | 京东云技术团队

    前段时间组内针对“拷贝实例属性是应该用BeanUtils.copyProperties()还是MapStruct”这个问题进行了一次激烈的battle。支持MapStruct的同学给出了他嫌弃BeanUtils的理由:因为用了反射,所以慢。 这个理由一下子拉回了我遥远的记忆,在我刚开始了解反射这个Java特性的时候,几乎看

    2024年02月12日
    浏览(40)
  • 混沌演练状态下,如何降低应用的MTTR(平均恢复时间) | 京东云技术团队

    在企业业务领域,锦礼是针对福利、营销、激励等员工采购场景的一站式解决方案,包含面向员工、会员等弹性激励SAAS平台。由于其直接面向公司全体员工,其服务的高可用尤其重要,本文将介绍锦礼商城大促前夕,通过混沌工程实战演习,降低应用的MTTR。 MTTR(平均恢复时

    2024年02月10日
    浏览(45)
  • 【笔记】【机器学习基础】交叉验证

    交叉验证(cross-validation) 是一种 评估泛化性能 的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。在交叉验证中,数据被多次划分,并且需要训练多个模型。 最常用的交叉验证是 k 折交叉验证(k-fold cross-validation) ,其中 k 是由用户指定的数字,通常取

    2024年02月03日
    浏览(37)
  • GPT大语言模型Alpaca-lora本地化部署实践【大语言模型实践一】 | 京东云技术团队

    Alpaca模型是斯坦福大学研发的LLM(Large Language Model,大语言)开源模型,是一个在52K指令上从LLaMA 7B(Meta公司开源的7B)模型微调而来,具有 70亿 的模型参数(模型参数越大,模型的推理能力越强,当然随之训练模型的成本也就越高)。 LoRA,英文全称Low-Rank Adaptation of Large

    2024年02月05日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包