论文笔记--PANGU-α

这篇具有很好参考价值的文章主要介绍了论文笔记--PANGU-α。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 文章简介

  • 标题:PANGU-α: LARGE-SCALE AUTOREGRESSIVE PRETRAINED CHINESE LANGUAGE MODELS WITH AUTO-PARALLEL COMPUTATION
  • 作者:Zeng, Wei, et al.
  • 日期:2021
  • 期刊:arxiv preprint

2. 文章概括

  文章提出了中午领域的大语言模型PANGU- α \alpha α。模型在1.1TB的中文数据上训练,参数为2000亿。为了支撑模型训练,文章提出了一种Auto-parallel的训练方式。

3 文章重点技术

3.1 Transformer架构

  和GPT等其它大语言模型一样,PANGU- α \alpha α选择使用Transformer作为神经网络的架构。为了使得模型更精准地预测下一个token,文章在最后一个Transformer层后面增加了一个Query层。传统Transformer的注意力分数计算方式为 A = Q K T = H L W Q W K ⊺ H L ⊺ A = QK^T = H_LW^Q{W^K}^\intercal H_L^\intercal A=QKT=HLWQWKHL,改良后的注意力分数表达式为为 A = p n W Q W K ⊺ H L ⊺ A =p_nW^Q{W^K}^\intercal H_L^\intercal A=pnWQWKHL,其中 p n p_n pn表示query层(位置编码)表示将位置编码信息用于注意力机制的查询。
论文笔记--PANGU-α

3.2 数据集

  很多文章已经论证了模型参数的增加对模型的表现能力提升有很大帮助,但在增加模型参数的同时需要增加数据集来支撑参数的训练。为了获得大量的中文数据集,文章进行了数据收集、数据清洗、数据过滤和数据去重多个步骤,具体流程见下图。
论文笔记--PANGU-α

3.2.1 数据清洗和过滤

  语料库中大量的数据是来自于Common Crawl的文本,质量无法保证,文章首先对数据集进行了清洗工作:

  • 移除字符少于150或中文字符少于60%文档;移除仅包含网页标题集合的文档;
  • 移除特殊字符;移除每个文档中的重复段落;
  • 基于关键词识别广告,移除包含广告的文档;
  • 将繁体中文全部转化为简体中文;
  • 移除网页中的导航栏
       对上述清洗后的文档进行过滤以移除有害的、广告类的或低质量的文档:
  • 敏感词过滤:手动构建724个敏感词,移除包含超过3个敏感词的文档,从而保证模型不被有害网页误导。
  • 基于模型的垃圾信息自动过滤:基于标注数据训练一个FastText垃圾文档分类器,将FastText识别为垃圾文档的文档过滤。
  • 低质量文档过滤:类似GPT-3[1],训练一个分类器给每篇文档打分,过滤分数低于阈值的文档。

3.2.2 数据去重

  由于语料库中可能存在高度重叠的文档,我们采用模糊数据去重方法对过滤后的数据进行去重操作。为此,我们对MinHashLSH算法进行改良,设计了一种分布式的数据去重算法对数据集进行高效去重。

3.2.3 数据质量评估

  为了对文档进行上述的自动清洗和过滤,我们需要相应的清洗规则和过滤阈值。为此,我们迭代地进行上述预处理工作:在每次预处理之后根据评估结果更新清洗规则和过滤阈值。评估结果采用人工和模型自动选择两种方式:人工随机采样评估句子的脸骨感谢和低质量内容的数量从而进行规则调整。但人工评估的范围有限,从而我们从所有数据集中选择30GB的数据训练一个小型的PANGU-350M,并采用该模型评估所有训练数据得到PPL(perplexity),PPL越低的数据质量越高,从而相应的清洗规则越好,基于该原则我们选择最好的清洗规则和阈值。
  上述预处理过程之后,我们最后得到1.1TB的中文数据用于模型训练

4. 文章亮点

  文章采集了大量的中文数据,且对数据集进行了手工、自动的清洗、过滤、去重,基于预处理后的1.1TB中文数据进行模型训练,得到PANGU- α \alpha α大语言模型,模型在多个中文任务上表现超过GPT-3。此外为了加速训练过程,文章提出了一种AUTO-PARALLEL的训练方法,在大规模数据训练中可作为参考。

5. 原文传送门

PANGU-α: LARGE-SCALE AUTOREGRESSIVE PRETRAINED CHINESE LANGUAGE MODELS WITH AUTO-PARALLEL COMPUTATION

6. References

[1] 论文笔记–Language Models are Few-Shot Learners文章来源地址https://www.toymoban.com/news/detail-470350.html

到了这里,关于论文笔记--PANGU-α的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Dedecms内容页上下篇文章标题字数设置/控制方法

    对dedecms了解的朋友们,想必对如何获取上一篇、下一篇文章的标签也是非常熟悉。 dedecms获取上一篇、下一篇文章的标签分别为: {dede:prenext get=\\\'pre\\\'/}、{dede:prenext get=\\\'next\\\'} 。 在这个标签里,并没有设置上一篇、下一篇文章标题字数的功能,那么我们又该怎样来实现这样的功

    2024年02月03日
    浏览(38)
  • 给Dedecms文章列表分页标题加上序号的方法示例

    为dedecms文章分页标题加上序号,小编提醒:本教程只在dedecms5.1版本下测试通过,如果您想在其它版本试验,请先备份原文件! 改模板文件inc_archives_view.php就OK了 代码如下: 列表页的标题也有办法了 用{dede:pagelist listsize=\\\'0\\\' listitem=\\\'pageno\\\' function=\\\'html2text(@me)\\\'/}可以调用第几页那个

    2024年02月02日
    浏览(34)
  • dedecmsV5.7系统后台编辑文章中文标题发布失败的解决方法教程

    dedecmsV5.7系统后台编辑文章中文标题发布失败 ,当输入中文标题发布文章的时候总是发布不成功,还提示标题不可以为空。当时小编又测试了用英文来测试却可以。小编开始认为可能是程序没有上传完毕就安装了,于是就又再次的上传安装了一遍还是这样提示。那么遇到这种

    2024年02月03日
    浏览(25)
  • 帝国cms后台自动把内容图片的alt和title替换为文章标题

    有时候我们的图片alt与title与标题不相关,为了提高seo效果,让搜索引擎辨识到图片那么就可以用下面的代码了,自动把内容图片的alt和title替换为文章标题 操作方法如下: 1.把下面的代码放到/e/class/userfun.php (放到最后?的前面) 2.在模型里正文字段一般是newstext(也可以是其它

    2024年02月03日
    浏览(28)
  • 【无标题】一篇文章带你彻底理解Java ArrayList数据结构详解

    基本概念: ​ **之前创建数组的时候,需要声明提前声明数组的大小,**ArrayList是一个可以动态修改的数组,与普通数组的区别就是没有固定大小的限制,它会动态调整长度。 ​ **ArrayList继承了AbstractList,并实现了List接口。**如下图: **ArrayList 类位于 java.util 包中,**使用前

    2024年02月14日
    浏览(43)
  • python爬虫爬取微信公众号的阅读数、喜爱数、文章标题和链接等信息

    爬虫的步骤: (1)申请自己的公众号 (2)使用fiddler抓包工具 (3)pycharm (一)申请公众号 官网:微信公众平台 填入相关信息创建微信公众号 进入公众号界面如下: 找到新的创作-图文信息 在弹出的界面中查找公众号文章-输入公众号名称-确定 点击确认之后,进入公众号

    2024年02月05日
    浏览(42)
  • PanGu-Coder2:从排序中学习,激发大模型潜力

    本文分享自华为云社区《PanGu-Coder2:从排序中学习,激发大模型潜力》,作者: 华为云软件分析Lab 。 2022年7月,华为云PaaS技术创新Lab联合华为诺亚方舟语音语义实验室推出了代码大模型PanGu-Coder,随后发布了华为的代码智能生成助手CodeArts Snap。时隔一年之后,PanGu-Coder2终于

    2024年02月10日
    浏览(42)
  • Office技巧(持续更新)(Word、Excel、PPT、PowerPoint、连续引用、标题、模板、论文)

    选住 一级标题 ,之后进行“定义新的多级列表”    正常插入题注后就可以了。如果一级标题是 “汉字序号”,那么需要对题注进行修改: 从原来的 图 { STYLEREF 1 s }-{ SEQ 图 * ARABIC s 1 } 修改为 图 { Quote “二零二五年一月{ STYLEREF 1 s }日” @”d” }-{ SEQ 图 * ARABIC s 1 } 注

    2024年02月08日
    浏览(47)
  • dedecms调用文章简介限制字数的方法

    在dedecms模板调用文章简介时,如何限制文章简介字数多少?yii666小编整理三种方法供大家借鉴: 第一种方法:(推荐,可加省略号) [field:description function=\\\'cn_substr(Html2text(\\\"@me\\\").\\\"...\\\",80)\\\'/] 调用现成的cn_substr()字符串截取函数来实现,80为限制字节数(一个汉字等于2个字节);

    2024年02月03日
    浏览(36)
  • 织梦dedecms文章简介摘要字数的设置方法

    在Dedecms系统中,文章摘要(能够经过infolen或description相关标签调用)被设置了字数上限为250字符,设置上限的主要目的是减少数据库的冗余,保证网站良好的性能。因而,假如对简介内容不设置上限显然不合理,但是假如能够自在控制这一上限,那么将对网页内容布局带来积

    2023年04月16日
    浏览(81)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包