【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation

这篇具有很好参考价值的文章主要介绍了【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2022-2023年论文系列之模型轻量化和推理加速

前言

通过Connected Papers搜索引用PaBEE/DeeBERT/FastBERT的最新工作,涵盖:

  • 模型推理加速
  • 边缘设备应用
  • 生成模型
  • BERT模型
  • 知识蒸馏

论文目录

  1. SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for Accelerating BERT Inference

  2. SKDBERT: Compressing BERT via Stochastic Knowledge Distillation

  3. COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi-exit Language Models

  4. Knowledge Distillation with Reptile Meta-Learning for Pretrained Language Model Compression

  5. Accelerating Inference for Pretrained Language Models by Unified Multi-Perspective Early Exiting

  6. A Simple Hash-Based Early Exiting Approach For Language Understanding and Generation

主要内容:近两年(2022-2023年)动态早退的工作进展,粗读motivation和method以及experiment setup。

SKDBERT: Compressing BERT via Stochastic Knowledge Distillation

a. 论文信息

发表会议:AAAI2023

作者:Zixiang Ding, Guoqing Jiang, Shuai Zhang, Lin Guo, Wei Lin

发表单位:美团

开源:None

b. 内容

研究背景:已有工作表明BERT-style语言模型存在参数冗余,例如Voita等人[2019]提出减少BERT的头数量不影响性能。与此同时,许多模型压缩的方法被提出:基于参数共享、基于知识蒸馏、基于剪枝、基于量化和基于NAS,本文聚焦于基于知识蒸馏的方法。

基于 KD 的 BERT-style语言模型压缩方法之间的主要区别是:

  • 学习流程:只预训练、只微调、预训练+微调
  • 蒸馏目标:软输出概率、嵌入层输出、隐藏状态、自注意力分布和自注意力值的关系

motivation

Wu等人提出多教师模型蒸馏比单教师模型的KD性能更好,但是我们发现多个教师模型的集合并不总是优于单个教师模型,如下表实验结果所示:

Wu, C.; Wu, F.; and Huang, Y. 2021. One teacher is enough? pre-trained language model distillation from multiple teachers. In Findings of the Association for Computational Linguistics: ACL/IJCNLP, 4408–4413.

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

其原因本文认为有两个:(motivation)

  1. 教师模型的集合预测失去了多样性
  2. 教师模型和学生模型存在着很大的容量差距影响知识蒸馏的有效性

method

本文提出随机知识蒸馏以获得紧凑的BERT-style语言模型,名为SKDBERT。

SKD关注蒸馏范式,而不是学习流程和蒸馏目标。SKD主要内容:

  1. 在每次迭代中,SKD都会从预定义的教师集合中抽取教师模型,该集合由具有多层次能力的多个教师模型组成,以一对一的方式将知识转移到学生模型中。

  2. 采样分布在SKD中起着重要作用。本文呈现了三种类型的抽样分布,为每个教师模型分配适当的抽样概率。

SKD的简要过程如下图所示:

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

  • WKD:教师集合中所有教师模型的加权对数用于优化整个训练过程中的学生模型S
  • TAKD: 逐步蒸馏, T 5 T_5 T5为原模型
  • SKD:根据特定的概率分布,每个迭代从教师集合中随机抽取教师模型,以一对一的方式蒸馏学生模型

SKD提出的三种类型的采样方式:

  • Uniform Distribution(均匀分布)

    每个教师模型的采样概率一致

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

  • Teacher-rank Distribution(按教师等级分布)

    按照教师模型的微调性能决定教师模型的采样概率

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

  • Student-rank Distribution(按学生等级分布)

    相对于每个教师模型蒸馏的学生模型性能决定教师模型的采样概率

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

SKD学习:特定的采样分布概率下教师模型和学生模型的蒸馏损失
【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

experiment setup

数据集:GLUE(MRPC, RTE, STS-B,QQP,QNLI,MNLI)

实验环境:NVIDIA A100 GPU

SKDBERT(学生模型)设置:

  • 4-layer: T i n y B E R T 4 TinyBERT_4 TinyBERT4
  • 6-layer: T i n y B E R T 6 TinyBERT_6 TinyBERT6

教师模型:https://github.com/google-research/bert,实现14个BERT模型作为教师模型集合

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

学习的采样分布:

  • SKDBERT4使用T04-T09模型作为教师模型

  • SKDBERT6使用T10-T14模型作为教师模型

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

使用GLUE验证集微调的模型性能:

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能
超参数设置:
【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

result

1、 GLUE-test:与现有方法相比,SKDBERT4和SKDBERT6都达到了最佳的GLUE分数(提交给官方GLUE的评测分数)

SKDBERT将BERT-BASE模型的大小减小了40%,同时保持了99.5%的性能,并且速度提高了100%

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

2、与更多的BERT-style紧凑的模型对比: SKDBERT展现最优性能,特别是在RTE任务比最好的MiniLM多了4%准确率

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

3、消融实验:教师模型集合

  • 教师集合应该包含强能力教师模型,同时考虑容量差距问题,以实现SKDBERT的性能。
  • 性能弱于学生模型的教师模型有助于保护多样性

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

  • 初级教师模型的数量增加对于性能有提升,但是有限(case 2);高级教师模型的数量增加对于性能的提升是显著的(case 1)。

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

4、消融实验:采样分布

均匀分布适用于相似容量的教师模型集合,其中每个教师模型的知识有助于提高SKDBERT的性能。此外,教师等级和学生等级分布适用于大容量差距教师模型集合,其中初级教师模型提供的知识容易对SKDBERT产生负面影响。

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

5、比较WKD、TAKD 和 SKD:

SKD展现在多样性教师模型保护更好和对教师模式容量的敏感性更低的优点,如下表所示:

  • WKD 使用所有教师模型的加权对数来为学生模型蒸馏做出更全面的决策,但失去了每个教师模型的多样性(Tran 等人,2020 年)。此外,TAKD在强教师模型方面存在知识消失,其中学生模型只能接受来自最强教师模型的少量知识。
  • 对于WKD,小容量的教师模型几乎不会降低其性能,然而,TAKD对教师模型的容量非常敏感。

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

6、额外学习进程和蒸馏目标的影响: SKDBERT和DA的组合可以实现比TinyBERT更好的性能

【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation,深度学习模型轻量化,论文阅读,论文阅读,bert,人工智能

本文的实验证明有效解决了上述提出KD的两个问题:

  1. 失去多样性:每次迭代,从抽样的教师模型中一对一传递知识
  2. 容量差距:利用弱教师模型来填补强教师模型与学生模型之间的容量差距,还可以避免学生模型的性能被弱教师模型限制

c. Summary

SKDBERT使用多教师蒸馏方式,引入新的蒸馏范式即SKD。

SKD范式是固定的采样概率分布,决定固定的教师模型集合中某个模型和学生模型的蒸馏。

  • 考虑教师模型的多样性,实现一对一的知识传递
  • 考虑教师模型与学生模型的容量差距,避免弱的教师模型限制学生模型的性能。

在GLUE基准测试集实验,实现尺寸减小近一半,速度提高100%。

SKDBERT的缺点在于 固定的采样概率、固定的教师模型集合文章来源地址https://www.toymoban.com/news/detail-517325.html

到了这里,关于【论文阅读】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】Reachability and distance queries via 2-hop labels

    Cohen E, Halperin E, Kaplan H, et al. Reachability and distance queries via 2-hop labels[J]. SIAM Journal on Computing, 2003, 32(5): 1338-1355. 图中的可达性和距离查询是许多应用的基础,从地理导航系统到互联网路由。其中一些应用程序涉及到巨大的图形,但还需要快速的查询回答。我们提出了一种新的数

    2024年02月04日
    浏览(28)
  • 论文阅读《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》

    论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Chang_Domain_Generalized_Stereo_Matching_via_Hierarchical_Visual_Transformation_CVPR_2023_paper.html    立体匹配模型是近年来的研究热点。但是,现有的方法过分依赖特定数据集上的简单特征,导致在新的数据集上泛化能力不强。现有的立体匹配

    2024年02月04日
    浏览(31)
  • 【论文阅读】 Few-shot object detection via Feature Reweighting

    Few-shot object detection的开山之作之一 ~~ 属于Metric-based Methods 特征学习器使用来自具有足够样本的基本类的训练数据来 提取 可推广以检测新对象类的meta features。The reweighting module将新类别中的一些support examples转换为全局向量,该全局向量indicates meta features对于检测相应物体的重

    2023年04月09日
    浏览(31)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 论文阅读笔记

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,  KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    浏览(35)
  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    原文链接: Making Large Language Models Perform Better in Knowledge Graph Completion 基于大语言模型(LLM)的知识图补全(KGC) 旨在利用 LLM 预测知识图谱中缺失的三元组 ,并丰富知识图谱,使其成为更好的网络基础设施,这可以使许多基于网络的自动化服务受益。然而,基于LLM的KGC研究有

    2024年01月23日
    浏览(34)
  • 【论文阅读】Reachability Queries with Label and Substructure Constraints on Knowledge Graphs

    Wan X, Wang H. Reachability Queries With Label and Substructure Constraints on Knowledge Graphs[J]. IEEE Transactions on Knowledge and Data Engineering, 2022. 由于知识图(KGs)描述和建模了现实世界中实体和概念之间的关系,因此对KGs的推理通常对应于具有标签和实体的可达性查询穿刺约束(LSCR)。特别地,对

    2024年02月04日
    浏览(33)
  • 论文阅读《ICDE2023:Relational Message Passing for Fully Inductive Knowledge Graph Completion》

    论文链接 工作简介 在知识图谱补全 (KGC) 中,预测涉及新兴实体和 / 或关系的三元组, 这是在学习 KG 嵌入时看不到的,已成为一个关键挑战。 带有消息传递的子图推理是一个很有前途和流行的解决方案。 最近的一些方法已经取得了很好的性能,但它们 (1) 通常只能预测单独

    2024年02月07日
    浏览(29)
  • RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读

    2020 NeuralPS 文章地址:https://arxiv.org/abs/2005.11401 源码地址:GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.       - 142 RAG 目录 0、背景 1、摘要 2、导言       3、结论 4、模型 5、实验 6、与REALM比较 7、想法         Language Mod

    2024年02月05日
    浏览(31)
  • 【论文阅读笔记|ACL2022】Legal Judgment Prediction via Event Extraction with Constraints

    论文题目:Legal Judgment Prediction via Event Extraction with Constraints 论文来源:ACL2022 论文链接:https://aclanthology.org/2022.acl-long.48.pdf 代码链接:GitHub - WAPAY/EPM 近年来,虽然法律判断预测任务(LJP)取得了重大的进展,错误的预测SOTA LJP模型可以部分归因于他们未能(1)定位关键事件信息决

    2023年04月23日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包