论文笔记：A Simple and Effective Pruning Approach for Large Language Models

7月前作者：UQI-LIUWJ 分类：Toy博客阅读(42) 违法举报

这篇具有很好参考价值的文章主要介绍了论文笔记：A Simple and Effective Pruning Approach for Large Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

iclr 2024 reviewer 评分 5668

1 intro

大模型网络剪枝的paper
- 在努力保持性能的同时，舍弃网络权重的一个子集
现有方法
- 要么需要重新训练
  - 这对于十亿级别的LLMs来说往往不现实
- 要么需要解决依赖于二阶信息的权重重建问题
  - 这同样可能带来高昂的计算成本
——>引入了一种新颖、简单且有效的剪枝方法，名为Wanda (Pruning by Weights and activations）
- 在每个输出的基础上，剪枝那些乘以相应输入激活后幅度最小的权重
- 无需重新训练或权重更新，剪枝后的LLM可以即刻使用

2 方法

2.1 motivation

考虑一个带有两个输入及其对应权重的神经元：y = w1x1 + w2x2，其中|w1| ≤ |w2|。
- 现在假设目标是选择一个权重进行移除，同时使输出变化最小。
- 标准的幅度剪枝方法总是会移除权重w1
  - 如果输入特征x1和x2的幅度相似，这可能是一个好策略。
  - 然而，最近在LLMs中观察到，两个输入特征的规模可能差异很大。例如，可能|x1| ≫ |x2|，结果是|w1x1| ≫ |w2x2|。
  - 在这种情况下，我们应该移除权重w2，因为这种移除明显对神经元输出y的影响小于移除权重w1。

论文笔记：A Simple and Effective Pruning Approach for Large Language Models,论文笔记,论文阅读,剪枝,语言模型

这个动机示例与最简单的线性层一起暗示了幅度剪枝的一个主要限制：
- 它没有考虑输入激活，输入激活在决定神经元输出时可能与权重幅度同样重要。
- 对于剪枝LLMs，这一点尤其关键，考虑到在其中发现的突出大幅度特征。
- ——>提出了一种专门为LLMs设计的剪枝指标，以处理此类限制，同时也保持了幅度剪枝的简单性

2.2 剪枝指标

论文笔记：A Simple and Effective Pruning Approach for Large Language Models,论文笔记,论文阅读,剪枝,语言模型

论文笔记：A Simple and Effective Pruning Approach for Large Language Models,论文笔记,论文阅读,剪枝,语言模型

2.3 和现有方法的对比

论文笔记：A Simple and Effective Pruning Approach for Large Language Models,论文笔记,论文阅读,剪枝,语言模型

3 实验

3.1 效果比较

论文笔记：A Simple and Effective Pruning Approach for Large Language Models,论文笔记,论文阅读,剪枝,语言模型

论文笔记：A Simple and Effective Pruning Approach for Large Language Models,论文笔记,论文阅读,剪枝,语言模型

3.2 速度比较

论文笔记：A Simple and Effective Pruning Approach for Large Language Models,论文笔记,论文阅读,剪枝,语言模型

3.3 finetune 剪枝后的LLM可以接近不剪枝的LLM

论文笔记：A Simple and Effective Pruning Approach for Large Language Models,论文笔记,论文阅读,剪枝,语言模型

3.4 校准数据（X）的影响

论文笔记：A Simple and Effective Pruning Approach for Large Language Models,论文笔记,论文阅读,剪枝,语言模型文章来源地址https://www.toymoban.com/news/detail-854503.html

到了这里，关于论文笔记：A Simple and Effective Pruning Approach for Large Language Models的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

OVRL-V2: A simple state-of-art baseline for IMAGENAV and OBJECTNAV 论文阅读

题目：OVRL-V2: A simple state-of-art baseline for IMAGENAV and OBJECTNAV 作者 :Karmesh Yadav， Arjun Majumdar， Ram Ramrakhya 来源：arxiv 时间：2023 代码地址： https://github.com/ykarmesh/OVRL 我们提出了一个由与任务无关的组件（ViT、卷积和 LSTM）组成的单一神经网络架构，该架构在 IMAGENAV（“转到这

2024年02月11日
浏览(45)
论文笔记：Are Transformers Effective for Time Series Forecasting?

AAAI 2023 oral 自注意力计算是排列不变的（permutation-invariant）虽然使用各种类型的position embedding和temporal embedding后，会保留一些order信息，但仍然时间信息可能会不可避免地丢失本文质疑基于Transformer以进行时间序列预测的有效性现有的基于Transformer的方法，通常比较的baseli

2024年02月16日
浏览(39)
03-25 周一论文阅读 Train Large, Then Compress: Rethinking Model Size for Effcient Trainning and Inference

03-25 周一论文阅读 Train Large, Then Compress: Rethinking Model Size for Effcient Trainning and Inference of Transformers 时间版本修改人描述 V0.1 宋全恒新建文档 Lizhuohan是单位是UC Berkeley（加州大学伯克利分校）。这可以从文献的作者信息中得到确认，其中提到了 “1UC Berkeley” 作为其隶属单

2024年04月27日
浏览(39)
【论文笔记】Unifying Large Language Models and Knowledge Graphs：A Roadmap

（后续更新完善）以往将KGs集成到大型语言模型的工作主要分为三个部分:1)将KGs集成到训练目标中，2)将KGs集成到LLM输入中，3)将KGs集成到附加的融合模块中。 2.1.1 Integrating KGs into Training Objective 这一类的研究工作集中在设计新的知识感知训练目标，一个直观的想法是在预训练

2024年02月07日
浏览(43)
论文阅读《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

在我们内部产品中，一直有关于网络性能数据监控需求，我们之前是直接使用 ping 命令收集结果，每台服务器去 ping (N-1) 台，也就是 N^2 的复杂度，稳定性和性能都存在一些问题，最近打算对这部分进行重写，在重新调研期间看到了 Pingmesh 这篇论文，Pingmesh 是微软用来监控数

2024年02月11日
浏览(58)
Unifying Large Language Models and Knowledge Graphs: A Roadmap 论文阅读笔记

NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks, KG-enhanced LLMs, pre-training and inference stages to provide external knowl

2024年02月19日
浏览(46)
【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

原文链接：https://arxiv.org/abs/2303.10076 本文提出基于环视图像进行3D占用估计的简单框架，探索了网络设计、优化和评估。网络设计方面，虽然输出形式与单目深度估计和立体匹配不同，但网络结构与立体匹配网络相似（如下图所示），可以使用立体匹配的经验设计网络。优化

2024年02月02日
浏览(58)
PURE：A Frustratingly Easy Approach for Entity and Relation Extraction

原文链接： https://aclanthology.org/2021.naacl-main.5.pdf ACL 2021 对于命名实体识别和关系提取，最近的研究要么在这两个任务上使用一个预训练结构，要么通过共享表征来进行多任务学习。作者认为实体模型和关系模型在上下文表征中学到了不同的信息，共享它们的表征

2024年02月08日
浏览(38)
【论文笔记】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

将LLMs应用于医学，以协助医生和病人护理，成为人工智能和临床医学领域的一个有前景的研究方向。为此，本综述提供了医学中LLMs当前进展、应用和面临挑战的全面概述。具体来说，旨在回答以下问题： 1）什么是LLMs，如何构建医学LLMs？ 2）医学LLMs的下游表现如何？ 3）

2024年02月03日
浏览(45)
[论文笔记]小目标识别文献综述Towards large-scale small object detection: Survey and Benchmarks

2022_cite=12_Cheng——Towards large-scale small object detection: Survey and Benchmarks https://shaunyuan22.github.io/SODA/ 小目标检测= small object detection = SOD Datasets: SODA-D: OneDrvie; BaiduNetDisk SODA-A: OneDrvie; BaiduNetDisk Codes The official codes of our benchmark, which mainly includes data preparation and evaluation , are released belo

2024年02月10日
浏览(46)