带你读论文第十一期：上海人工智能实验室孙伟高博士，分享大模型分布式训练方法！...-Toy模板网

这篇具有很好参考价值的文章主要介绍了带你读论文第十一期：上海人工智能实验室孙伟高博士，分享大模型分布式训练方法！...。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Datawhale论文

来源：WhalePaper，负责人：芙蕖

WhalePaper简介

由Datawhale团队成员发起，对目前学术论文中比较成熟的 Topic 和开源方案进行分享，通过一起阅读、分享论文学习的方式帮助大家更好地“高效+全面+自律”学习，让大家都有所收获和提升！方向包括自然语言处理（NLP）、计算机视觉（CV）、推荐（Res）等相关方向的论文解读和分享，后续将融入更多的方向。

开源地址：https://datawhalechina.github.io/whale-paper

本期活动

带你读论文第十一期：上海人工智能实验室孙伟高博士，分享大模型分布式训练方法！...,人工智能,分布式

嘉宾简介

孙伟高现为上海人工智能实验室算法研究员，从事分布式训练算法与高效大语言模型建模的相关研究。在此之前，曾在2020至2022年间工作于华为图灵架构与设计部灵犀实验室，担任AI算法研究员，负责高效分布式训练算法的研究与落地。其于2020年博士毕业于华中科技大学人工智能与自动化学院，博士期间的主要研究方向为机器学习、凸/非凸优化及其工业应用等。其在国际顶级会议和权威期刊发表多篇论文，包括ICLR、RAL、IJCAI、IEEE Trans等，并拥有多项中美专利。

分享详情

论文题目：Linear Attention Sequence Parallelism

联合分享：OpenNLPLab

分享方向：大语言模型分布式训练

论文简介：

本文介绍了一种名为Linear Attention Sequence Parallel（LASP）的高效序列并行（SP）方法，专门针对基于线性注意力的高效大语言模型设计。传统的SP方法未能充分利用线性注意力特性，导致并行效率和可用性不佳。为此，作者设计了一种高效的点对点通信机制，利用线性注意力的右乘核技巧，大大降低了SP的通信开销。此外，作者通过进行内核融合和中间状态缓存来提高LASP的实际执行效率，使其在GPU集群上的实现更加硬件友好。另外，作者还确保了LASP序列并行与各种（切片）数据并行方法（比如DDP、FSDP、ZeRO系列）的兼容性，这对于在具有长序列和大批次的大型集群上进行分布式训练至关重要。作者在两种基于线性注意力的模型上进行了大规模实验，结果表明在128个A100 80G GPU与1B模型上，LASP可将序列长度扩展至4096K即4M，比现有SP方法长8倍且速度提升显著。

具体细节：

极长序列、极快速度：面向新一代高效大语言模型的LASP序列并行

论文地址：https://arxiv.org/abs/2404.02882

分享时间：2024年4月24日（周三）19点

本场分享会在视频号、b站同步直播

进群参与

带你读论文第十一期：上海人工智能实验室孙伟高博士，分享大模型分布式训练方法！...,人工智能,分布式