带你读论文第十一期:上海人工智能实验室孙伟高博士,分享大模型分布式训练方法!...

这篇具有很好参考价值的文章主要介绍了带你读论文第十一期:上海人工智能实验室孙伟高博士,分享大模型分布式训练方法!...。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 Datawhale论文 

来源:WhalePaper,负责人:芙蕖

WhalePaper简介

由Datawhale团队成员发起,对目前学术论文中比较成熟的 Topic 和开源方案进行分享,通过一起阅读、分享论文学习的方式帮助大家更好地“高效+全面+自律”学习,让大家都有所收获和提升!方向包括自然语言处理(NLP)、计算机视觉(CV)、推荐(Res)等相关方向的论文解读和分享,后续将融入更多的方向。

开源地址:https://datawhalechina.github.io/whale-paper

本期活动

带你读论文第十一期:上海人工智能实验室孙伟高博士,分享大模型分布式训练方法!...,人工智能,分布式

嘉宾简介

孙伟高现为上海人工智能实验室算法研究员,从事分布式训练算法与高效大语言模型建模的相关研究。在此之前,曾在2020至2022年间工作于华为图灵架构与设计部灵犀实验室,担任AI算法研究员,负责高效分布式训练算法的研究与落地。其于2020年博士毕业于华中科技大学人工智能与自动化学院,博士期间的主要研究方向为机器学习、凸/非凸优化及其工业应用等。其在国际顶级会议和权威期刊发表多篇论文,包括ICLR、RAL、IJCAI、IEEE Trans等,并拥有多项中美专利。

分享详情

论文题目:Linear Attention Sequence Parallelism

联合分享:OpenNLPLab

分享方向:大语言模型分布式训练

论文简介:

本文介绍了一种名为Linear Attention Sequence Parallel(LASP)的高效序列并行(SP)方法,专门针对基于线性注意力的高效大语言模型设计。传统的SP方法未能充分利用线性注意力特性,导致并行效率和可用性不佳。为此,作者设计了一种高效的点对点通信机制,利用线性注意力的右乘核技巧,大大降低了SP的通信开销。此外,作者通过进行内核融合和中间状态缓存来提高LASP的实际执行效率,使其在GPU集群上的实现更加硬件友好。另外,作者还确保了LASP序列并行与各种(切片)数据并行方法(比如DDP、FSDP、ZeRO系列)的兼容性,这对于在具有长序列和大批次的大型集群上进行分布式训练至关重要。作者在两种基于线性注意力的模型上进行了大规模实验,结果表明在128个A100 80G GPU与1B模型上,LASP可将序列长度扩展至4096K即4M,比现有SP方法长8倍且速度提升显著。

具体细节:

极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行

论文地址:https://arxiv.org/abs/2404.02882

分享时间:2024年4月24日(周三)19点

本场分享会在视频号、b站同步直播

进群参与

带你读论文第十一期:上海人工智能实验室孙伟高博士,分享大模型分布式训练方法!...,人工智能,分布式

群满在公众号后台回复“paper”

带你读论文第十一期:上海人工智能实验室孙伟高博士,分享大模型分布式训练方法!...,人工智能,分布式

一起“赞”三连文章来源地址https://www.toymoban.com/news/detail-856238.html

到了这里,关于带你读论文第十一期:上海人工智能实验室孙伟高博士,分享大模型分布式训练方法!...的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(2)

    书接前文:小周带你读论文-2之\\\"草履虫都能看懂的Transformer老活儿新整\\\"Attention is all you need(1) (qq.com)       上文书说到为什么我们要用casual-decoder架构,把Transformer的左边给省略了,于是得到下图这样的架构       上图是GPT-1的模型结构,那么casual-decoder和原始Transformer除了没

    2024年01月21日
    浏览(40)
  • AntDB数据库受邀参加第六届上海人工智能大会,分享AIGC时代核心交易系统升级方案

    近日,第六届上海人工智能大会春季论坛圆满落幕。大会以“数智互联,瞰见未来”为主题,邀请了来自国内外十余个国家和地区的学术界顶级学者和业内知名企业的技术大咖,探讨人工智能的学术、人才、技术、行业发展痛点。亚信科技AntDB数据库作为数智转型时代的基础

    2024年02月09日
    浏览(68)
  • 上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务

    本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,违者必究! Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Code: https://github.com/zrrskywalker/llama-adapter PDF: https://arxiv.org/pdf/2303.16199.pdf Instruction-Following 指令跟随方法:是指通过

    2024年02月09日
    浏览(57)
  • 工业级成熟航运港口人工智能产品全球前三船公司及港口码头落地,中国上海人工智能独角兽中集飞瞳全球应用最广规模最大最先进港航AI企业

    中国上海人工智能独角兽CIMCAI中集飞瞳,是全球应用落地最广,规模最大的港口航运人工智能高科技企业。中国人工智能独角兽CIMCAI中集飞瞳 巅峰产品行业第一,产品在全球港区及集装箱枢纽规模投产包括:全球港口码头智能闸口;全球港口岸边卸/装船;全球航运船公司;

    2024年02月05日
    浏览(41)
  • 人工智能专栏第十讲——马尔可夫决策过程

    马尔可夫决策过程(Markov Decision Process, MDP)是一类用于描述决策问题的数学模型。该模型可以将决策问题的状态、决策、动作、收益等概念进行形式化,并通过数学方法进行求解,得到一个最优的决策策略。马尔可夫决策过程广泛应用于智能控制、机器学习、人工智能等领域

    2024年02月08日
    浏览(36)
  • 带你搞懂人工智能、机器学习和深度学习!

    不少高校的小伙伴找我聊入门人工智能该怎么起步,如何快速入门,多长时间能成长为中高级工程师(聊下来感觉大多数学生党就是焦虑,毕业即失业,尤其现在就业环境这么差),但聊到最后,很多小朋友连人工智能和机器学习、深度学习的关系都搞不清楚。 今天更文给大

    2024年02月02日
    浏览(42)
  • 两万字长文带你全面解读生成式人工智能

    本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,仅供学习,违者必究! 随着 ChatGPT 的病毒式传播, 生成式人工智能 ( AIGC , a.k.a AI-generated content )因其分析和创造 文本 、 图像 、 视频 以及其他方面的出众能力而俨然成为当下最火热的投资

    2024年02月16日
    浏览(27)
  • 微软的人工智能 Copilot 到底有多强大?带你来体验一下

    本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索 郭霖 即可关注,每个工作日都有文章更新。 说实话,这是一篇我早就应该写的文章,我也不知道为什么我能拖这么久。 但好像从来也没有读者朋友们催我写过这类文章,这为我的拖更提供了很好的理由

    2023年04月24日
    浏览(40)
  • 第十一届国际分子模拟与人工智能应用学术会议 (2023-ICMS&AI)

    作为国内历史悠久、分子模拟领域公认的高水平国际学术会议,国际分子模拟与人工智能应用学术会议重磅回归。经过两年的精心筹备,本次会议将于 2023年5月6日-7日 在 成都 隆重举行,本次大会将为国内外从事分子模拟人工智能应用和研发创新数字化转型的企业、高校、科

    2023年04月26日
    浏览(48)
  • 一文带你读懂DETR模型

    论文地址: End-to-End Object Detection with Transformers  Detr是Facebook提出来的一种目标检测结构,使用了一种基于transformer的全新网络结构,在没有使用以往的诸如yolo之类的算法的情况下就能取得相当不错的表现,再次印证了transformer的优越性能。 目录 Introduction Set Prediction DETR arch

    2024年02月05日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包