【论文阅读】Megatron-LM要点

9月前作者：chestnut-- 分类：Toy博客阅读(39) 违法举报

这篇具有很好参考价值的文章主要介绍了【论文阅读】Megatron-LM要点。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Megatron-LM论文要点

本文主要是对李沐老师的b站分享做一下自己的理解和总结。

李沐老师b站分享

模型结构无非就是那样，相比而言，想要训练更大的模型而又能平稳进行，是一项非常高超的技术！

nvidia
跟gpipe类似，也是模型并行，但是在任务切割上面跟gpipe不一样。
gpipe： transformer也可以，cnn也可以，比较通用的方式。把不同的层放到不同的gpu，加入数据并行，成为流水线并行。
Megatron-LM：只针对特别大的使用transformer的语言模型，层中间切开，然后放到不同的gpu上。==》层切开的方法，通常命名为张量并行。

〉83亿的语言模型，使用了512块GPU，76%的分布式性能。
39亿的bert，层归一化layer norm的位置。
引言：军备竞赛

之前也有类似的工作，但是需要编译，现在这个方式更简单pytorch代码改动一点就可以了，不需要编译。

系统的文章，取舍，牺牲了通用性。

MLP层并行

【论文阅读】Megatron-LM要点,论文阅读,深度学习,人工智能

MLP输入 $X$ ，实际输入是3D的东西，改成2D的形式，方便讲解：行数是批量大小*序列长度 $b * l$ ，列数 $k$ 是隐藏层大小。
$\sigma(X·A)·B=Y$
$\sigma$ 一般是GeLU。

https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/stable/nlp/megatron.html文章来源地址https://www.toymoban.com/news/detail-664813.html

到了这里，关于【论文阅读】Megatron-LM要点的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

[论文笔记] PAI-Megatron中qwen和mistral合并到Megtron-LM

关于tokenizer的改动： /mnt/nas/pretrain/code/Megatron-LM/megatron/tokenizer/__init__.py 或者 tokenizer.py 在build_tokenizer.py函数中： debug时

2024年01月16日
浏览(40)
论文阅读——基于深度学习智能垃圾分类

B. Fu, S. Li, J. Wei, Q. Li, Q. Wang and J. Tu, “A Novel Intelligent Garbage Classification System Based on Deep Learning and an Embedded Linux System,” in IEEE Access, vol. 9, pp. 131134-131146, 2021, doi: 10.1109/ACCESS.2021.3114496. 垃圾数量的急剧增加和垃圾中物质的复杂多样性带来了严重的环境污染和资源浪费问题。回收

2024年02月11日
浏览(45)
【论文阅读】基于深度学习的时序预测——Autoformer

系列文章链接论文一：2020 Informer：长时序数据预测论文二：2021 Autoformer：长序列数据预测论文三：2022 FEDformer：长序列数据预测论文四：2022 Non-Stationary Transformers：非平稳性时序预测论文五：2022 Pyraformer：基于金字塔图结构的时序预测论文六：2023 Crossformer：多变量时序预

2024年02月13日
浏览(44)
【论文阅读】基于深度学习的时序预测——FEDformer

系列文章链接论文一：2020 Informer：长时序数据预测论文二：2021 Autoformer：长序列数据预测论文三：2022 FEDformer：长序列数据预测论文四：2022 Non-Stationary Transformers：非平稳性时序预测论文五：2022 Pyraformer：基于金字塔图结构的时序预测论文六：2023 Crossformer：多变量时序预

2024年02月13日
浏览(40)
【论文阅读】基于深度学习的时序预测——Crossformer

系列文章链接论文一：2020 Informer：长时序数据预测论文二：2021 Autoformer：长序列数据预测论文三：2022 FEDformer：长序列数据预测论文四：2022 Non-Stationary Transformers：非平稳性时序预测论文五：2022 Pyraformer：基于金字塔图结构的时序预测论文六：2023 Crossformer：多变量时序预

2024年02月13日
浏览(47)
【论文阅读】基于深度学习的时序预测——Pyraformer

系列文章链接论文一：2020 Informer：长时序数据预测论文二：2021 Autoformer：长序列数据预测论文三：2022 FEDformer：长序列数据预测论文四：2022 Non-Stationary Transformers：非平稳性时序预测论文五：2022 Pyraformer：基于金字塔图结构的时序预测论文六：2023 Crossformer：多变量时序预

2024年02月13日
浏览(45)
【论文阅读】基于深度学习的时序异常检测——TransAD

系列文章链接数据解读参考：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：TransAD.pdf 代码库链接：https://github.com/imperial-qore/TranAD 这篇文章是基于多变量数

2024年02月14日
浏览(83)
【论文阅读】基于深度学习的时序异常检测——TimesNet

系列文章链接参考数据集讲解：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：TimesNet.pdf 代码库链接：https://github.com/thuml/Time-Series-Library 项目介绍：https

2024年02月13日
浏览(56)
人工智能研究的未来：20 年机器学习和深度学习的论文创意！

“机器学习的美妙之处在于，它可以应用于你想要解决的任何问题，只要你能为计算机提供足够的例子。” 该文章列出了 20 年机器学习和深度学习本科课程的 2023 个潜在论文想法。每个论文的想法都包括一个介绍，简要概述了主题和研究目标。所提供的想法与

2024年02月09日
浏览(54)
【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer

系列文章链接数据解读参考：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：Anomaly Transformer.pdf 代码链接：https://github.com/thuml/Anomaly-Transformer 视频讲解（原

2024年02月14日
浏览(37)