[论文笔记] PAI-Megatron 1、Qwen continuing pretrain(CT)千问预训练

这篇具有很好参考价值的文章主要介绍了[论文笔记] PAI-Megatron 1、Qwen continuing pretrain(CT)千问预训练。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

通义千问开源模型在PAI灵骏的最佳实践 - 知乎

https://github.com/alibaba/Pai-Megatron-Patch/blob/main/examples/megatron.md

背景:

        目标:使用qwen基座来做CT。

        数据情况:预训练数据已经用qwen-tokenizer分过词。所以不需要准备数据。如果需没有数据,也可以从Pai-Megatron上拉数据。

Megatron训练流程:

      Pai-Megatron-Patch 克隆Pai-Megatron-Patch源代码并拷贝到工作目录/mnt/workspace/下。文章来源地址https://www.toymoban.com/news/detail-806498.html

# 开源网站获取训练代码
git clone --recurse-submodules https://github.com/alibaba/Pai-Megatron-Patch.git
# wget获取训练代码
https://atp-mode

到了这里,关于[论文笔记] PAI-Megatron 1、Qwen continuing pretrain(CT)千问预训练的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning)

    论文链接: Continual Learning with Pre-Trained Models: A Survey 代码链接: Github: LAMDA-PILOT 持续学习 (Continual Learning, CL)旨在使模型在学习新知识的同时能够保留原来的知识信息了,然而现实任务中,模型并不能很好地保留原始信息,这也就是常说的 灾害性遗忘 (Catastrophic forgetting)

    2024年04月26日
    浏览(48)
  • 论文笔记:Continuous Trajectory Generation Based on Two-Stage GAN

    2023 AAAI 建模人类个体移动模式并生成接近真实的轨迹在许多应用中至关重要 1)生成轨迹方法能够为城市规划、流行病传播分析和交通管控等城市假设分析场景提供仿仿真数据支撑 2)生成轨迹方法也是目前促进轨迹数据开源共享与解决轨迹数据隐私问题的可行解决方案 在不

    2024年02月12日
    浏览(62)
  • 论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    标题:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI   文章给出了一种新的NLP预训练模型的训练方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    浏览(75)
  • [论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models

    TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models arXiv2023 复旦大学 Benchmark、Continual Learing、LLMs 已经对齐过的大模型 (Aligned LLMs )能力很强,但持续学习能力缺乏关注; 目前CL的benchmark对于顶尖的LLMs来说过于简单,并且在指令微调存在model的potential exposure。(这里的

    2024年01月18日
    浏览(61)
  • 【论文阅读】Megatron-LM要点

    本文主要是对李沐老师的b站分享做一下自己的理解和总结。 李沐老师b站分享 模型结构无非就是那样,相比而言,想要训练更大的模型而又能平稳进行,是一项非常高超的技术! nvidia 跟gpipe类似,也是模型并行,但是在任务切割上面跟gpipe不一样。 gpipe: transformer也可以,

    2024年02月11日
    浏览(40)
  • 【论文阅读】Generative Pretraining from Pixels

    引用: Chen M, Radford A, Child R, et al. Generative pretraining from pixels[C]//International conference on machine learning. PMLR, 2020: 1691-1703. 论文链接: http://proceedings.mlr.press/v119/chen20s.html 受自然语言中无监督表示学习进展的启发,作者研究了类似的模型是否能够学习图像的有用表示, 训练了一个序

    2024年03月11日
    浏览(47)
  • 论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

    如何将现有的图像 - 文本多模态大模型(例如 OpenAI CLIP)用于视频内容理解,是一个非常实用且具有前景的研究课题 。它不仅可以充分挖掘图像大模型的潜力,还可以为视频大模型的设计和研究铺平道路。 在视频内容理解领域,为节省计算 / 数据开销,视频模型通常 「微调

    2024年02月02日
    浏览(47)
  • 【论文解读】Prefix-Tuning: Optimizing Continuous Prompts for Generation

    一.介绍 1.1 前置知识 1.1.1 in-context learning At the limit, GPT-3 (Brown et al, 2020) can be deployed using in-context learning, which is a form of prompting, without modifying any LM parameters. \\\"部署\\\" 指的是将 GPT-3 模型用于实际应用或特定任务的过程。 \\\"In-context learning\\\" 是一种 通过提供上下文或附加信息来指导

    2024年02月07日
    浏览(46)
  • 【通义千问】大模型Qwen GitHub开源工程学习笔记(3)-- 通过Qwen预训练语言模型自动完成给定的文本

    本笔记分析了使用预训练的模型生成文本的示例代码。它的步骤如下: 使用已加载的分词器 tokenizer 对输入文本进行处理,转换为模型可以理解的格式。输入文本是国家和首都的信息,最后一句是未完成的,需要模型来生成。 将处理后的输入转移到模型所在的设备上(例如

    2024年02月07日
    浏览(52)
  • 【通义千问】大模型Qwen GitHub开源工程学习笔记(2)--使用Qwen进行推理的示例代码解析,及transformers的使用

    如希望使用Qwen-chat进行推理,所需要写的只是如下所示的数行代码。 请确保你使用的是最新代码,并指定正确的模型名称和路径,如 Qwen/Qwen-7B-Chat 和 Qwen/Qwen-14B-Chat 这里给出了一段代码

    2024年02月08日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包