[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

这篇具有很好参考价值的文章主要介绍了[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

关键词:大模型,LLaMA,Alpaca,Lora,Belle,模型训练,模型微调,指令微调

最近尝试在领域数据进行生成式大模型的再训练和微调,在调研和实验中整理了一些项目&论文的基本信息,后续会持续完善和补充。

LLaMA大模型及其衍生模型

1. LLaMA

项目地址: https://github.com/facebookresearch/llama

LLaMa语料数据如下,对各类语料又做了「去重、筛选」等,每种数据的处理方式有差别,具体见论文。语料中不包含中文数据。
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)
模型参数:1.4T tokens, 2 epochs, 训练耗时65B模型: 2048 * 80G A100 * 21day,其他参数见下表:
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

相对于之前的大模型,LLaMa做了三点改进:

  • GPT3在每层transformer之后做正则化,调整为在每层transformer之前做正则化,正则化采用RMSNorm;
  • 相比PaLM,在激活函数上,使用SwiGLU替换ReLU非线性激活函数;
  • 相比GPTNeo,在位置编码上,使用RoPE替代绝对位置编码;

LLaMA相对其他大模型在零样本常识推理任务上的性能对比:
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)
结论:在其他零样本、小样本任务上与各大模型进行性能对比,结果显示,LLaMA-13B在大多数任务上能够赶上GPT3,但模型大小不足GPT3的十分之一。LLaMA-65B与Chinchilla-70B/PaLM-540B在多个任务也具有一定的竞争力。

更重要的是LLaMA是chatGPT之后首个被广泛用作底座模型的开源大模型,为后续基于llama的衍生模型做出了极大的贡献
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

2. stanford_alpaca

项目地址:https://github.com/tatsu-lab/stanford_alpaca

以llama做为底座模型,引入新的数据进行指令微调ISF,新数据采用self-instruct的方式有Text-davinci-003进行生成,得到52k新数据进行微调训练。

本项目的贡献在于,提供了用于指令微调的数据生成方式,同时证明了ISF后模型效果的提升,其之后的很多项目均是基于这个思路。
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

3. ChatDoctor

本项目可以看着是standford-aplaca方法在医疗领域的衍生,其借助chatGPT对结构化知识库生成ISF数据集的方法在后续项目的多被借鉴。

项目地址: https://github.com/Kent0n-Li/ChatDoctor
基础模型:llama-7b
指令样本构造:Standford Alpaca 52k数据,700类疾病知识库借助ChatGPT生成的5k数据
指令样本量:52k + 5k
任务评测:对比ChatGPT在医学内容上进行提问,评估内容输出的准确性,ChatGPT 87%,ChatDocter 91%
模型发布:ChatDocktor,模型在stanford alpaca的基础上进行再训练
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

4. alpaca-lora

项目地址: https://github.com/tloen/alpaca-lora

Alpaca-Lora (羊驼-Lora),在stanford-alpaca的基础上,使用 Lora (Low-rank Adaptation) 技术对模型进行指令微调,相当于是对模型进行轻量化训练,使得对显存的占用和训练时长都大幅度降低。在大模型训练高资源高成本的情况下,使用lora技术,牺牲少部分性能却使得大模型训练变得可行,在之后的项目中被广泛用到。

LoRa结构:在模型的Linear层的旁边,增加一个「旁支」,训练更新旁支参数替代模型参数。
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

5. Chinese-LLaMA-Alpaca

项目地址: https://github.com/ymcui/Chinese-LLaMA-Alpaca

该项目值得被重点推荐和学习,ymcui在Bert时代Chinese-BERT-wwm亦是杰出之作。

该项目在LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,同时中文Alpaca模型进一步使用了中文指令数据进行精调。保姆级说明文档及量化版本可轻松部署本地PC。

预训练数据:通用中文语料(bert-wwm,macbert,lert,pert等语料)13.6M行

指令微调样本数据:200w数据,中英文翻译500k + pCLUE 300k + Alpaca 100k(中/英)

6. BELLE

项目地址:https://github.com/LianjiaTech/BELLE
基础模型:bloom-7b, llama-7b
指令样本构造:Standford Alpaca方法,chatGPT self-instruct
指令样本量:20万、60万、100万和200万样本
任务评测:在Extract, Classification, Closed QA, 和Summarization任务上,增加数据能持续带来效果的提升,还未达到瓶颈。在Translation, Rewrite, 和Brainstorming任务上,几十万的数据量就能获得较好的效果。在Math, Code, 和COT任务上,模型效果较差,而且增加数据量已经无法带来效果的提升。 https://github.com/ZrrSkywalker/LLaMA-Adapter
模型发布:BLOOMZ-7B1-xx,LLAMA-7B-xx,xx表示不同的指令样本量

大模型综述 A Survey of Large Language Models

论文地址:A Survey of Large Language Models

4月份发表在arXiv上的大模型综述,包括了大模型的发展历程、各大模型的关键参数、训练语料的处理方法及数据类型,以及大模型训练的流程等,对于全面了解认识大模型很有帮助。

  • 大模型发展历程:
    [大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)
    - 各大模型关键信息
    [大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

  • LLM语料从内容类型上可以分为六大类:Books, CommonCrawl, Reddit links, Wikipedia, Code, and others.
    [大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

语料数据包括了通用数据和专业数据,通用数据的多样性能提高模型的泛化性和语言理解能力,专业数据能够赋予LLM特定的任务解决能力。
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

高质量数据可能在很大程度上影响LLM的性能,因此需要对原始语料进行过滤,包括去除有噪声、冗余、不相关和潜在毒性的数据。

LLM训练前的数据处理流程:
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

---------END--------文章来源地址https://www.toymoban.com/news/detail-473799.html

到了这里,关于[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 类ChatGPT模型LLaMA的解读与其微调:Alpaca-LoRA/Vicuna/BELLE

    近期,除了研究ChatGPT背后的各种技术细节 不断看论文(至少100篇,100篇目录见此:ChatGPT相关技术必读论文100篇),还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)  本文一开始是作为此文《ChatGPT技术

    2024年02月08日
    浏览(52)
  • 使用 Docker 和 Alpaca LoRA 对 LLaMA 65B 大模型进行 Fine-Tune

    这篇文章中,我们来聊聊如何使用两张显卡来进行 LLaMA 65B 大模型的微调工作,以及如何在一张普通的 4090 家用显卡上,只花几个小时,就能够完成 7B 模型的微调。 在之前的几篇文章里,我们介绍过三种方式运行 Meta 开源模型 LLaMA 的 7B、13B 版本: 《模型杂谈:使用 IN8 量化

    2023年04月23日
    浏览(37)
  • 深入理解LLaMA, Alpaca, ColossalChat 系列模型

    知乎:紫气东来 https://zhuanlan.zhihu.com/p/618695885 1.1 LLaMA 概要与实践 LLaMA(Large Language Model Meta AI) 是由 Meta AI 发布了一款全新的大型语言模型,共有7B、13B、33B、65B 四种版本,其模型参数如下表所示: 与原始的 transformer Decoder 相比,LLaMA主要有以下改进: 预归一化(Pre-normalizatio

    2023年04月18日
    浏览(27)
  • 羊驼系列大模型LLaMa、Alpaca、Vicuna

    羊驼系列大模型:大模型的安卓系统 GPT系列:类比ios系统,不开源 LLaMa优势 用到的数据:大部分英语、西班牙语,少中文 模型下载地址 https://huggingface.co/meta-llama Alpaca是斯坦福从Meta的LLaMA 7B微调而来的全新模型 (套壳)仅用了52k数据,性能约等于GPT-3.5。 训练成本奇低,总成本

    2024年01月21日
    浏览(46)
  • LLaMA的解读与其微调:Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙/LLaMA 2

    近期,除了研究ChatGPT背后的各种技术细节 不断看论文(至少100篇,100篇目录见此:ChatGPT相关技术必读论文100篇),还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)  本文一开始是作为此文《ChatGPT技术

    2024年02月17日
    浏览(42)
  • 足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼

    之前尝试了 从0到1复现斯坦福羊驼(Stanford Alpaca 7B) ,Stanford Alpaca 是在 LLaMA 整个模型上微调,即对预训练模型中的所有参数都进行微调(full fine-tuning)。但该方法对于硬件成本要求仍然偏高且训练低效。 因此, Alpaca-Lora 则是利用 Lora 技术,在冻结原模型 LLaMA 参数的情况下

    2024年02月03日
    浏览(43)
  • llama-factory SFT系列教程 (二),大模型在自定义数据集 lora 训练与部署

    文章列表: llama-factory SFT系列教程 (一),大模型 API 部署与使用 llama-factory SFT系列教程 (二),大模型在自定义数据集 lora 训练与部署 llama-factory SFT系列教程 (三),chatglm3-6B 命名实体识别实战 模型名 模型大小 默认模块 Template Baichuan2 7B/13B W_pack baichuan2 BLOOM 560M/1.1B/1.7B/3B/7.1B/176

    2024年04月25日
    浏览(49)
  • 【NLP】Llama & Alpaca大模型

      🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​ 📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】 ​​  🖍foreword

    2024年02月09日
    浏览(44)
  • Llama 及 中文Alpaca模型部署测试

    环境: Xeon  E5-2680v4 16C 40G RAM WinServer 2019 Standard Edition Python 3.10 依赖库: accelerate==0.18.0 anyio==3.5.0 argon2-cffi==21.3.0 argon2-cffi-bindings==21.2.0 asttokens==2.0.5 attrs==22.1.0 Babel==2.11.0 backcall==0.2.0 beautifulsoup4==4.12.2 bleach==4.1.0 brotlipy==0.7.0 certifi==2022.12.7 cffi==1.15.1 chardet==5.1.0 charset-normalizer==3.1.

    2024年02月09日
    浏览(54)
  • LLM:LLaMA模型和微调的Alpaca模型

    简单了解[LeCun狂赞:600刀GPT-3.5平替! 斯坦福70亿参数「羊驼」爆火,LLaMA杀疯了] 论文原文:https://arxiv.org/abs/2302.13971v1 模型就是用的transformer的decoder,模型设计的不同点在于: 1 Position Embedding :RoPE旋转位置编码rotary-embedding 删除了绝对位置嵌入,而是在网络的每一层添加了

    2024年02月10日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包