技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

这篇具有很好参考价值的文章主要介绍了技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Introduction

首先作者说了最近ChatGPT等模型在AGI领域表现出了很好的性能,但是收到算力、闭源的限制,阻碍了研究。

然后Meta与MIT分别开源了LLaMA、Alpaca,这让研究有了希望。

然后作者说这两个模型是基于英文预料训练的,词表中的中文只有几百个,中文性能不好,然后作者通过扩充词表等方法证明了LLaMA与Alpaca在其他语言可以有提高表现的可能性。

文章主要有以下贡献:

  1. 为LLaMA、Alpaca的原始词表拓展了中文词表用20000个token。
  2. 用Lora减少了算力消耗。
  3. 验证 LLaMA、Alpaca在中文上面的表现。
  4. 开源了研究与资源。

Chinese LLaMA

LLaMA是一个在1.4T左右token上预训练的模型,但是它的中文能力一塌糊涂(虽然llama支持回退中文字符,但是字节码不能很好的表示中文),为了解决这个问题,作者做了如下改进:

  1. 为了增强tokenizer使它增强Chinese text,作者用Sentence Piece训练了一个新的中文tokenizer,与原始的词表合并。
  2. 修改embedding去适配新的词表,新的向量为了不影响以前的token,添加在了以前的embedding matrices末尾。

初步实验展示,在表达更清楚的同时,所需要的token长度几乎少了一倍。
技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

Chinese Alpaca

得到Chinese LLaMA后,采取指令微调的形式去获得Chinese Alpaca,其中属于格式如下:
技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca
与原始模型的不同是没有input(我觉得这样更符合中国方式的问答),如果下游数据input中含有数据,通过 \n合并instruction与input,其中\n被视为一个额外的 padding token

Lora-Fine-tuning

这个阶段与以前并无二致,在LLaMA到Chinese-LLaMA,Alpaca到Chinese Alpaca阶段都是使用的这个技术。

实验

7B

pre- training

阶段1:我们在模型中固定transformer编码器的参数,并仅训练
Embedding,在最小化干扰的同时调整新添加的中文词向量
到原始模型。
阶段2:将LoRA权重(适配器)添加到注意力机制中,并训练ebeddings、LM头和新添加的LoRA参数。

Instruction-Tuning

指令微调在获得预训练模型后,我们还使用LoRA进行高效的微调,增加了可训练参数的数量 。
通过向MLP层添加LoRA适配器。我们使用大约2M数据点,并爬取了SFT数据以调整7B模型。

13B

Pre-Training

预训练13B模型的预训练过程与7B的基本相同模型,除了我们在预训练中跳过阶段1。我们直接把LoRA应用到 训练的注意事项和mlp,同时将嵌入和LM头设置为可训练的。

Instruct-Tuning

指令微调LoRA设置和可训练参数保持不变,训练的阶段。我们为13B模型使用额外的1M爬取的自指导数据点微调,导致13B模型的总数据大小为3M。

超参数:
技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca文章来源地址https://www.toymoban.com/news/detail-485812.html

到了这里,关于技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 用于图像恢复的图像层次结构的高效和显式建模Efficient and Explicit Modelling of Image Hierarchies for Image Restoration

    本文的目的是提出一种机制,在 全局、区域和局部 范围内高效、明确地对图像层次结构进行建模,以 进行图像恢复 。为实现这一目标,我们首先分析自然图像的两个重要属性,包括 跨尺度相似性和各向异性图像特征 。受此启发,我们提出了anchored stripe self-attention,它在

    2024年02月06日
    浏览(47)
  • System.Text.Encoding不同字符编码之间进行转换

    System.Text.Encoding 是 C# 中用于处理字符编码和字符串与字节之间转换的类。它提供了各种静态方法和属性, 用于在不同字符编码之间进行转换 ,以及将字符串转换为字节数组或反之。 在处理多语言文本、文件、网络通信以及其他字符数据的场景中,使用 Encoding 类可以确保数

    2024年02月12日
    浏览(40)
  • 【Django】无法从“django.utils.encoding”导入名称“force_text”

    整晚处理 Django 的导入错误。 我将把它作为提醒,希望处于相同情况的人数会减少。 某些软件包版本不支持Django 4 请看下表并决定Django和Python的版本 如果出现难以响应,或者更改环境麻烦,请尝试以下操作 例如出现以下错误 强制安装低于4的版本

    2024年02月13日
    浏览(39)
  • Could not extract response: no suitable `HttpMessageConverter` found for response type [class wechat.xx] and content type [text/plain] 问题

    话不多说,先贴出问题代码:这里的 GetUserInfoByAccessToken 是我自定义的一个实体类。 异常信息:Could not extract response: no suitable HttpMessageConverter found for response type [class wechat.wxRes.GetUserInfoByAccessToken] and content type [text/plain],很明显这段异常的意思是在指定返回类型为GetUserInfoByA

    2024年02月14日
    浏览(43)
  • Benchmarking Chinese Text Recognition: Datasets, Baselines| OCR 中文数据集【论文翻译】

    https://arxiv.org/pdf/2112.15093.pdf https://github.com/FudanVI/benchmarking-chinese-text-recognition 深度学习蓬勃发展的局面见证了近年来文本识别领域的迅速发展。然而,现有的文本识别方法主要针对英文文本。作为另一种广泛使用的语言,中文文本识别在各个领域都有广泛的应用市场。根据我

    2024年02月10日
    浏览(45)
  • LLaMA Open and Efficient Foundation Language Models

    来源Meta AI github地址: facebookresearch/ llama 论文:LLaMA: Open and Efficient Foundation Language Models 模型:目前可以在huggingface上直接下载,https://huggingface.co/decapoda-research 包括: LLaMA-7B LLaMA-13B LLaMA-33B LLaMA-65B 一、摘要 我们介绍了LLaMA,这是一组从7B到65B参数范围内的基础语言模型。我们

    2024年02月11日
    浏览(72)
  • LLaMA: Open and Efficient Foundation Language Models

    用最少的计算资源,解决了LLM大模型预测问题,训练了一些列的LLaMa模型,在参数量比较少的情况下,达到业界大模型效果。 主要贡献就是提升了LLM模型的训练速度和效率,在小容量的基础上,大大提升了模型的效果。 同时由于模型结构更小更简单,大大提升了推理速度。

    2024年02月13日
    浏览(43)
  • LLaMA:Open and Efficient Foundation Language Models

    在大规模数据下训练的大模型,已经展示了很好的表现,当模型足够大的时,模型会出现一个 涌现 的能力,如下图: 最近的一项研究表明,在有限的算力下,表现最好的模型不是参数最大的,而是小一点模型搭配了更多数据。 这项工作的重点是训练一系列语言模型,通过对

    2024年02月09日
    浏览(40)
  • LLaMA: Open and Efficient Foundation Language Models笔记

    一个基础语言模型的集合,参数范围从7B到65B 在数万亿的token上训练的模型,不依赖于专有的和不可访问的数据集 大多数基准测试中优于GPT-3 (175B) LLaMA65B与最好的模型Chinchilla-70B和PaLM-540B具有竞争力 全部模型开源!! 最近的工作表明,对于给定的计算预算,最佳性能不是由最

    2024年02月09日
    浏览(50)
  • 大模型Llama2部署,基于text-generation-webui、Llama2-Chinese

    参考安装教程:傻瓜式!一键部署llama2+chatglm2,集成所有环境和微调功能,本地化界面操作! Github地址:GitHub - oobabooga/text-generation-webui: A Gradio web UI for Large Language Models. Supports transformers, GPTQ, llama.cpp (ggml/gguf), Llama models. 模型下载地址:meta-llama/Llama-2-13b-chat-hf at main 遇到的问

    2024年02月08日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包