技术报告：Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

这篇具有很好参考价值的文章主要介绍了技术报告：Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Introduction

首先作者说了最近ChatGPT等模型在AGI领域表现出了很好的性能，但是收到算力、闭源的限制，阻碍了研究。

然后Meta与MIT分别开源了LLaMA、Alpaca，这让研究有了希望。

然后作者说这两个模型是基于英文预料训练的，词表中的中文只有几百个，中文性能不好，然后作者通过扩充词表等方法证明了LLaMA与Alpaca在其他语言可以有提高表现的可能性。

文章主要有以下贡献：

为LLaMA、Alpaca的原始词表拓展了中文词表用20000个token。
用Lora减少了算力消耗。
验证 LLaMA、Alpaca在中文上面的表现。
开源了研究与资源。

Chinese LLaMA

LLaMA是一个在1.4T左右token上预训练的模型，但是它的中文能力一塌糊涂（虽然llama支持回退中文字符，但是字节码不能很好的表示中文），为了解决这个问题，作者做了如下改进：

为了增强tokenizer使它增强Chinese text，作者用Sentence Piece训练了一个新的中文tokenizer，与原始的词表合并。
修改embedding去适配新的词表，新的向量为了不影响以前的token，添加在了以前的embedding matrices末尾。

初步实验展示，在表达更清楚的同时，所需要的token长度几乎少了一倍。
技术报告：Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

Chinese Alpaca

得到Chinese LLaMA后，采取指令微调的形式去获得Chinese Alpaca，其中属于格式如下：
技术报告：Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca
与原始模型的不同是没有input（我觉得这样更符合中国方式的问答），如果下游数据input中含有数据，通过 \n合并instruction与input，其中\n被视为一个额外的 padding token。