在目前的开源模型中,LLaMA模型无疑是一颗闪亮的⭐️,但是相对于ChatGLM、BaiChuan等国产大模型,其对于中文的支持能力不是很理想。原版LLaMA模型的词表大小是32K,中文所占token是几百个左右,这将会导致中文的编解码效率低。
在将LLaMA系列模型用于中文语言时需要进行中文词表扩充,基于sentencepiece工具训练,产生新的词表,然后与原始词表合并得到一个新词表。
本文将LLaMA模型中文词表扩充分为以下步骤:训练数据准备、词表训练、词表合并、词表测试。
训练数据准备
这里使用MedicalGPT中的天龙八部小说作为训练文本。文章来源:https://www.toymoban.com/news/detail-770985.html
数据是txt文件,一行文本作为一条数据。文章来源地址https://www.toymoban.com/news/detail-770985.html
词表训练代码
import sentencepiece as spm
spm.SentencePieceTrainer.train(
input='tianlongbabu.txt'
到了这里,关于LLaMA模型之中文词表的蜕变的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!