LLaMA模型之中文词表的蜕变

1年前作者：hj_caas分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了LLaMA模型之中文词表的蜕变。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

在目前的开源模型中，LLaMA模型无疑是一颗闪亮的⭐️，但是相对于ChatGLM、BaiChuan等国产大模型，其对于中文的支持能力不是很理想。原版LLaMA模型的词表大小是32K，中文所占token是几百个左右，这将会导致中文的编解码效率低。

在将LLaMA系列模型用于中文语言时需要进行中文词表扩充，基于sentencepiece工具训练，产生新的词表，然后与原始词表合并得到一个新词表。

本文将LLaMA模型中文词表扩充分为以下步骤：训练数据准备、词表训练、词表合并、词表测试。

训练数据准备

这里使用MedicalGPT中的天龙八部小说作为训练文本。

数据是txt文件，一行文本作为一条数据。文章来源地址https://www.toymoban.com/news/detail-770985.html

词表训练代码

import sentencepiece as spm

spm.SentencePieceTrainer.train(
    input='tianlongbabu.txt'

到了这里，关于LLaMA模型之中文词表的蜕变的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

[NLP]LLM---FineTune自己的Llama2模型
Let’s talk a bit about the parameters we can tune here. First, we want to load a llama-2-7b-hf model and train it on the mlabonne/guanaco-llama2-1k (1,000 samples), which will produce our fine-tuned model llama-2-7b-miniguanaco . If you’re interested in how this dataset was created, you can check this notebook. Feel free to change it: there ar
2024年02月09日
浏览(7)
NLP-分词器：SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】
随着ChatGPT迅速出圈，最近几个月开源的大模型也是遍地开花。目前，开源的大语言模型主要有三大类：ChatGLM衍生的大模型（wenda、ChatSQL等）、LLaMA衍生的大模型（Alpaca、Vicuna、BELLE、Phoenix、Chimera等）、Bloom衍生的大模型（Bloomz、BELLE、Phoenix等）。其中，ChatGLM-6B主要以中英双
2024年02月11日
浏览(10)
在树莓派中跑迷你Llama2中文模型
OpenAI的Karpathy利用周末搞了一个迷你Llama2项目llama2.c用500行C语言实现无任何依赖项的推理程序，此项目在github发布以来衍生出了基于各种语言的迷你Llama推理实现llama2.go、llama2.java、llama2.py等等；但该项目原本的模型并不支持中文，最近正好看到一个基于llama2的中文训
2024年02月12日
浏览(8)
大模型部署手记（11）LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+llama.cpp+中文对话
组织机构：Meta（Facebook）代码仓：GitHub - facebookresearch/llama: Inference code for LLaMA models 模型：LIama-2-7b-hf、Chinese-LLaMA-Plus-2-7B 下载：使用huggingface.co和百度网盘下载硬件环境：暗影精灵7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡：Nvidia GTX 3080 Laptop （1
2024年02月03日
浏览(9)
使用 Docker 快速上手中文版 LLaMA2 开源大模型
本篇文章，我们聊聊如何使用 Docker 容器快速上手朋友团队出品的中文版 LLaMA2 开源大模型，国内第一个真正开源，可以运行、下载、私有部署，并且支持商业使用。感慨于昨天 Meta LLaMA2 模型开放下载之后，GitHub 上出现了许多“只有 Readme 文档” 的开源模型项目，并一时间在
2024年02月16日
浏览(10)
大模型部署手记（9）LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中文文本补齐
组织机构：Meta（Facebook）代码仓：GitHub - facebookresearch/llama: Inference code for LLaMA models 模型：llama-2-7b、Chinese-LLaMA-Plus-7B（chinese_llama_plus_lora_7b）下载：使用download.sh下载硬件环境：暗影精灵7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡：Nvidia GTX 3080 La
2024年02月03日
浏览(7)
【AI实战】开源中文 llama2 来了，30 分钟搭建 130 亿参数大模型 Llama2-Chinese-13b-Chat
Llama2 2023年7月19日：Meta 发布开源可商用模型 Llama2。 Llama2 是一个预训练和微调的生成文本模型的集合，其规模从70亿到700亿个参数不等。 LLaMA2 的详细介绍可以参考这篇文章：【大模型】更强的 LLaMA2 来了，开源可商用、与 ChatGPT 齐平 Llama2-Chinese Llama2中文社区 Llama2-Chinese Git
2024年02月12日
浏览(6)
Sealos 国内集群正式上线，可一键运行 LLama2 中文版大模型！
2023 年 7 月 19 日，MetaAI 宣布开源旗下的 LLama2 大模型，Meta 首席科学家、图灵奖得主 Yann LeCun 在推特上表示 Meta 此举可能将改变大模型行业的竞争格局。一夜之间，大模型格局再次发生巨变。不同于 LLama，LLama2 免费可商用！ LLama2 的能力在 GPT-3 ~ GPT-3.5 之间，对于关注数据隐
2024年02月12日
浏览(10)
[玩转AIGC]LLaMA2训练中文文章撰写神器（数据准备，数据处理，模型训练，模型推理）
好久没更新这个专栏的文章了，今天抽空写了一篇。————2023.12.28 摘要：文体包括新闻，法律文书，公告，广告等，每种文体的书写风格不一样，如果拥有自己的数据集，想针对特定文体来训练一个内容生成的工具，来帮助自己写点文章，如果没接触过AIGC，可能一开始会
2024年01月17日
浏览(11)
将 Llama2 中文模型接入 FastGPT，再将 FastGPT 接入任意 GPT 套壳应用，真刺激！
FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！ Llama2 是Facebook 母公司 Meta 发布的开源可商用大模型，国内的开源社区以及个人和机构也纷纷着手基于 Ll
2024年02月10日
浏览(9)