【AIGC】baichuan-7B大模型

这篇具有很好参考价值的文章主要介绍了【AIGC】baichuan-7B大模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

百川智能|开源可商用的大规模预训练语言模型baichuan-7B大模型

概述
baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威 benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
百川智能发布的开源中英文大模型baichuan-7B是一个基于GPT-3.5架构的预训练语言模型,拥有70亿个参数,是目前全球最大的中英文混合预训练语言模型之一。根据百川智能的官方介绍,baichuan-7B的能力包括:

语言理解和生成:baichuan-7B能够对中英文文本进行自然语言理解和生成,包括语义理解、情感分析、自动摘要、对话生成等。
多场景应用:baichuan-7B在多个领域都有广泛的应用,例如智能客服、自然语言处理、智能写作、文本分类、机器翻译等。
高效性能和可扩展性:baichuan-7B采用了高效的模型架构和训练算法,具有优秀的性能和可扩展性,能够支持大规模语言处理任务。
总体来说,baichuan-7B是一款非常强大的中英文混合预训练语言模型,具有语言理解和生成、多场景应用、高效性能和可扩展性等优点,可以为各种自然语言处理任务提供强有力的支持。

https://github.com/baichuan-inc/baichuan-7B

数据
原始数据包括开源的中英文数据和自行抓取的中文互联网数据,以及部分高质量知识性数据。
参考相关数据工作,频率和质量是数据处理环节重点考虑的两个维度。 我们基于启发式规则和质量模型打分,对原始数据集进行篇章和句子粒度的过滤。在全量数据上,利用局部敏感哈希方法,对篇章和句子粒度做滤重。
经过不断的调整和多轮测试,最终确认了一个在下游任务上表现最好的中英文配比。
我们使用了一个基于自动学习的数据权重策略,对不同类别的数据进行配比。
【AIGC】baichuan-7B大模型

分词
我们参考学术界方案使用 SentencePiece 中的 byte pair encoding (BPE)作为分词算法,并且进行了以下的优化:

目前大部分开源模型主要基于英文优化,因此对中文语料存在效率较低的问题。我们使用2000万条以中英为主的多语言语料训练分词模型,显著提升对于中文的压缩率。
对于数学领域,我们参考了 LLaMA 和 Galactica 中的方案,对数字的每一位单独分开,避免出现数字不一致的问题,对于提升数学能力有重要帮助。
对于罕见字词(如特殊符号等),支持 UTF-8-characters 的 byte 编码,因此做到未知字词的全覆盖。
我们分析了不同分词器对语料的压缩率,如下表,可见我们的分词器明显优于 LLaMA, Falcon 等开源模型,并且对比其他中文分词器在压缩率相当的情况下,训练和推理效率更高。
【AIGC】baichuan-7B大模型

模型结构
整体模型基于标准的 Transformer 结构,我们采用了和 LLaMA 一样的模型设计

位置编码:rotary-embedding 是现阶段被大多模型采用的位置编码方案,具有更好的外延效果。虽然训练过程中最大长度为4096,但是实际测试中模型可以很好的扩展到 5000 tokens 上。
激活层:SwiGLU, Feedforward 变化为(8/3)倍的隐含层大小,即11008
Layer-Normalization: 基于 RMSNorm 的 Pre-Normalization
【AIGC】baichuan-7B大模型

训练稳定性和吞吐
我们在原本的LLaMA框架上进行诸多修改以提升训练时的吞吐,具体包括:

算子优化技术:采用更高效算子,如 Flash-attention,NVIDIA apex 的 RMSNorm 等。
算子切分技术:将部分计算算子进行切分,减小内存峰值。
混合精度技术:降低在不损失模型精度的情况下加速计算过程。
训练容灾技术:训练平台和训练框架联合优化,IaaS + PaaS 实现分钟级的故障定位和任务恢复。
通信优化技术,具体包括:
采用拓扑感知的集合通信算法,避免网络拥塞问题,提高通信效率。
根据卡数自适应设置 bucket size,提高带宽利用率。
根据模型和集群环境,调优通信原语的触发时机,从而将计算和通信重叠。
基于上述的几个优化技术,我们在千卡A800机器上达到了7B模型182Tflops的吞吐,GPU峰值算力利用率高达58.3% 。

【AIGC】baichuan-7B大模型

公开benchmark榜单
中文评测
C-Eval
C-Eval 数据集是一个全面的中文基础模型评测数据集,涵盖了52个学科和四个难度的级别。我们使用该数据集的dev集作为 few-shot 的来源,在 test 集上进行了 5-shot 测试。

先修改 evaluate_zh.py 中的 OPENMODEL_PATH 和 CEVAL_DATA_PATH 两个值,分别是模型(文件夹)存放的路径和 C-Eval 数据集的路径。再执行下面的脚本。

shot=5 # few-shot
gpu=0 # 显卡id
split=test # 评估测试集
model_id=baichuan-7b # 待评估的模型
task=ceval # 任务名称:ceval
echo gpu_idx- g p u − {gpu}- gpu{model_id}KaTeX parse error: Expected group after '_' at position 7: {task}_̲{split}${shot}-shot
nohup python evaluate_zh.py --gpu_idx ${gpu} --model_id ${model_id} --task ${task} --shot ${shot} --split ${split} --show_detail > KaTeX parse error: Expected group after '_' at position 11: {model_id}_̲{task}_KaTeX parse error: Expected group after '_' at position 8: {split}_̲{shot}-shot_record.txt 2>&1 &
结果
【AIGC】baichuan-7B大模型

Gaokao
Gaokao 是一个以中国高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和逻辑推理能力。 我们只保留了其中的单项选择题,随机划分后对所有模型进行统一 5-shot 测试。

结果
以下是测试的结果。
【AIGC】baichuan-7B大模型

AGIEval
AGIEval 旨在评估模型的认知和解决问题相关的任务中的一般能力。 我们只保留了其中的四选一单项选择题,随机划分后对所有模型进行了统一5-shot测试。

结果
【AIGC】baichuan-7B大模型

其中 Aquila 模型来源于智源官方网站文章来源地址https://www.toymoban.com/news/detail-494705.html

到了这里,关于【AIGC】baichuan-7B大模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • NLP(六十三)使用Baichuan-7b模型微调人物关系分类任务

    任务介绍   人物关系分类指的是对文本中的两个人物,在特定的关系列表中,判断他们之间的人物关系。以样本 亲戚 1837年6月20日,威廉四世辞世,他的侄女维多利亚即位。 为例,其中 亲戚 为人物关系, 威廉四世 为实体1, 维多利亚 为实体2。   笔者自己利用业余时

    2024年02月15日
    浏览(45)
  • 【AIGC】Baichuan2-13B-Chat模型微调

    微调框架:LLaMA-Efficient-Tuning 训练机器:4*RTX3090TI (24G显存) python环境:python3.8, 安装 requirements.txt 依赖包 1、准备数据集 2、训练及测试 1)创建模型输出目录 2)创建deepspeed配置文件目录 3)创建deepspeed配置文件 4)训练模型 测试模型 3、注意事项: 1)我用的是3090TI显卡,使用

    2024年02月08日
    浏览(42)
  • 开源模型应用落地-baichuan2模型小试-入门篇(三)

            相信您已经学会了如何在Windows环境下以最低成本、无需GPU的情况下运行baichuan2大模型。现在,让我们进一步探索如何在Linux环境下,并且拥有GPU的情况下运行baichuan2大模型,以提升性能和效率。     CentOS是一种基于Linux的自由开源操作系统。它是从Red Hat Enterprise Li

    2024年04月17日
    浏览(51)
  • 百川智能发布首个530亿参数闭源大模型,今年追上GPT-3.5

    4月官宣创业,6月15日发布第一款7B开源模型,7月11日发布第二款13B、130亿参数开源模型。 平均保持2个月一个版本发布速度,8月8日,百川智能发布了创业以来的首个530亿参数闭源大模型——Baichuan-53B(以下简称“53B”)。 光锥智能获悉,53B支持中英双语,在知识性上表现优

    2024年02月13日
    浏览(44)
  • LLM - Baichuan7B Lora 训练详解

    目录 一.引言 二.环境准备 三.模型训练 1.依赖引入与 tokenizer 加载 2.加载 DataSet 与 Model 3.Model 参数配置 4.获取 peft Model 5.构造 Trainer 训练 6.训练完整代码 四.Shell 执行 1.脚本构建 2.训练流程 3.训练结果 五.总结 LLM - Baichuan7B Tokenizer 生成训练数据 上文我们介绍了如何将 QA 式的样

    2024年02月16日
    浏览(43)
  • Baichuan-13B:130亿参数的开源语言模型,引领中文和英文benchmark

    Baichuan-13B: 一个强大的开源大规模语言模型 标题:Baichuan-13B:130亿参数的开源语言模型,引领中文和英文benchmark Baichuan-13B是由百川智能开发的一个开源大规模语言模型项目,包含了130亿参数。该模型在中文和英文的权威benchmark上达到了同尺寸模型的最佳效果。这个项目发布了

    2024年02月16日
    浏览(50)
  • 【大模型】更强的开源可商用的中英文大语言模型baichuan2来了,从零开始搭建

    baichuan-7B 可以查看这篇文章: 【AI实战】开源可商用的中英文大语言模型baichuan-7B,从零开始搭建 Baichuan 2 是百川智能推出的第二代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。 Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的

    2024年02月09日
    浏览(34)
  • Mistral 7B v0.2 基础模型开源,大模型微调实践来了

    Mistral AI在3月24日突然发布并开源了 Mistral 7B v0.2模型,有如下几个特点: 和上一代Mistral v0.1版本相比, 上下文窗口长度从8k提升到32k ,上下文窗口(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个token或文本片段的大小范围。随着上下文窗口长度的增加

    2024年04月26日
    浏览(35)
  • Mistral 7B 比Llama 2更好的开源大模型 (三)

    Mistral 7B 比Llama 2更好的开源大模型 Mistral 7B是一个70亿参数的语言模型,旨在获得卓越的性能和效率。Mistral 7B在所有评估的基准测试中都优于最好的开放13B模型(Llama 2),在推理、数学和代码生成方面也优于最好的发布34B模型(Llama 1)。Mistral 7B模型利用分组查询注意力(G

    2024年02月05日
    浏览(40)
  • NLP(六十一)使用Baichuan-13B-Chat模型构建智能文档问答助手

      在文章NLP(六十)Baichuan-13B-Chat模型使用体验中,我们介绍了Baichuan-13B-Chat模型及其在向量嵌入和文档阅读上的初步尝试。   本文将详细介绍如何使用Baichuan-13B-Chat模型来构建智能文档问答助手。 文档问答流程   智能文档问答助手的流程图如下: 文档加载(Document

    2024年02月15日
    浏览(73)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包