Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

这篇具有很好参考价值的文章主要介绍了Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

相关链接:arXiv
关键字:Chinese LLMPretrainingLarge Language ModelChinese CorporaMultilingual

摘要

本研究介绍了CT-LLM(Chinese Tiny Large Language Model),这是一个2B参数的大型语言模型(LLM),它标志着在开发LLMs时优先考虑中文的重大转变。CT-LLM的独特之处在于,它从头开始,主要通过包含1200亿个token的广泛语料库进行预训练,其中包括800亿个中文token、300亿个英文token和100亿个代码token。这种战略性组成通过比对技术增强了模型在理解和处理中文方面的卓越能力。CT-LLM在CHC-Bench上的出色表现,展示了其在中文语言任务上的熟练程度,并通过SFT(Supervised Fine-Tuning)展示了其在英文方面的多语言能力。本研究挑战了以英文语料库为主训练LLMs然后适应其他语言的现有范式,为LLM训练方法论拓宽了视野。通过开源训练中文LLM的整个过程,包括详细的数据处理程序、获得的大量适当预训练中文语料库(MAP-CC)和精心挑选的多学科中文难题基准(CHC-Bench),我们旨在促进学术界和工业界的进一步探索和创新,为更具包容性和多功能性的语言模型铺平道路。

核心方法

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model,LLM,语言模型,人工智能,自然语言处理

  1. 数据集构建:开发了一个包含1200亿token的数据集,其中包括800亿中文token、300亿英文token和100亿代码token。通过精心设计的数据过滤规则,提高了中文网络语料库的质量,为数据集准备设定了新的标准。
  2. 模型架构:基于Transformer解码器,采用了多头注意力机制、RoPE(Rotary Positional Embeddings)嵌入和SwiGLU激活函数等改进,以增强模型性能。
  3. 预训练:使用上述数据集对模型进行预训练,通过大量的中文数据提高对中文的处理能力。
  4. 监督微调(SFT):通过在中文和英文数据上进行微调,进一步提升模型在中英文任务上的表现。
  5. 偏好优化技术:使用DPO(Direct Preference Optimization)技术,根据人类偏好对模型进行优化,以增强其无害性和有用性。

实验说明

实验结果数据展示了CT-LLM在多个公共基准测试中的表现,包括MMLU、C-Eval和CMMLU等。通过与同类规模的其他基础模型进行比较,CT-LLM在多学科数据集上的表现尤为突出,尤其是在理解中文方面。实验数据来源于公开的基准测试集,包括语言建模、问答、逻辑推理等多个方面。

模型 COPA Hellaswag MMLU Humaneval Triviaqa Lambada Squad2.0 GSM8k C-Eval CMMLU
CT-LLM(Ours) 59.0 50.37 37.11 9.15 21.03 56.24 18.87 8.87 36.78 36.4

结论

我们开发了CT-LLM,这是一个为中文量身打造的大型语言模型,通过在800亿个token上进行预训练,增强了中文处理能力,并具备多语言适应性。与之前主要依赖英文数据集的模型不同,CT-LLM代表了LLM研究的新方向,它关注中文,并包括英文和代码token。我们使用SFT技术来提高中英文的表现,并引入CHC-Bench来评估模型在复杂任务上的能力。CT-LLM的主要贡献包括提供一个高质量的中文语料库和CHCBench,解决偏见问题,并推进以中文为中心的LLMs。这促进了更广泛的NLP研究、创新和对开源社区的贡献。文章来源地址https://www.toymoban.com/news/detail-851831.html

到了这里,关于Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LLM:Training Compute-Optimal Large Language Models

    论文:https://arxiv.org/pdf/2203.15556.pdf 发表:2022 前文回顾: OpenAI在2020年提出《Scaling Laws for Neural Language Models》:Scaling Laws(缩放法则)也一直影响了后续大模型的训练。其给出的 结论是最佳计算效率训练涉及在相对适中的数据量上训练非常大的模型并在收敛之前early stopping 。

    2024年01月20日
    浏览(35)
  • 大模型 LLM 综述, A Survey of Large Language Models

    一般认为NLP领域的大模型=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力); 经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等; 大模型时间线, 图来自A Survey of Large Language Models,下同。 2.1 涌现 涌现, emerge(abilities), 即一般指在大模型中出现

    2024年02月08日
    浏览(44)
  • 吴恩达gradio课程:基于开源LLM(large language model)的聊天应用

    内容简介 Falcon 40B 是当前最好的开源语言模型之一。 使用 text-generation 库调用 Falcon 40B 的问答 API 接口。 首先仅仅在代码中与模型聊天,后续通过Gradio构建聊天界面。 Gradio 聊天界面可以保存对话历史上下文。 在聊天过程中,需要将之前对话记录与新消息一起发送给模型,才能进

    2024年02月09日
    浏览(38)
  • 大型语言模型(LLM, Large Language Models)基模和 Chat 模型之间的区别

    最近看大模型相关的知识,有看到大模型都有基础模型(base)和对话模型(chat),不太清楚什么时候用到基础模型,什么时候用到对话模型,故有此文。 通过了解,最简单的概述就是基于基础模型会训练出一个对话(Chat)模型,对话模型主要用于对话场景,基础模型主要做

    2024年02月21日
    浏览(27)
  • LLM预训练大型语言模型Pre-training large language models

    在上一个视频中,您被介绍到了生成性AI项目的生命周期。 如您所见,在您开始启动您的生成性AI应用的有趣部分之前,有几个步骤需要完成。一旦您确定了您的用例范围,并确定了您需要LLM在您的应用程序中的工作方式,您的下一步就是选择一个要使用的模型。 您首先的选

    2024年02月11日
    浏览(31)
  • LLM:LoRA: Low-Rank Adaptation of Large Language Models

    随着模型规模的不断扩大,微调模型的所有参数(所谓full fine-tuning)的可行性变得越来越低。以GPT-3的175B参数为例,每增加一个新领域就需要完整微调一个新模型,代价和成本很高。 为解决微调大规模语言模型到不同领域和任务的挑战,已有多种方案,比如部分微调、使用

    2024年02月07日
    浏览(32)
  • 【人工智能】大模型LLM技术生态全景图 | The Foundation Large Language Model (LLM) & Tooling Landscape

    目录 “Software is eating the world…”  “软件正在吞噬世界...”~ Marc Andreessen ~ 马克·安德森 Every company is a software company…soon every company will be an AI company.每家公司都是软件公司...很快,每家公司都将成为人工智能公司。 Everybody is using software…soon everybody will directly be using AI.每个

    2024年02月08日
    浏览(37)
  • LLM微调 | LoRA: Low-Rank Adaptation of Large Language Models

    🔥 发表于论文:(2021) LoRA: Low-Rank Adaptation of Large Language Models 😄 目的:大模型预训练+微调范式,微调成本高。LoRA只微调新增的小部分参数。 adapter增加了模型层数,引入了额外的推理延迟; prefix-tuning比较难训练,效果不如直接finetune。 LoRA不会引入额外的延迟,甚至原文中

    2024年02月17日
    浏览(41)
  • LLM论文:ALCE (Enabling Large Language Models to Generate Text with Citations)

    这是一篇RAG领域的文章,原文在这:https://aclanthology.org/2023.emnlp-main.398.pdf 时间 [Submitted on 24 May 2023 (v1), last revised 31 Oct 2023 (this version, v2)] 背景 LLM在信息搜索、生成带引用的文本时存在幻觉问题,即事实准确性有待提升,而且用户难以验证准确性。 现有工作的不足 人工评估或

    2024年01月16日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包