万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级

这篇具有很好参考价值的文章主要介绍了万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

几个月前,Colossal-AI 团队仅利用8.5B token数据、15小时、数千元的训练成本成功构建了性能卓越的中文LLaMA-2 7B 版本模型,在多个评测榜单性能优越。

在原有训练方案的基础上,Colossal-AI 团队再次迭代,并通过构建更为细致完善的数据体系,利用 25B token 的数据,打造了效果更佳的 13B 模型,并开源相关权重

开源代码与权重:https://github.com/hpcaitech/ColossalAI

万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级,Colossal-LLaMA-2,llama

性能表现

万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级,Colossal-LLaMA-2,llama

注:基于ColossalEval评分,括号中分数来源于对应模型官方发布的榜单分数,C-Eval 分数来源于官网 Leaderboard。

在英文 MMLU 榜单中,Colossal-LLaMA-2-13B-base 在低成本增量预训练的加持下,英文效果稳中有升。在 GSM8k 的评估中发现,英文数学与推理能力有了显著的提升(31.31 -> 58.83),在所有 13B 的模型中,表现优异

在中文榜单中,我们主要对比了 CMMLU, AGIEVAL, GAOKAO 与 C-Eval,效果远超基于 LLaMA-2 的其他中文汉化模型。即使与其他采用中文语料,可能花费上千万元成本,从头预训练的各大知名模型相比,Colossal-LLaMA-2在同规模下仍表现抢眼。尤其是与原始 LLaMA-2 相比,在中文能力上有了质的飞跃 (CMMLU: 38.14 -> 61.8)。

从整个训练的 Loss 记录来看,在利用 Colossal-AI 系统降本增效能力的同时,模型收敛性也得到充分保证,仅通过约 25 B tokens(250 亿 tokens),数万元算力成本,让模型达到如此惊艳的效果。而市面上的大模型动辄使用几万亿token进行训练才有效果保证,成本高昂。

万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级,Colossal-LLaMA-2,llama

万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级,Colossal-LLaMA-2,llama

数据构建

为了更大程度地降低训练的成本,高质量的数据在其中起着关键作用,尤其是对于增量预训练,对于数据的质量,分布都有着极高的要求。在训练 7B 版本的过程中,为了更好地筛选高质量的数据,Colossal-AI 团队构建了完整的数据清洗体系与工具包,以便筛选更为高质量的数据用于增量预训练。

相比于 7B 版本,在此次训练 13B 版本过程中,Colossal-AI 团队构建了更为完善的数据体系,将数据划分为知识性数据,功能性数据,与记忆回放数据。其中,将知识性数据划分为十几个大类,包括金融,法律,教育等;每个大类又划分为不同的小类,从而对不同类型的数据进行更为精准的调控。同时增加了不同垂类数据的规模,以确保基座模型本身对于不同领域数据的掌握程度都有一定的提升。

而为应对社区对于大模型功能性的需求,我们针对于不同的自然语言处理任务,进行针对性提升,以确保模型在预训练阶段就对常见自然语言处理任务有一定的了解与掌握,如常见的文本摘要,信息抽取能力,以及复杂问题的思维链理解能力。

另外,记忆回放类数据是激发模型对于所见知识掌握程度的关键步骤与数据组成,该数据有效提升了模型整体的表现能力与泛化能力。

除此之外,针对于日益关注的安全性与价值观问题,Colossal-AI 团队进行了多维度(政治敏感,宗教敏感,辱骂仇恨,偏见歧视,违法犯罪,身体伤害,心理健康,财产隐私,道德伦理等)的提升,以确保基座模型更为强大的安全性与价值观正确。

低成本高质量模型构建

经过以上多维度数据的构建以及对基座模型自然语言基础能力的提升,Colossal-AI 团队打造出性能更强的 13B 版本模型。基于此方案,社区用户可在微调阶段可以借助更少量的,高质量的微调数据,更少的成本,打造属于自己的微调模型。

Colossal-AI开源地址:

https://github.com/hpcaitech/ColossalAI

Colossal-AI云平台:

https://platform.luchentech.com

参考链接:

https://hpc-ai.com/blog/Colossal-LLaMA-2-13B

公司简介

潞晨科技致力于解放AI生产力,打造面向大模型时代的通用深度学习系统Colossal-AI ,高效促进AI大模型落地应用。Colossal-AI目前已获得GitHub星数三万五千多颗,细分赛道排名世界第一。团队核心成员全部来自美国加州伯克利、斯坦福、清华、北大、新加坡国立、南洋理工大学等国际知名高校。

潞晨科技近期获得数亿元A轮及A+轮融资,在成立24个月内已迅速连续完成四轮融资,投资方为创新工场、真格基金、蓝驰创投、某世界500强科技巨头、大湾区基金、新加坡电信等。潞晨科技已与多家世界/中国五百强、东南亚科技巨头、亚洲地区国家级研究机构、海外超算中心等开展合作,促进AI大模型商业化落地,合作涉及云计算、芯片设计、生物医药、自动驾驶、智能零售、互联网等领域,并已与多家知名厂商联合开发/优化千亿/百亿参数大模型或打造垂类模型。

万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级,Colossal-LLaMA-2,llama文章来源地址https://www.toymoban.com/news/detail-808230.html

到了这里,关于万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何写出高质量代码

    一、 前言 编写高质量代码是每一位程序员的追求。高质量的代码可以提高代码可读性、可维护性、可扩展性以及软件运行的性能和稳定性。在这篇文章中,我将分享一些编写高质量代码的特征、编程实践技巧和软件工程方法论。 可读性:好的代码应该能够被维护者轻易地理

    2024年02月02日
    浏览(81)
  • 如何编写高质量代码

    现代软件开发中,代码是构建高质量软件的核心。高质量代码能够提高软件系统的可靠性、可维护性和可扩展性,减少bug的数量和修复时间,提升开发效率和代码可读性,同时有助于团队协作和知识传承共享。 然而,梦想是丰满的,现实是骨感的!软件开发面临诸多挑战。

    2024年02月02日
    浏览(108)
  • 高质量椭圆检测库

    目录 前言 效果展示 检测库 简介 安装库 用法 测试 论文算法步骤简读 1. lsd 检测 2. lsd group 3. 生成初始 ellipse 4. 聚类 椭圆检测是工业中比较常用的一种检测需求。目前常用的基于传统图像处理的椭圆检测方法是霍夫变换,但是霍变换的检测率比较低,很难满足工业场景。而基

    2024年02月07日
    浏览(124)
  • 如何写出高质量的代码

    你是否曾经为自己写的代码而感到懊恼?你是否想过如何才能写出高质量代码?那就不要错过这个话题!在这里,我们可以讨论什么是高质量代码,如何写出高质量代码等问题。无论你是初学者还是资深开发人员,都可以在这个话题下进行分享,汲取灵感和知识,共同提高自

    2023年04月25日
    浏览(122)
  • 网络安全高质量文库

    PeiQI文库 http://api.orchidstudio.cn/ PeiQi文库是一个面对网络安全从业者的知识库,涉及漏洞研究,代码审计,CTF夺旗,红蓝对抗等多个安全方向,用于解决安全信息不聚合,安全资料不易找的难题。帮助网络安全从业者共同构建安全的互联网,快速验证并及时修复相关漏洞,为甲

    2024年02月12日
    浏览(49)
  • 有哪些高质量的自学网站?

    分享32个鲜为人知并且完全免费的高质量自学网站,每个都是堪称神器,让你相见恨晚。 是一个完全免费的综合视频教程网站,非常良心实用。 它提供的视频教程非常丰富并且质量很高,包括:PS 教程、手机摄影教程、Ai 做图教程、Excel 教程、Word 教程、PPT 教程、Pr 视频剪辑

    2024年02月02日
    浏览(124)
  • Visio 转为高质量PDF

    Visio另存为pdf不够清晰怎么办 - - 可以选择先另存为高分辨率的图片( 存的时候分辨率选择打印机或者自定义即可 ),然后转为pdf. 或者用 打印 1 保存为高质量 2 的pdf (本文介绍) 版本:Microsoft Visio 2010 Adobe Acrobat 2018 关键就是设置分辨率,不按照以上流程亦可 一般情况下安装完

    2024年02月04日
    浏览(47)
  • 如何编写高质量的测试计划

    1.1目的 简述本计划的目的,旨在说明各种测试阶段任务、人员分配和时间安排、工作规范等。 测试计划在策略和方法的高度说明如何计划、组织和管理测试项目。测试计划包含足够的信息使测试人员明白项目需要做什么是如何运作的。另外,清晰的文档结构能使任何一个读

    2024年02月16日
    浏览(49)
  • 【交付高质量,用户高增长】-用户增长质量保证方法论

    俗话说,“测试是质量的守护者”,但单凭测试本身却远远不够。大多数情况下,测试像“一面镜子”,照出系统的面貌,给开发者提供修改代码的依据,这个“照镜子”的过程,就是质量评估的过程,或者说,测试的过程更像“量体温”,虽然可以测量出温度进而判断健康

    2024年02月08日
    浏览(62)
  • ChatGPT高质量prompt技巧指南-《向 ChatGPT 提问获取高质量答案的艺 术:Prompt 工程技术完全指南》图书分享

    一、图书简介:本书是一本全面的指南,介绍了各种 Prompt 技术的理解和利用,用于从 ChatGPT中生成高质量的答案。 我们将探讨如何使用不同的 Prompt 工程技术来实现不同的目标。ChatGPT 是一 种先进的语言模型,能够生成类似人类的文本。然而,了解正确的提问方式以获 取我

    2024年02月03日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包