【LLM】LLaMA简介:一个650亿参数的基础大型语言模型

这篇具有很好参考价值的文章主要介绍了【LLM】LLaMA简介:一个650亿参数的基础大型语言模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


作为 Meta 对开放科学承诺的一部分,今天我们将公开发布 LLaMA (大型语言模型 Meta AI) ,这是一个最先进的大型语言基础模型,旨在帮助研究人员推进他们在人工智能这一子领域的工作。更小,更高性能的模型,例如 LLaMA,使得研究社区中没有大量基础设施的其他人能够研究这些模型,进一步民主化这个重要的,快速变化的领域的访问。

在大型语言模型空间中,训练像LLaMA这样的较小基础模型是可取的,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新的用例。基础模型在大量未标记的数据上进行训练,这使它们非常适合于各种任务的微调。我们正在提供多种尺寸的LLaMA(7B、13B、33B和65B参数),并共享LLaMA模型卡,详细说明我们如何根据负责任的人工智能实践方法构建模型。

在过去的一年中,大型语言模型(具有数十亿个参数的自然语言处理(NLP)系统)显示出了新的功能来生成创意文本,求解数学定理,预测蛋白质结构,回答阅读理解的问题等。它们是AI可以向数十亿人提供的巨大潜在利益的最明显案例之一。

即使在大型语言模型中的所有最新进步中,对它们的全面研究访问仍然有限,因为训练和运行如此大型模型所需的资源。这种限制的访问具有有限的研究人员了解这些大语言模型如何以及为何工作的能力,阻碍了改善其稳健性和减轻已知问题的努力的进展,例如偏见,有害信息以及产生错误信息的潜力。

较小的模型可以训练更多的tokens(即单词片段) ,因此更容易针对特定的潜在产品用例进行再训练和微调。我们对 LLaMA 65B 和 LLaMA 33B 进行了1.4万亿tokens的训练。我们最小的模型 LLaMA 7B 是在一万亿tokens上训练的

与其他大型语言模型一样,**LLaMA的工作原理是将一系列单词作为输入,并预测下一个单词以递归生成文本。**为了训练我们的模型,我们从20种使用者最多的语言中选择了文本,重点是那些使用拉丁字母和西里尔字母的语言。

还有更多的研究需要做,以解决大型语言模型中存在偏见、有毒评论和幻觉的风险。与其他模型一样,LLaMA也面临这些挑战。作为一个基础模型,LLaMA被设计为通用的,可以应用于许多不同的用例,而不是为特定任务设计的微调模型。通过共享LLaMA的代码,其他研究人员可以更容易地测试在大型语言模型中限制或消除这些问题的新方法。我们还在论文中提供了一组关于评估模型偏差和毒性的基准的评估,以显示模型的局限性,并支持这一关键领域的进一步研究。

为了保持完整性和防止滥用,我们在非商业许可证下发布了我们的模型,重点是研究用例。学术研究人员将根据具体情况使用该模型;与政府、民间社会和学术界组织有关联的机构;以及世界各地的工业研究实验室。有兴趣申请访问权限的人可以在我们的研究论文中找到该应用程序的链接。

我们认为,整个人工智能社区——学术研究人员、民间社会、政策制定者和行业——必须共同努力,围绕负责任的人工智能,特别是负责任的大型语言模型,制定明确的指导方针。我们期待着看到社区可以使用LLaMA学习并最终建立什么。

Paper

【LLM】LLaMA简介:一个650亿参数的基础大型语言模型
摘要:我们介绍 LLaMA,一个从7B 到65B 参数的基础语言模型集合。我们在数以万亿计的令牌上训练我们的模型,并且展示了完全使用公开可用的数据集训练最先进的模型是可能的,而不需要求助于专有的和不可访问的数据集。特别是,LLaMA-13B 在大多数基准上优于 GPT-3(175B) ,而且 LLaMA-65B 与最好的机型 Chinchilla-70B 和 PaLM-540B 相比具有竞争力。我们把所有的模型发布给研究团体。

GitHub地址:https://github.com/facebookresearch/llama

Setup

【LLM】LLaMA简介:一个650亿参数的基础大型语言模型

其他资料

Apply for access to LLaMA文章来源地址https://www.toymoban.com/news/detail-495923.html

到了这里,关于【LLM】LLaMA简介:一个650亿参数的基础大型语言模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大型语言模型LLM的基础应用

    ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案

    2024年02月09日
    浏览(35)
  • LLM-20230225:LLaMA(大羊驼)【参数量: 70 亿、130 亿、330 亿、650 亿】【旨在推动 LLM 领域的小型化、平民化研究】【Meta】

    Meta AI 同时在其官方发布了论文《LLaMA: Open and Efficient Foundation Language Models》  源码:https://github.com/facebookresearch/llama 论文:https://research.facebook.com/file/1574548786327032/LLaMA--Open-and-Efficient-Foundation-Language-Models.pdf 官方代码地址:

    2024年02月09日
    浏览(31)
  • 一文读懂大型语言模型参数高效微调:Prefix Tuning与LLaMA-Adapter

    芝士AI吃鱼 在快速发展的人工智能领域中,高效、有效地使用大型语言模型变得日益重要,参数高效微调是这一追求的前沿技术,它允许研究人员和实践者在最小化计算和资源占用的同时,重复使用预训练模型。这还使我们能够在更广泛的硬件范围内训练AI模型,包括计算能

    2024年01月17日
    浏览(36)
  • 650亿参数大模型预训练方案开源可商用,LLaMA训练加速38%

    650亿参数大模型的预训练方案,发布即开源。 训练速度较传统方案提升38%。 这就是由Colossal-AI最新发布的类LLaMA基础大模型预训练方案。 要知道,在“百模大战”背景下,谁拥有自家大模型,往往被视为核心竞争力。 在这个节点下,愿意开源大模型的公司少之又少。 但自己

    2024年02月16日
    浏览(32)
  • 一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

    返回论文和资料目录 LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源的代码在github上可以很方便获得

    2024年02月09日
    浏览(34)
  • AIGC基础:大型语言模型 (LLM) 为什么使用向量数据库,嵌入(Embeddings)又是什么?

    嵌入: 它是指什么?嵌入是将数据(例如文本、图像或代码)转换为高维向量的数值表示。这些向量捕捉了数据点之间的语义含义和关系。可以将其理解为将复杂数据翻译成 LLM 可以理解的语言。 为什么有用?原始数据之间的相似性反映在高维空间中对应向量之间的距离上。

    2024年02月21日
    浏览(38)
  • 如何评估大型语言模型(LLM)?

    编者按:近期几乎每隔一段时间,就有新的大语言模型发布,但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量,我们急需一个可靠的、综合的LLM评估框架。 本文说明了为什么我们需要一个全面的大模型评估框架,并介绍了市面上这些现有的评估框架,同时指

    2024年02月10日
    浏览(41)
  • 大型语言模型 (LLM)全解读

    大型语言模型 是 一种深度学习算法 ,可以 执行各种自然语言处理 (NLP) 任务 。 大型语言模型底层 使用多个转换器模型 , 底层转换器是一组神经网络 。 大型语言模型是 使用海量数据集 进行训练的超大型深度学习模型。 这也是它们能够识别、翻译、预测或生成文本或其他

    2024年01月23日
    浏览(48)
  • Llama大型语言模型原理详解

    Llama大型语言模型是一种基于深度学习的自然语言处理模型,它在文本生成、问答、摘要等多种NLP任务中展现出强大的性能。本文将详细解析Llama模型的原理,包括其结构、训练过程以及工作机制,帮助读者深入理解这一先进的模型。 一、模型结构 Llama模型采用了一种基于T

    2024年04月12日
    浏览(25)
  • 大语言模型(LLM)综述(五):使用大型语言模型的主要方法

    随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示

    2024年02月06日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包