Meta开放小模型LLaMA,性能超过GPT-3

这篇具有很好参考价值的文章主要介绍了Meta开放小模型LLaMA,性能超过GPT-3。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Meta开放小模型LLaMA,性能超过GPT-3

论文地址:https://research.facebook.com/file/1574548786327032/LLaMA--Open-and-Efficient-Foundation-Language-Models.pdf

介绍

LLaMA,是Meta AI最新发布的一个从7B到65B参数的基础语言模型集合。在数以万亿计的token上训练模型,并表明有可能完全使用公开的数据集来训练最先进的模型,而不需要求助于专有的和不可获取的数据集。LLaMA-13B在大多数bechmark上超过了GPT-3(175B),而LLaMA-65B与最好的模型Chinchilla70B和PaLM-540B相比具有竞争力。

核心结论

  1. LLaMA 是一个开源的基础语言模型集合,参数范围从7B到65B,完全使用公开的数据集在数万亿 Token 上训练;

  2. LLaMA-13B 在大多数基准上都优于 GPT-3(175B),而模型大小却小了 10 倍以上,LLaMA-65B 与最好的模型 Chinchilla70B 和 PaLM-540B 性能相当;

  3. 该研究表明,通过完全在公开可用的数据上进行训练,有可能达到最先进的性能,而不需要求助于专有的数据集,这可能有助于努力提高鲁棒性和减轻已知的问题,如毒性和偏见;

  4. 向研究界发布LLaMA模型,可能会加速大型语言模型的开放,并促进对指令微调的进一步研究,未来的工作将包括发布在更大的预训练语料库上训练的更大的模型。

预训练数据

Meta开放小模型LLaMA,性能超过GPT-3

模型的架构与参数

Meta开放小模型LLaMA,性能超过GPT-3

Meta开放小模型LLaMA,性能超过GPT-3

模型的性能

Meta开放小模型LLaMA,性能超过GPT-3

Meta开放小模型LLaMA,性能超过GPT-3

结果评估

1、在常识推理、闭卷答题和阅读理解方面,LLaMA-65B几乎在所有基准上都优于Chinchilla-70B和PaLM-540B;

2、在数学方面 ,尽管LLaMA-65B没有在任何相关的数据集上进行过微调,但它在在GSM8k上的表现依然要优于Minerva-62B。而在MATH基准上,LLaMA-65B超过了PaLM-62B,但低于Minerva-62B;

3、值得注意的是,谷歌开发的Minerva模型,是以PaLM语言模型为基础,并采用大量的数学文档和论文语料库对其进行微调。在思维链提示和自洽解码的加持下,Minerva-540B可以在各类数学推理和科学问题的评估基准上达到SOTA;

4、在代码生成基准上   ,LLaMA-62B优于cont-PaLM(62B)以及PaLM-540B。此外, Meta还尝试使用了论文「Scaling Instruction-Finetuned Language Models」中介绍的指令微调方法。由此产生的模型LLaMA-I,在MMLU上要优于Flan-PaLM-cont(62B),而且还展示了一些有趣的指令能力。

参考文献:

[1] https://hub.baai.ac.cn/view/24411文章来源地址https://www.toymoban.com/news/detail-490059.html

到了这里,关于Meta开放小模型LLaMA,性能超过GPT-3的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Llama2 论文中译版——开放式基础和微调聊天模型

    因为最近一直在使用 LLM 工具,所以在学习 Llama 2:开放式基础和微调聊天模型 这篇论文的期间,顺手将内容翻译了过来。 整片译文是由 ChatGPT3.5、DeepL、Copilot X和笔者一起完成的,特此表示感谢。 在这项工作中,我们开发并发布了 Llama 2,这是一组经过预训练和微调的大型语

    2024年02月15日
    浏览(42)
  • 十分钟读完 Meta提出Llama 2模型的经典论文:Llama 2: Open Foundation and Fine-Tuned Chat Models

    随着人工智能技术的飞速发展,大型语言模型(LLMs)已经成为了人类智能助手的代表,它们在需要专业知识的复杂推理任务中表现出色,涵盖了编程、创意写作等多个专业领域。这些模型通过直观的聊天界面与人类互动,迅速获得了广泛的应用和认可。 然而,尽管训练方法

    2024年01月24日
    浏览(50)
  • [论文笔记] 大模型gpu机器推理测速踩坑 (llama/gpt类)

    cpu没报错,换gpu就报错。以下是一些踩坑: 坑1:要指定gpu,可以在import torch之前指定gpu。 报错: RuntimeError(\\\'Expected all tensors to be on the same device, but found at least two devices, cuda:6 and cuda:0! (when checking argument for argument index in method wrapper_CUDA__index_select)\\\') 坑2:model和input_ids都需要 .

    2024年02月03日
    浏览(54)
  • 【Meta-Al】llama GPT 测试

    2023-4-28 更新: github有兄弟合并+量化了7B、13B的权重,Chinese-Alpaca项目部署体验更简单: GitHub - ymcui/Chinese-LLaMA-Alpaca: 中文LLaMAAlpaca大语言模型+本地CPU/GPU部署 (Chinese LLaMA Alpaca LLMs)   github地址: GitHub - facebookresearch/llama: Inference code for LLaMA models 在 LLaMA 发布三天后,初创公司 N

    2024年02月11日
    浏览(38)
  • Meta 的LLaMA是 GPT的竞争对手,如何在 M1 Mac 上使用 LLaMA

    第 1 步:下载模型 第 2 步:安装依赖 第 3 步:编译 LLaMA CPP 第 4 步:转换模型 Step5:运行模型 随着人们对人工智能及其在日常生活中的应用越来越感兴趣,Meta 的 LLaMA、OpenAI 的 GPT-3 和 Microsoft 的 Kosmos-1 等众多示例模型正在加入大型语言模型 (LLM) 的行列。此类模型的唯一问题

    2024年02月16日
    浏览(49)
  • [AI Meta Llama-3] 最强开源大模型Llama 3发布!

    最强开源大模型Llama 3发布!我们看下重点: 今天,我们介绍Meta Llama 3,这是我们最先进的开源大型语言模型的下一代。 Llama 3模型很快将在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上提供,并得到AMD、AWS、戴尔、英特尔、NVIDIA和高

    2024年04月23日
    浏览(48)
  • Meta语言模型LLaMA解读:模型的下载部署与运行代码

    Meta最新语言模型LLaMA解读,LLaMA是Facebook AI Research团队于2023年发布的一种语言模型,这是一个基础语言模型的集合。 体验地址 模型下载地址 下载步骤 准备工作 先注册登录 授权,需要一段时间, 需要使用gls 什么是Git LFS git是程序员开发程序不可或缺的工具,有效的使用git能

    2024年02月08日
    浏览(49)
  • AI大战,Meta发布大型语言模型LLaMA

    ChatGPT引爆了AI行业,全球的科技巨头都先后加入这场AI大战,作为行业大佬的Meta也不例外,宣布推出大型语言模型LLaMA,加入到了这场由微软、谷歌等科技巨头主导的AI“厮杀”中。 LLaMA 模型由 Meta 的FAIR 团队开发,旨在帮助研究人员和工程师探索人工智能应用和相关功能,在

    2024年02月13日
    浏览(53)
  • Meta 推出的 LLaMA 大语言模型部署教程

    简介: LLaMA(Lager Language Model From Meta),这是一个从7B到65B参数的基础语言模型的集合。它在数万亿的文本tokens上训练的模型,并表明在不求助于专有和不可访问的数据集,而仅使用公开的数据集来训练最先进的模型是可能的。特别是, LLaMA-13B 在大多数基准测试上优于GPT-3(

    2024年02月06日
    浏览(42)
  • Meta的LLama模型非官方下载方法

    Llama模型是一个用于自然语言处理的大型语言模型,它由Meta AI开发,拥有65亿个参数。该模型的目的是帮助研究者在AI的子领域中推进他们的工作。Llama模型结构巨大,最小的模型LLaMA 7B也经过了超过1万亿个代币的训练。Llama模型的论文比较冗长,但通过阅读页面,可以了解该

    2024年02月11日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包