又一新闻,Meta研发了超越chatGPT的新平台LLAMA

这篇具有很好参考价值的文章主要介绍了又一新闻,Meta研发了超越chatGPT的新平台LLAMA。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Meta 全新大语言模型 LLaMA 正通过种子公开发放

2 月 24 日,Meta 公司发布了新的大模型系列 —— LLaMA(Large Language Model Meta AI)。Meta 宣称,LLaMA 规模仅为竞争对手 ChatGPT 的“十分之一”,但性能却优于 OpenAI 的 GPT-3 模型。

并且,提到了“通过使用torrent更高效地分发,节省带宽”,github截图:

又一新闻,Meta研发了超越chatGPT的新平台LLAMA

GitHub 链接:https://github.com/facebookresearch/llama/pull/73/files

对此,下面发表了不同的意见:

又一新闻,Meta研发了超越chatGPT的新平台LLAMA
又一新闻,Meta研发了超越chatGPT的新平台LLAMA

二、超越 ChatGPT,LLaMA 强在哪里?

文中指出,这个LLaMA名字的由来?反正Large Language Model Meta Artificial Intelligence缩写为LLMMAI,有点太接近LMAO了。我们可以将 LLMMAI 制作成该主题的各种变体,甚至有相当数量的咒骂。Large Language AI Model 会缩写为 LLAIM,这很有趣——“是的,我们正在使用来自 Facebook 的 LLAIM 基础模型”——显然是威尔士盖尔语,但你可以看到为什么 Meta Platforms 没有使用这些名称它的基础模型。“Large Language As Meta Ascertains”会让 LLAMA 成为现实,但它并不十分成功。这是一个想法:嘿元平台,你实际上可以使用人工智能想出一个更好的名字来打 LLAMA 缩写——不允许小写的“A”,那是作弊——或者更好的是,应用一些好的 ol' 人类智慧,想出一个允许双关式缩写的东西,但仍然很好感觉。

还指出,LLaMA 模型是根据世界上二十种最流行的拉丁语和西里尔字母表语言的文本进行训练的。论文LLaMA:Open and Efficient Foundation Language Models描述了该模型以及它与 GPT、Gopher、Chinchilla 和 PaLM 的比较。后一种模型利用了广泛的公共数据,但也有非公开可用或未记录的文本数据。LLaMA 专门针对公开可用的数据集进行培训,因此与开源兼容——尽管它本身尚未开源。

LLaMA 在某种意义上是对Training Compute-Optimal Large Language Models论文的直接反应,该论文于 2022 年 3 月发表,描述了 Chinchilla 模型及其竞争对手。并且在模型大小、计算预算、令牌数量、训练时间、推理延迟和性能方面进行了对比。

LLaMA 模型已使用 67 亿、130 亿、320 亿和 652 亿个参数进行训练,其中两个较小的参数使用 1 万亿个代币,两个较大的参数使用 1.4 万亿个代币。Meta Platforms 在 2,048 个 Nvidia“Ampere”A100 GPU 加速器和 80 GB HBM2e 内存上使用这 1.4 万亿个令牌测试了最大的 LLaMA-65.2B 模型,并且花费了 21 天(以每个 GPU 每秒 380 个令牌的速度)训练模型。这不是特别快。然而,Meta AI 研究人员表示,LLaMA-13B 模型“在大多数基准测试中都优于 GPT-3,尽管它的体积小了 1`09 倍。” 难点在于:“我们相信该模型将有助于使 LLM 的访问和研究民主化,因为它可以在单个 GPU 上运行。

还有许多性能测试的对比,下面图展示了各种模型在“常识推理”任务上的零样本表现:

又一新闻,Meta研发了超越chatGPT的新平台LLAMA

Meta Platforms 显示了 LLaMA 在人文、科学、技术和数学、社会科学以及其他领域的多项选择测试中的测试结果。看看这张表:

又一新闻,Meta研发了超越chatGPT的新平台LLAMA

下面更有趣的是,因为它显示了 LLaMA 在不同参数计数下如何在各种常识推理和问答基准上与 Chinchilla 模型相比较:

又一新闻,Meta研发了超越chatGPT的新平台LLAMA

如您所见,LLaMA-33B 和 LLaMA-65B 可以与 Chinchilla-70B 抗衡,当代币数量达到 1 万亿甚至更多时超过它。

参考链接:

https://www.nextplatform.com/2023/02/28/move-over-chatgpt-meta-platforms-llama-makes-some-drama/文章来源地址https://www.toymoban.com/news/detail-416758.html

到了这里,关于又一新闻,Meta研发了超越chatGPT的新平台LLAMA的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • DeepSeek 发布全新开源大模型,数学推理能力超越 LLaMA-2

    自从 LLaMA 被提出以来,开源大型语言模型(LLM)的快速发展就引起了广泛研究关注,随后的一些研究就主要集中于训练固定大小和高质量的模型,但这往往忽略了对 LLM 缩放规律的深入探索。 开源 LLM 的缩放研究可以促使 LLM 提高性能和拓展应用领域,对于推进自然语言处理

    2024年02月02日
    浏览(66)
  • [AI Meta Llama-3] 最强开源大模型Llama 3发布!

    最强开源大模型Llama 3发布!我们看下重点: 今天,我们介绍Meta Llama 3,这是我们最先进的开源大型语言模型的下一代。 Llama 3模型很快将在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上提供,并得到AMD、AWS、戴尔、英特尔、NVIDIA和高

    2024年04月23日
    浏览(48)
  • Meta发布LLaMA 2:分析及解读

    Meta发布了LLaMA的新版本。该版本将被称为LLaMA 2,并且可以免费用于研究和商业用途。这是Meta和Microsoft联合发布的成果。 我认为微软希望垄断所有第三方LLM,并将它们作为SaaS(软件即服务)保留在自己的平台上作为商业产品。现在,OpenAI和LLaMA都将成为微软产品系列的一部分

    2024年02月14日
    浏览(50)
  • Meta最新模型LLaMA详解(含部署+论文)

    来源:投稿 作者:毛华庆 编辑:学姐 本课程来自深度之眼《大模型——前沿论文带读训练营》公开课,部分截图来自课程视频。 文章标题: LLaMA: Open and Efficient Foundation Language Models 向量空间中词表示的有效估计 文章链接: https://arxiv.org/pdf/2302.13971.pdf 作者: Hugo Touvron等 单

    2024年02月08日
    浏览(49)
  • Meta的 Llama-3 在线使用与下载

    2024年4月19日,全球社交巨头Meta在他们的官网,正式发布了开源大模型 Llama-3 !! 该版本包括预训练和指令调整的 Llama 3 语言模型的模型权重和起始代码 - 包括 8B 到 70B 参数! Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支

    2024年04月27日
    浏览(40)
  • 【Meta-Al】llama GPT 测试

    2023-4-28 更新: github有兄弟合并+量化了7B、13B的权重,Chinese-Alpaca项目部署体验更简单: GitHub - ymcui/Chinese-LLaMA-Alpaca: 中文LLaMAAlpaca大语言模型+本地CPU/GPU部署 (Chinese LLaMA Alpaca LLMs)   github地址: GitHub - facebookresearch/llama: Inference code for LLaMA models 在 LLaMA 发布三天后,初创公司 N

    2024年02月11日
    浏览(39)
  • Meta 最新发布 LLaMA 2(允许商业化)

    2023年7月18日,Meta 发布了Llama 2,包含7B,13B,70B三种参数(34B暂时还未发布)。 官方: https://ai.meta.com/llama/ 论文:Llama 2: Open Foundation and Fine-Tuned Chat Models 模型:https://huggingface.co/meta-llama github:https://github.com/facebookresearch/llama Llama 2相比Llama最大亮点之一是允许商业化,但需要

    2024年02月16日
    浏览(54)
  • AI大战,Meta发布大型语言模型LLaMA

    ChatGPT引爆了AI行业,全球的科技巨头都先后加入这场AI大战,作为行业大佬的Meta也不例外,宣布推出大型语言模型LLaMA,加入到了这场由微软、谷歌等科技巨头主导的AI“厮杀”中。 LLaMA 模型由 Meta 的FAIR 团队开发,旨在帮助研究人员和工程师探索人工智能应用和相关功能,在

    2024年02月13日
    浏览(53)
  • Meta 推出的 LLaMA 大语言模型部署教程

    简介: LLaMA(Lager Language Model From Meta),这是一个从7B到65B参数的基础语言模型的集合。它在数万亿的文本tokens上训练的模型,并表明在不求助于专有和不可访问的数据集,而仅使用公开的数据集来训练最先进的模型是可能的。特别是, LLaMA-13B 在大多数基准测试上优于GPT-3(

    2024年02月06日
    浏览(42)
  • Meta的LLama模型非官方下载方法

    Llama模型是一个用于自然语言处理的大型语言模型,它由Meta AI开发,拥有65亿个参数。该模型的目的是帮助研究者在AI的子领域中推进他们的工作。Llama模型结构巨大,最小的模型LLaMA 7B也经过了超过1万亿个代币的训练。Llama模型的论文比较冗长,但通过阅读页面,可以了解该

    2024年02月11日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包