触手可及的 GPT —— LLaMA

这篇具有很好参考价值的文章主要介绍了触手可及的 GPT —— LLaMA。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

出品人:Towhee 技术团队

最近几个月 ChatGPT 的出现引起广泛的关注和讨论,它在许多领域中的表现都超越了人类的水平。它可以生成人类级别的语言,并且能够在不同的任务中学习和适应,让人们对人工智能的未来充满了希望和憧憬。

ChatGPT 之所以表现如此出色,得依靠于 ChatGPT 所依赖的底层模型(GPT 系列),当时 GPT-3 的 few-shot 能力就已经开始让人们震惊于 in-context learning 竟然可以拥有这么强的学习能力,有种种证据表明,GPT 已经万事俱备(学习到了大量知识),只欠东风(缺乏合适的方式将其prompt出来)。

但是 OpenAI 对于 GPT-2 之后的模型就不再开源,NLP 学术界如果没有一个能力足够强,足够高效,而且能受到广泛认可的大模型底座,那只能看着这波大模型新的浪潮望洋兴叹。

虽然也有一些开源的大模型(例如 OPT,BLOOM),但真的大模型大家也跑不动。其实大家想要的还是小的大模型,好在沉迷于元宇宙已久的Meta推出了 LLaMA(美洲驼)[1]系列模型来补上了这个缺口,该系列模型有四个版本(7B,13B,33B,65B),而且都是在超过 trillions tokens 的公开数据集上训练的,可以说就是为了 benchmark 而生的。

触手可及的 GPT —— LLaMA (训练所使用的数据集)

从模型的结构上来说,LLaMA 使用了这些年的大模型改进技术:

1)使用 pre-normalization(GPT-3)来提高模型训练的稳定性 2)使用 SwiGLU 激活函数替代 ReLU(PaLM) 3)使用 Rotary Embeddings 来替代绝对位置 embeddings(GPTNeo)

使用这种模型,Meta 用了 2048 块 A100 在1.4T 的 token 上训练 65-B 版本的模型,花了大约 21 天。

触手可及的 GPT —— LLaMA (LLaMA与其他相似类型的大模型在数据集上的比较)

接下来文章花了很多篇幅进行了各种任务上的对比,但从上表来看,作为大型语言模型,LLaMA 还是和各种不开源的大模型是处于同一个水平的,尤其是 7B 和 13B 两个模型体现出了惊人的性价比,毫无疑问的会成为作为学术圈内各种下游实验的闪亮明星。

现在斯坦福大学的 tatsu-lab 实验室现在利用了开源的 LLaMA 给出了完整的下游 finetune 方案,即 stanford alpaca(羊驼)[2]。stanford alpaca 项目使用 ChatGPT 生成了 52k 的训练数据,只 finetune 了 7B 模型,就达到了类似 ChatGPT 的效果,因为有了 ChatGPT 提供的高质量问答式监督数据,整个工作流非常的直观。配合着使用着 bitsandbytes 来进行 int8 加速 LLaMA 的项目[3],就可以端到端的完成一个个人版的 ChatGPT。

另一条线是使用更经济的 finetune 方案,就是近期也在 finetune stable-diffusion 中大红大紫的 LoRA 开发的 alpaca-lora[4],这个项目可以在一块 RTX 4090 上 finetune 几小时就可以得到一个和 stanford alpaca 相比的模型,可以说是真正的旧时王谢堂前燕,飞入寻常百姓家。已经有多个语言版本的 alpaca-lora 已经在社区中被分享。而 LoRA 对于大模型小数据的良好表现让这个方案也显示出了很大的潜力。

触手可及的 GPT —— LLaMA (钢铁侠与 alpaca)

LLaMA 让可以与 GPT 相比的能力可以广泛的被普及,而且社区内已经认可了使用 LLaMA 进行开发的潜力,也让经费没有工业界那么充裕的学术界可以充分参与这一次 AI 重大的机遇。随着针对 LLaMA 训练和推理效率的不断优化,也许人人都可以拥有一个像钢铁侠中的 JARVIS 一样的定制化的 AI 助理。

[1]https://github.com/facebookresearch/llama [2]https://github.com/tatsu-lab/stanford_alpaca [3]https://github.com/tloen/llama-int8 [4]https://github.com/tloen/alpaca-lora

本文由 mdnice 多平台发布文章来源地址https://www.toymoban.com/news/detail-492728.html

到了这里,关于触手可及的 GPT —— LLaMA的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 微火上线ai绘画小程序搭建系统,ai绘画小程序源码触手可及

    要问今年元宇宙领域哪个赛道最火,当然是“ai绘画”,从今年的10月以来。到现在仅仅两个月的时间,几款AI绘画小程序圈的用户数百万。这在历史上都是比较罕见。如果说羊了个羊今年在小程序的印象比较深的话,那么“ai绘画\\\"更是超越了羊了个羊的热门。 普通人会觉得很

    2024年02月13日
    浏览(45)
  • 热门项目、创意应用触手可及!大模型AIGC主题月带你从零玩转创意项目~

    2023年5月,飞桨开发者说 AIGC 大模型学习月劲爆来袭。14 场直播带你从零开始玩转大模型~ 首场直播《飞桨开发者说|AIGC 专题直播》明日闪耀开启! 当前,大模型层出不穷,AIGC 应用刷爆眼球。机遇与危机并存,开发者如何摸准时代的脉象创新求胜?新的技术时代背景下,

    2024年02月09日
    浏览(49)
  • GPT-4助力数据分析:提升效率与洞察力的未来关键技术 | 京东云技术团队

    随着大数据时代的到来,数据分析已经成为企业和组织的核心竞争力。然而,传统的数据分析方法往往无法满足日益增长的数据分析需求的数量和复杂性。在这种背景下,ChatGPT-4作为一种先进的自然语言处理技术,为数据分析带来了革命性的提升,助力企业和组织更高效地挖

    2024年02月13日
    浏览(41)
  • ChatGPT团队出品,必属精品—Bito插件完全指北

    首先,安装Bito插件非常简单。在IntelliJ IDEA编辑器中打开“Plugins”选项,选择“Marketplace”,搜索“Bito”并单击“Install”进行安装。安装完成后,在编辑器的右侧视图或右键菜单中可以看到Bito的图标。 Bito的主要功能如下: Bito可以根据您的最新代码修改自动检测修改类型和内容,为

    2024年02月07日
    浏览(55)
  • 【极客技术】真假GPT-4?微调 Llama 2 以替代 GPT-3.5/4 已然可行!

    近日小编在使用最新版GPT-4-Turbo模型(主要特点是支持128k输入和知识库截止日期是2023年4月)时,发现不同商家提供的模型回复出现不一致的情况,尤其是 模型均承认自己知识库达到2023年4月,但当我们细问时,Fake GPT4-Turbo(暂且这样称呼)出现了明显胡编乱造的情况 ,如下

    2024年02月04日
    浏览(41)
  • GPT大语言模型Alpaca-lora本地化部署实践【大语言模型实践一】 | 京东云技术团队

    Alpaca模型是斯坦福大学研发的LLM(Large Language Model,大语言)开源模型,是一个在52K指令上从LLaMA 7B(Meta公司开源的7B)模型微调而来,具有 70亿 的模型参数(模型参数越大,模型的推理能力越强,当然随之训练模型的成本也就越高)。 LoRA,英文全称Low-Rank Adaptation of Large

    2024年02月05日
    浏览(51)
  • 【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品

    本文介绍被计算机视觉顶级国际会议 ICCV 2023 接收的论文 \\\"TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective\\\" 论文链接:https://arxiv.org/abs/2308.10133 开源代码:https://anonymous.4open.science/r/ TransFace-294C Vision Transformer (ViT) 已经在计算机视觉社区多项视觉任务上

    2024年03月09日
    浏览(57)
  • 【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品

    论文:FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio,https://arxiv.org/abs/2403.01901         本文提出了一个新的说话人脸生成任务,即直接从音频中想象出符合音频特征的多样化动态说话人脸,而常规的该任务需要给定一张参考人脸。具体来说,该

    2024年03月16日
    浏览(36)
  • 陈巍:LLaMA-2的多模态版本架构与训练详解(收录于GPT-4/ChatGPT技术与产业分析)

    陈巍 :2023年9月,Meta的研究人员推出了AnyMAL(任意模态增强语言模型,Any-Modality Augmented Language Model)。该模型能够理解多种模态信号并生成文本回应,即多模态输入,单模态输出。输入的模态可包括图像、视频、音频和IMU(惯性测量单元,Inertial Measurement Unit)传感器数据。

    2024年04月10日
    浏览(68)
  • 微软出品,166页深度解读,多模态GPT-4V

    多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。 什么样的论文,能写出166页? 不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示; 还传授了一整套多模态大模型提示词使用技巧—— 手把手教你从0到1学会

    2024年02月07日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包