触手可及的 GPT —— LLaMA-Toy模板网

这篇具有很好参考价值的文章主要介绍了触手可及的 GPT —— LLaMA。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

出品人：Towhee 技术团队

最近几个月 ChatGPT 的出现引起广泛的关注和讨论，它在许多领域中的表现都超越了人类的水平。它可以生成人类级别的语言，并且能够在不同的任务中学习和适应，让人们对人工智能的未来充满了希望和憧憬。

ChatGPT 之所以表现如此出色，得依靠于 ChatGPT 所依赖的底层模型（GPT 系列），当时 GPT-3 的 few-shot 能力就已经开始让人们震惊于 in-context learning 竟然可以拥有这么强的学习能力，有种种证据表明，GPT 已经万事俱备（学习到了大量知识），只欠东风（缺乏合适的方式将其prompt出来）。

但是 OpenAI 对于 GPT-2 之后的模型就不再开源，NLP 学术界如果没有一个能力足够强，足够高效，而且能受到广泛认可的大模型底座，那只能看着这波大模型新的浪潮望洋兴叹。

虽然也有一些开源的大模型（例如 OPT，BLOOM），但真的大模型大家也跑不动。其实大家想要的还是小的大模型，好在沉迷于元宇宙已久的Meta推出了 LLaMA（美洲驼）[1]系列模型来补上了这个缺口，该系列模型有四个版本（7B，13B，33B，65B），而且都是在超过 trillions tokens 的公开数据集上训练的，可以说就是为了 benchmark 而生的。

触手可及的 GPT —— LLaMA （训练所使用的数据集）

从模型的结构上来说，LLaMA 使用了这些年的大模型改进技术:

1）使用 pre-normalization（GPT-3）来提高模型训练的稳定性 2）使用 SwiGLU 激活函数替代 ReLU（PaLM） 3）使用 Rotary Embeddings 来替代绝对位置 embeddings（GPTNeo）

使用这种模型，Meta 用了 2048 块 A100 在1.4T 的 token 上训练 65-B 版本的模型，花了大约 21 天。

触手可及的 GPT —— LLaMA （LLaMA与其他相似类型的大模型在数据集上的比较）

接下来文章花了很多篇幅进行了各种任务上的对比，但从上表来看，作为大型语言模型，LLaMA 还是和各种不开源的大模型是处于同一个水平的，尤其是 7B 和 13B 两个模型体现出了惊人的性价比，毫无疑问的会成为作为学术圈内各种下游实验的闪亮明星。

现在斯坦福大学的 tatsu-lab 实验室现在利用了开源的 LLaMA 给出了完整的下游 finetune 方案，即 stanford alpaca（羊驼）[2]。stanford alpaca 项目使用 ChatGPT 生成了 52k 的训练数据，只 finetune 了 7B 模型，就达到了类似 ChatGPT 的效果，因为有了 ChatGPT 提供的高质量问答式监督数据，整个工作流非常的直观。配合着使用着 bitsandbytes 来进行 int8 加速 LLaMA 的项目[3]，就可以端到端的完成一个个人版的 ChatGPT。

另一条线是使用更经济的 finetune 方案，就是近期也在 finetune stable-diffusion 中大红大紫的 LoRA 开发的 alpaca-lora[4]，这个项目可以在一块 RTX 4090 上 finetune 几小时就可以得到一个和 stanford alpaca 相比的模型，可以说是真正的旧时王谢堂前燕，飞入寻常百姓家。已经有多个语言版本的 alpaca-lora 已经在社区中被分享。而 LoRA 对于大模型小数据的良好表现让这个方案也显示出了很大的潜力。

触手可及的 GPT —— LLaMA （钢铁侠与 alpaca）

LLaMA 让可以与 GPT 相比的能力可以广泛的被普及，而且社区内已经认可了使用 LLaMA 进行开发的潜力，也让经费没有工业界那么充裕的学术界可以充分参与这一次 AI 重大的机遇。随着针对 LLaMA 训练和推理效率的不断优化，也许人人都可以拥有一个像钢铁侠中的 JARVIS 一样的定制化的 AI 助理。

[1]https://github.com/facebookresearch/llama [2]https://github.com/tatsu-lab/stanford_alpaca [3]https://github.com/tloen/llama-int8 [4]https://github.com/tloen/alpaca-lora

本文由 mdnice 多平台发布文章来源地址https://www.toymoban.com/news/detail-492728.html

到了这里，关于触手可及的 GPT —— LLaMA的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！