Meta的Llama 3惊艳亮相,8B量化版本仅有4.7G,你也能像我一样马上部署到本地

这篇具有很好参考价值的文章主要介绍了Meta的Llama 3惊艳亮相,8B量化版本仅有4.7G,你也能像我一样马上部署到本地。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

     ChatGPT狂飙160天,世界已经不是之前的样子。

新建了免费的人工智能中文站https://ai.weoknow.com

新建了收费的人工智能中文站ai人工智能工具
每天给大家更新可用的国内可用chatGPT资源

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

 发布在https://it.weoknow.com

更多资源欢迎关注

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习文章来源地址https://www.toymoban.com/news/detail-858143.html


ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

图片来自Meta官网

在AI领域,语言模型无疑是最引人瞩目的研究方向之一。从GPT-3到ChatGPT,再到最新的Llama 3,我们见证了语言模型性能的不断突破。AI模型领域的竞争可谓已经白热化,昨天号称超过GPT-4的微软的wizardlm2可以下载,我本地部署了,性能的确还不错。

今天,我们要介绍的就是 Meta 最新发布的 Llama 3 语言模型。作为目前开源领域最强大的LLM,Llama 3不仅在基准测试中取得了领先成绩,在真实世界应用中的表现也令人惊叹。它标志着开源 AI 进入了一个新的纪元。作为普通人我们也能用到的AI最强开源模型,我们有必要全面了解 Llama 3 的关键特点和创新,以及它带来的机遇。我已经部署到本地了,看完本文你也能部署到本地体验。

Llama 3的性能优势

Performance
 

PART 01

首先,我们来看看 Llama 3 的整体性能表现。Meta公布了 Llama 3 在多个领先基准测试中的结果,可以看出它在各项指标上都取得了出色的成绩。

在通用能力方面,Llama 3 8B和70B模型在MMLU、AGIEval、CommonSenseQA等广泛使用的基准上,均显著超越了Llama 2以及一些同类大模型如GPT-3。以MMLU为例,Llama 3 8B和70B分别达到66.6%和79.5%的准确率,而Llama 2 13B只有53.8%。在复杂推理任务BIG-Bench Hard中,Llama 3 70B也以81.3%的准确率遥遥领先于同类模型。

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

在知识问答任务上,Llama 3同样展现出出色的实力。在TriviaQA-Wiki基准中,Llama 3 70B的准确率高达89.7%,大幅领先于Llama 2系列。在SQuAD和QuAC等阅读理解测试中,Llama 3 70B也取得了不错的成绩。

更令人吃惊的是,Llama 3在指令遵循(Instruction Following)等更高层次的能力上也有了大幅提升。在GPQA、HumanEval等测试中,Llama 3 70B均显著超越了同类模型如Mistral Medium和GPT-3.5。尤其在HumanEval这个编程挑战中,Llama 3 70B高达81.7%的准确率,几乎是Llama 2 70B的3倍。

Llama 3在各类基准测试中的表现都令人刮目相看,无论是通用语言能力、知识问答,还是指令追随,它都展现出了开源领域目前最强大的实力。

人类评测

Human Evaluation
 

PART 02

除了基准测试,Meta还针对Llama 3 进行了一系列内部人类评测,更好地反映其在实际应用中的表现。

这项评测共包含1800个测试案例,覆盖了咨询建议、创意思维、分类、问答、编码、写作等12个关键应用场景。相比机器评分,人类评价能更好地捕捉语言模型在真实世界使用中的细微差异。

在这次评测中, Llama 3 70B取得了出色的结果,在各个场景中都优于同规模的竞争对手如Claude的Sonnet和Mistral Medium。特别是在要求模型理解上下文、进行推理和生成高质量回答的任务中,Llama 3 70B的表现更是遥遥领先。

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

这些结果再次证明,Llama 3不仅在标准基准上领先,在贴近实际应用的人类评测中也展现出了出色的实力。这不仅得益于其强大的语言理解和生成能力,更体现了Meta在模型设计和训练上的用心。

如果你正在AI创业,你需要关注模型在真实场景中的表现,而不仅仅局限于基准测试。Llama 3的出色评测成绩无疑为我们在实际应用中使用它带来了极大的信心。

Llama3的技术亮点

Technology
 

PART 03

Llama 3之所以能取得如此出色的性能,得益于Meta在多个关键技术环节的创新。让我们一一探究。

1. 模型架构优化

Llama 3采用了相对标准的Transformer解码器架构,但在某些关键细节上进行了优化。

最值得关注的是,Llama 3使用了128,000个词的大型词表,相比Llama 2的50,000个词大幅增加。这不仅提升了模型的表达能力,也为未来的多语言支持奠定了基础。

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

此外,Llama 3还采用了Grouped Query Attention (GQA)机制,在保持模型大小不变的情况下,显著提升了推理效率。这使得8B和70B两个版本的Llama 3在实际应用中的性能都能与同规模的Llama 2相媲美。

2. 大规模预训练数据

训练高质量的语言模型,数据量是关键。Llama 3的预训练数据规模达到了15万亿tokens,是Llama 2的近7倍。这个庞大的数据集不仅覆盖了丰富的英语语料,还包括了5%的高质量非英语数据,为未来的多语言支持奠定了基础。

为了确保数据质量,Meta采用了多层次的筛选机制,包括启发式过滤、NSFW检测、语义重复数据删除等。值得一提的是,他们还利用Llama 2模型自身来训练文本质量分类器,进一步提高了数据质量。

这种对海量高质量数据的投入,无疑为Llama 3的优秀表现奠定了坚实的基础。

3. 高效的预训练Scaling

除了数据量,模型训练的效率也是决定最终性能的关键因素。在这方面,Meta也做出了不少创新。

他们开发了一系列详细的Scaling定律,能够预测模型在各类下游任务上的表现。这使得他们能够做出更加精准的模型选择和训练配置,从而大幅提高了训练效率。事实上,与Llama 2相比,Llama 3的训练效率提升了约3倍。

具体来说,Meta采用了数据并行、模型并行和管道并行等多种并行化技术,将训练过程分散到多达16,000个GPU上。同时,他们还开发了自动化的错误检测和维护机制,将有效训练时间提升到95%以上。

这些创新使得Meta能够在相对较短的时间内,训练出性能卓越的Llama 3模型。这不仅大幅缩短了开发周期,也大大降低了训练成本,为AI创业者提供了可靠的技术支持。

4. 先进的指令微调

除了强大的预训练能力,Llama 3在指令遵循等更高层次任务上的出色表现,还得益于Meta在微调技术上的创新。

具体来说,Llama 3采用了监督微调(SFT)、奖惩策略优化(PPO和DPO)等多种技术相结合的方法。这不仅提升了模型在推理、编程等任务上的性能,也通过大规模的红队测试,进一步提高了模型在安全性和可靠性方面的表现。

值得一提的是,Meta非常重视微调数据的质量。他们投入大量人力对微调数据进行审核和标注,确保每一个样本都能最大限度地发挥模型的潜力。这种对细节的极致追求,最终将Llama 3的能力推向了新的高度。

Llama 3的杰出性能,源于Meta在模型架构、预训练数据、训练效率和微调方法等关键环节的一系列创新突破。这不仅展现了Meta在AI领域的强大实力,也为Llama 3成为开源界最强大的语言模型奠定了坚实基础。

Llama 3的安全管控

AI Responsibility
 

PART 04

作为开源模型,Llama 3的发布不仅关乎性能,更需要兼顾安全和道德层面的责任。Meta在这一方面也做出了重大探索。

首先,在模型训练阶段,Meta就非常重视安全性。他们针对化学武器、生物武器、网络攻击等关键风险领域,进行了深入的评估和测试。通过大规模的"红队"攻击演练,以及与外部安全专家的合作,Meta最大限度地降低了Llama 3在这些方面的风险。

在模型发布后,Meta也提供了一系列开源工具,帮助开发者更好地管控Llama 3的使用风险。其中包括:

1. Llama Guard 2:这是一种基于AI的输入/输出过滤器,能够识别并拦截潜在的危险内容。它采用了最新的MLCommons分类标准,为开发者提供了可定制的安全解决方案。

2. CyberSecEval 2:这是一套用于评估语言模型在网络安全领域风险的测试套件,覆盖了代码生成安全性、网络攻击能力和prompt注入等多个方面。开发者可以利用它来审核Llama 3在关键场景下的表现。

3. Code Shield:这是一种inference时的代码过滤器,能够有效阻止Llama 3生成不安全的代码片段。这为开发者在使用Llama 3作为编程助手时,提供了额外的安全保障。

除了这些工具,Meta还发布了《负责任使用指南》,为开发者提供了全面的安全实践建议。他们强调,对于任何LLM的部署,都需要结合具体场景进行细致的安全评估和定制化的风险管控措施。

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

Meta的这些做法,无疑展现了他们对负责任 AI 发展的坚定决心。作为AI创业者,我们应该密切关注Llama 3及其周边工具,在享受其强大功能的同时,也要谨慎应对可能的风险,共同推动AI技术的健康发展。

Llama3的下一代

AI WRITING
 

PART 05

Llama 3 8B和70B版本,只是Meta Llama 3系列的开山之作。在不久的将来,我们还将迎来更多新的Llama 3模型。

Meta透露,他们正在训练一个超过400B参数的"巨无霸"Llama 3模型。尽管这个模型目前还在训练中,但从已有的测试结果来看,它的性能将会更进一步。

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

除了参数规模的提升,未来的Llama 3还将拥有更多新功能:

1. 多语言支持:利用Llama 3预训练数据中的5%非英语数据,未来的Llama 3有望支持更多语言。这将大幅提升其在全球市场的适用性。

2. 多模态能力:Llama 3目前仅限于文本输入输出,但Meta表示未来还将推出支持图像、视频等多模态的Llama 3版本。这将大大拓展其应用场景。

3. 更长上下文:Llama 3目前的上下文长度为8192个tokens,未来有望进一步扩大,以满足对话、写作等更复杂的应用需求。

4. 持续优化:Meta承诺会与开源社区保持紧密合作,不断改进Llama 3的性能和安全性,为开发者提供更好的AI助手。

可以预见,随着这些新功能的陆续推出,Llama 3将会越来越强大,或成为AI创业公司不可或缺的利器。

最    后

Llama 3将会拥有更强大的性能、更广泛的功能,必将为AI创业者带来全新的机遇。或许,Llama 3又开启了开源 AI 新纪元的精彩序幕!

在写这篇文章时,发现Ollama也推出了GGUF格式的量化版本。

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

8B版本的仅有4.7G,你如果还没有下载Ollama,可以从Ollama.ai上下载这个开源软件,不管是MAC还是WIN一键安装这个可执行程序,然后打开你的命令执行窗口,输入ollama run llama3 即可拉取到模型到你本地机器上。然后就可以开始对话了,Ctrl+D退出对话。

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

我提醒你:如果你的机器性能不是太好,千万不要在你本地运行的Prompt中添加什么“深吸一口气(TAKE A DEEP BREATH)”之类让你感觉很棒的句子,到时机器GPU烧坏了,深吸气的可能会是你。跑这种本地模型最好打开你机器上的性能监视器,监测一下GPU内存,很多模型都会拉满你的GPU。下面的文章是关于所有开源模型本地部署的技术,也介绍了很好的应用,阅读这个指南会节省你很多时间。


    ChatGPT狂飙160天,世界已经不是之前的样子。

新建了免费的人工智能中文站https://ai.weoknow.com

新建了收费的人工智能中文站ai人工智能工具
每天给大家更新可用的国内可用chatGPT资源

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习

 发布在https://it.weoknow.com

更多资源欢迎关注

ollama run llama3:8b,chatgpt,llama,人工智能,gpt,chatgpt,语言模型,机器学习


到了这里,关于Meta的Llama 3惊艳亮相,8B量化版本仅有4.7G,你也能像我一样马上部署到本地的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Llama3-8B+ LLaMA-Factory 中文微调

    Llama3是目前开源大模型中最优秀的模型之一,但是原生的Llama3模型训练的中文语料占比非常低,因此在中文的表现方便略微欠佳! 本教程就以Llama3-8B-Instruct开源模型为模型基座,通过开源程序LLaMA-Factory来进行中文的微调,提高Llama3的中文能力!LLaMA-Factory是一个开源的模型训

    2024年04月27日
    浏览(13)
  • 使用ollama分别在我的window、mac、小米手机上部署体验llama3-8b

    使用ollama分别在我的window、mac、小米手机上部署体验llama3-8b

    一句话来说, Ollama 是一个基于 Go 语言开发的简单易用的本地大模型运行框架。可以将其类比为 docker(有类似docker中的一些常规命令list,pull,push,run 等等),事实上确实也制定了类似 docker 的一种模型应用标准,在后边的内容中,你能更加真切体会到这一点。 在管理模型的同

    2024年04月22日
    浏览(8)
  • Meta Llama 3 简介

    Meta Llama 3 简介

    本文翻译自:https://ai.meta.com/blog/meta-llama-3/ 今天,我们将介绍 Meta Llama 3,它是我们最先进的开源大型语言模型的下一代。 Llama 3 模型即将在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上推出,并得到 AMD、AWS、Dell、Intel、NVIDIA 和高

    2024年04月24日
    浏览(9)
  • [AI Meta Llama-3] 最强开源大模型Llama 3发布!

    [AI Meta Llama-3] 最强开源大模型Llama 3发布!

    最强开源大模型Llama 3发布!我们看下重点: 今天,我们介绍Meta Llama 3,这是我们最先进的开源大型语言模型的下一代。 Llama 3模型很快将在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上提供,并得到AMD、AWS、戴尔、英特尔、NVIDIA和高

    2024年04月23日
    浏览(17)
  • Meta发布LLaMA 2:分析及解读

    Meta发布LLaMA 2:分析及解读

    Meta发布了LLaMA的新版本。该版本将被称为LLaMA 2,并且可以免费用于研究和商业用途。这是Meta和Microsoft联合发布的成果。 我认为微软希望垄断所有第三方LLM,并将它们作为SaaS(软件即服务)保留在自己的平台上作为商业产品。现在,OpenAI和LLaMA都将成为微软产品系列的一部分

    2024年02月14日
    浏览(12)
  • 足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼

    足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼

    之前尝试了 从0到1复现斯坦福羊驼(Stanford Alpaca 7B) ,Stanford Alpaca 是在 LLaMA 整个模型上微调,即对预训练模型中的所有参数都进行微调(full fine-tuning)。但该方法对于硬件成本要求仍然偏高且训练低效。 因此, Alpaca-Lora 则是利用 Lora 技术,在冻结原模型 LLaMA 参数的情况下

    2024年02月03日
    浏览(8)
  • Meta最新模型LLaMA详解(含部署+论文)

    Meta最新模型LLaMA详解(含部署+论文)

    来源:投稿 作者:毛华庆 编辑:学姐 本课程来自深度之眼《大模型——前沿论文带读训练营》公开课,部分截图来自课程视频。 文章标题: LLaMA: Open and Efficient Foundation Language Models 向量空间中词表示的有效估计 文章链接: https://arxiv.org/pdf/2302.13971.pdf 作者: Hugo Touvron等 单

    2024年02月08日
    浏览(12)
  • Meta的 Llama-3 在线使用与下载

    Meta的 Llama-3 在线使用与下载

    2024年4月19日,全球社交巨头Meta在他们的官网,正式发布了开源大模型 Llama-3 !! 该版本包括预训练和指令调整的 Llama 3 语言模型的模型权重和起始代码 - 包括 8B 到 70B 参数! Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支

    2024年04月27日
    浏览(7)
  • AI大战,Meta发布大型语言模型LLaMA

    ChatGPT引爆了AI行业,全球的科技巨头都先后加入这场AI大战,作为行业大佬的Meta也不例外,宣布推出大型语言模型LLaMA,加入到了这场由微软、谷歌等科技巨头主导的AI“厮杀”中。 LLaMA 模型由 Meta 的FAIR 团队开发,旨在帮助研究人员和工程师探索人工智能应用和相关功能,在

    2024年02月13日
    浏览(13)
  • Meta的LLama模型非官方下载方法

    Llama模型是一个用于自然语言处理的大型语言模型,它由Meta AI开发,拥有65亿个参数。该模型的目的是帮助研究者在AI的子领域中推进他们的工作。Llama模型结构巨大,最小的模型LLaMA 7B也经过了超过1万亿个代币的训练。Llama模型的论文比较冗长,但通过阅读页面,可以了解该

    2024年02月11日
    浏览(7)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包