【Rust日报】2023-03-14 Rust实现的纯 CPU 运算的 LLaMA 模型

这篇具有很好参考价值的文章主要介绍了【Rust日报】2023-03-14 Rust实现的纯 CPU 运算的 LLaMA 模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Rust实现的纯 CPU 运算的 LLaMA 模型

我试图让 LLaMA 语言模型在纯 CPU实现上工作,灵感来自于这里的一个很棒的CPU实现:https://github.com/ggerganov/ggml,它可以运行GPT-J 6B模型。

在我的蹩脚的 OpenCL 的代码下,我的GTX 3090上可以实现每个 Token 耗时 270毫秒。在Ryzen 3950X上使用纯 CPU 和 OpenCL,我可以使每个 Token 700ms左右。而在没有任何 OpenCL 的情况下,只用纯Rust代码,加上我手写的一些 AVX2 实现,每个令牌大约1秒。所有这些都运行在LLaMA-7B模型上。

【Rust日报】2023-03-14 Rust实现的纯 CPU 运算的 LLaMA 模型

ReadMore: https://github.com/Noeda/rllama

Sqlx 编译速度分析

sqlx真的很好,但你肯定会对编译时间印象深刻。即使使用Ryzen 3700,cargo check 也需要比较长的时间才能运行结束,而这成了一个喝咖啡休息的好借口。我想要看下到底在这背后发生了什么。

ReadMore: https://cosmichorror.dev/posts/speeding-up-sqlx-compile-times/

Rust编码风格

这篇文章是高阶一点的针对 Rust 编码风格的讨论(因为它没有涉及到具体的细节),部分灵感来自于面向数据的设计,部分灵感来自于基于ML的函数式编程语言,我认为这很自然地适用于Rust,并使得 API 更人性化且灵活易于扩展。这不是什么高级的东西,但我希望这对刚接触Rust的人起到一些作用。

ReadMore: https://tzemanovic.gitlab.io/posts/rust-coding-style/


From 日报小组 Koalr

社区学习交流平台订阅:

  • Rustcc论坛: 支持rss

  • 微信公众号:Rust语言中文社区文章来源地址https://www.toymoban.com/news/detail-487132.html

到了这里,关于【Rust日报】2023-03-14 Rust实现的纯 CPU 运算的 LLaMA 模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【m_listCtrl !=NULL有多个运算符与操作数匹配】2023/9/21 上午11:03:44

    2023/9/21 上午11:03:44 m_listCtrl !=NULL有多个运算符与操作数匹配 2023/9/21 上午11:04:00 如果您在编译或运行代码时遇到\\\"M_listCtrl != NULL有多个运算符与操作数匹配\\\"的错误提示,这通常是由于以下几个原因之一: 错误使用运算符:在条件判断语句中,应该使用双等号(==)进行相等性比

    2024年02月07日
    浏览(37)
  • 在本地使用CPU运行Llama 2模型来实现文档Q&A

    第三方商业大型语言模型(LLM)提供商,如OpenAI的GPT4,通过简单的API调用使LLM的使用更加容易。然而,由于数据隐私和合规等各种原因,我们可能仍需要在企业内部部署或私有模型推理。 开源LLM的普及让我们私有化部署大语言模型称为可能,从而减少了对这些第三方提供商

    2024年02月13日
    浏览(38)
  • LLaMA 2:开源的预训练和微调语言模型推理引擎 | 开源日报 No.86

    Stars: 36.0k License: NOASSERTION LLaMA 2 是一个开源项目,用于加载 LLaMA 模型并进行推理。 该项目的主要功能是提供预训练和微调后的 LLaMA 语言模型的权重和起始代码。这些模型参数范围从 7B 到 70B 不等。 以下是该项目的关键特性和核心优势: 支持多种规模 (7B、13B 和 70B) 的语言模

    2024年02月04日
    浏览(34)
  • TransnormerLLM 中 FlashLinearAttention 的纯pytorch实现

    Github 仓库:https://github.com/One-sixth/flash-linear-attention-pytorch 纯 Pytorch 实现 TransnormerLLM 中快速线性注意力算子。 用于学习目的。 如果你希望用于训练模型,你可能要修改为 CUDA 或 Triton 的实现,不然会很慢。 这个算子有精度问题,误差较大,是正常的。 这是因为注意力矩阵没

    2024年02月14日
    浏览(24)
  • Jay17 2023.8.12日报

    8.12 今天做了2题,CTFshow 红包挑战8(PHP create_function())和BUU [RoarCTF 2019]Easy Java(web.xml泄露)。 此外一直在打NepCTF,出了一题(ez_java_checkin)简单了解了java中shrio反序列化漏洞的利用。 做Nep时候顺便补充了一下文件包含的绕过方式。 考点:web.xml泄露 开题是一个登录框。 点击

    2024年02月13日
    浏览(21)
  • Jay17 2023.8.10日报

    【python反序列化】 序列化 类对象-字节流(字符串) 反序列化 字节流-对象 python反序列化没PHP这么灵活,没这么多魔术方法。 import pickle import os class ctfshow(): def init (self): self.username=0 self.password=0 c=ctfshow() data=c.login(“admin”,“123456”) #返回True print(data) import pickle import os impo

    2024年02月13日
    浏览(25)
  • [llama懒人包]ChatGPT本地下位替代llama-7b,支持全平台显卡/CPU运行

    LLAMA的懒人包: 链接: https://pan.baidu.com/s/1xOw8-eP8QB--u6y644_UPg?pwd=0l08  提取码:0l08 模型来源:elinas/llama-7b-hf-transformers-4.29 模型来源(LoRA):ymcui/Chinese-LLaMA-Alpaca 侵权请通知作者删除 也可以进我的群下载哦:904511841 下面是llama的输入样例   自我介绍一下llama 您好,我是llama。

    2024年02月12日
    浏览(31)
  • llama.cpp LLM模型 windows cpu安装部署;运行LLaMA-7B模型测试

    参考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安装参考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下载: 2、编译 3、测试运行 参考: https://zhuanlan.zhihu.com/p/638427280 模型下载: https://huggingface.co/nya

    2024年02月15日
    浏览(37)
  • llama.cpp LLM模型 windows cpu安装部署;运行LLaMA2模型测试

    参考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安装参考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下载: 2、编译 3、测试运行 参考: https://zhuanlan.zhihu.com/p/638427280 模型下载: https://huggingface.co/nya

    2024年02月16日
    浏览(32)
  • llama.cpp一种在本地CPU上部署的量化模型(超低配推理llama)

    前不久,Meta前脚发布完开源大语言模型LLaMA, 随后就被网友“泄漏”,直接放了一个磁力链接下载链接。 然而那些手头没有顶级显卡的朋友们,就只能看看而已了 但是 Georgi Gerganov 开源了一个项目llama.cpp ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com) 次项目的牛逼

    2023年04月23日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包