笔记本电脑上部署LLaMA-2中文模型

这篇具有很好参考价值的文章主要介绍了笔记本电脑上部署LLaMA-2中文模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

尝试在macbook上部署LLaMA-2的中文模型的详细过程。

(1)环境准备

MacBook Pro(M2 Max/32G);

VMware Fusion Player 版本 13.5.1 (23298085);

Ubuntu 22.04.2 LTS;

给linux虚拟机分配8*core CPU 16G RAM。

我这里用的是16bit的量化模型,至少需要13G内存,如果4bit的只需要3.8G内存,当然上述不包含系统本身需要的内存。

(2)环境依赖

sudo apt update
sudo apt-get install gcc g++ python3 python3-pip
python3 -m pip install torch numpy sentencepiece

(3)拉取llama.cpp工具并进行构建

 在目录/home/zhangzk下:

git clone https://github.com/ggerganov/llama.cpp.git

#安装依赖,llama.cpp 项目下带有 requirements.txt 文件

pip install -r requirements.txt

#构建llama.cpp

cd llama.cpp/
make -j8

(4)下载LLAMA2中文模型

下载LLama2的中文模型:GitHub - ymcui/Chinese-LLaMA-Alpaca-2: 中文LLaMA-2 & Alpaca-2大模型二期项目 + 64K超长上下文模型 (Chinese LLaMA-2 & Alpaca-2 LLMs with 64K long context models)

这里下载 Chinese-Alpace-2-7B的指令模型,模型文件12.9G。

llma2本地部署,大模型,llama

百度网盘那叫一个慢啊,没有会员能让你等死,还是梯子和GOOGLE网盘配合才叫一个快啊,几分钟的事。

把模型文件(共9个文件)都下载到 /home/zhangzk/llama.cpp/models/chinese-alpaca-2-7b-hf目录下。

(5)量化模型

在目录llama.cpp下执行:

#转换模型
python3 convert.py ./models/chinese-alpaca-2-7b-hf/

#16位量化
./quantize ./models/chinese-alpaca-2-7b-hf/ggml-model-f16.gguf ./models/chinese_7b_f16.gguf f16

上述两步执行完会生成新文件llama.cpp/models/chinese_7b_f16.gguf

(6)启动模型

Chinese-LLaMA-Alpaca-2/scripts/llama-cpp/chat.sh复制到llama.cpp目录下。

chmod +x chat.sh

在目录llama.cpp下执行即可看到模型输出了:

./chat.sh models/chinese_7b_f16.gguf '中国北京有哪些著名的景点?'

附1:QA例子

[INST] >

You are a helpful assistant. 你是一个乐于助人的助手。

>

中国北京有哪些著名的景点?

[/INST] 北京是中国的首都,拥有丰富的历史文化遗产和自然景观资源,以下是一些著名景点:

  1. 故宫博物院:中国古代皇宫建筑群,是明清两代皇帝的居所,保存了大量的文物和艺术品。
  2. 天坛公园:古代祭祀天地之场所,是中国现存规模最大、保存最完整的祭天文化遗产之一。
  3. 颐和园:中国传统皇家园林,被誉为"皇家园林博物馆",以其精美的建筑、湖泊和山水景观而闻名。
  4. 北京长城:中国古代防御工程的代表,是世界文化遗产,也是世界上最长的城墙。
  5. 北海公园:古代皇家园林之一,以碧波荡漾、荷花盛开、古树参天为特色,是中国最大的人工湖泊和岛屿园林。
  6. 圆明园:清代皇家园林,以其精美的建筑、精美的花园和珍贵文物而闻名于世,曾经是世界上最大的皇家园林。
  7. 北京鸟巢:2008年北京奥运会主体育场,是一座现代化体育场馆,也是北京市区的一个地标性建筑。
  8. 天安门广场:中国最大的城市广场之一,是中国政治和历史的重要场所,也是游客必去的地方。
  9. 王府井大街:北京的商业中心,拥有各种购物、餐饮和娱乐设施,是游客体验北京文化的好地方。
  10. 北京大学:中国的著名高等学府,以其美丽的校园建筑和悠久的历史而闻名于世。

附2: 查看quantize 提供各种精度的量化。

zhangzk@test-llm:~/llama.cpp$ ./quantize --help

usage: ./quantize [--help] [--allow-requantize] [--leave-output-tensor] [--pure] [--imatrix] [--include-weights] [--exclude-weights] model-f32.gguf [model-quant.gguf] type [nthreads]

--allow-requantize: Allows requantizing tensors that have already been quantized. Warning: This can severely reduce quality compared to quantizing from 16bit or 32bit

--leave-output-tensor: Will leave output.weight un(re)quantized. Increases model size but may also increase quality, especially when requantizing

--pure: Disable k-quant mixtures and quantize all tensors to the same type

--imatrix file_name: use data in file_name as importance matrix for quant optimizations

--include-weights tensor_name: use importance matrix for this/these tensor(s)

--exclude-weights tensor_name: use importance matrix for this/these tensor(s)

Note: --include-weights and --exclude-weights cannot be used together

Allowed quantization types:

2 or Q4_0 : 3.56G, +0.2166 ppl @ LLaMA-v1-7B

3 or Q4_1 : 3.90G, +0.1585 ppl @ LLaMA-v1-7B

8 or Q5_0 : 4.33G, +0.0683 ppl @ LLaMA-v1-7B

9 or Q5_1 : 4.70G, +0.0349 ppl @ LLaMA-v1-7B

19 or IQ2_XXS : 2.06 bpw quantization

20 or IQ2_XS : 2.31 bpw quantization

28 or IQ2_S : 2.5 bpw quantization

29 or IQ2_M : 2.7 bpw quantization

24 or IQ1_S : 1.56 bpw quantization

10 or Q2_K : 2.63G, +0.6717 ppl @ LLaMA-v1-7B

21 or Q2_K_S : 2.16G, +9.0634 ppl @ LLaMA-v1-7B

23 or IQ3_XXS : 3.06 bpw quantization

26 or IQ3_S : 3.44 bpw quantization

27 or IQ3_M : 3.66 bpw quantization mix

12 or Q3_K : alias for Q3_K_M

22 or IQ3_XS : 3.3 bpw quantization

11 or Q3_K_S : 2.75G, +0.5551 ppl @ LLaMA-v1-7B

12 or Q3_K_M : 3.07G, +0.2496 ppl @ LLaMA-v1-7B

13 or Q3_K_L : 3.35G, +0.1764 ppl @ LLaMA-v1-7B

25 or IQ4_NL : 4.50 bpw non-linear quantization

30 or IQ4_XS : 4.25 bpw non-linear quantization

15 or Q4_K : alias for Q4_K_M

14 or Q4_K_S : 3.59G, +0.0992 ppl @ LLaMA-v1-7B

15 or Q4_K_M : 3.80G, +0.0532 ppl @ LLaMA-v1-7B

17 or Q5_K : alias for Q5_K_M

16 or Q5_K_S : 4.33G, +0.0400 ppl @ LLaMA-v1-7B

17 or Q5_K_M : 4.45G, +0.0122 ppl @ LLaMA-v1-7B

18 or Q6_K : 5.15G, +0.0008 ppl @ LLaMA-v1-7B

7 or Q8_0 : 6.70G, +0.0004 ppl @ LLaMA-v1-7B

1 or F16 : 13.00G @ 7B

0 or F32 : 26.00G @ 7B

COPY : only copy tensors, no quantizing文章来源地址https://www.toymoban.com/news/detail-844818.html

到了这里,关于笔记本电脑上部署LLaMA-2中文模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 笔记本电脑部署本地离线版类似ChatGPT3.5的AI模型(CPU+内存运行)

    如果通过GPU来运行,一般办公电脑的显卡可能达不到所需的要求,所以,可以通过CPU+内存的方式花最低的代价来部署一套本地运行AI的模型。 1、首先下载CPU-Z,运行看一下电脑当前的指令集是否包含AVX512,非AVX512指令部署完应该也能运行,但可能运行速度会非常慢。(我的电

    2024年02月04日
    浏览(41)
  • 惠普台式笔记本一体机电脑BIOS中文版对照图解介绍

    注意VT 默认是不开启的。 太简陋了,只有一个风扇转速连个温度显示都没有。 可以设置定时开机的具体到分钟。 SERR#最好不要乱动,其实这两个参数都不用动,因为你打开机箱就会失去质保,既然不安装PCI设备就不用动它。 看不懂惠普电脑BIOS怎么办?本文为大家提供惠普电

    2024年02月12日
    浏览(37)
  • 本地部署生成式AI,选显卡or笔记本电脑?!新款酷睿Ultra举票

    来源 | 算力豹 200亿个大模型参数无压力,新一代酷睿Ultra凭什么? 12月14日报道,在大模型军备竞赛如火如荼的今天,真正让AI铺开惠民,那么移动端、PC将成为首选,AI PC或成标配。英特尔今日奉上AI硬件大招,正式推出AI PC处理器代号Meteor Lake的酷睿Ultra处理器。 01 本地部署

    2024年02月03日
    浏览(27)
  • SPSS modeler用关联规则Apriori模型对笔记本电脑购买事务销量数据研究

    自2011年全球PC出货量达到历史最高的3.64亿台后,全球PC市场出货量已经连续四年下滑 ( 点击文末“阅读原文”获取完整 代码数据 )。 相关视频 市场调研公司Gartner最新数据显示,2015年Q3全球PC销量同比降低7.7%,至7370万台。IDC数据更加不乐观,2015年Q3全球PC出货量共计7100万

    2024年02月02日
    浏览(48)
  • 笔记本电脑数据怎么恢复?笔记本电脑数据恢复用什么工具?

    随着互联网时代的发展,电脑的应用越来越广泛,已经深深融入了我们的工作乃至生活当中。其中,笔记本作为可随身携带的电脑设备,其灵活、轻便等优势一直深受大家喜爱。在日常使用过程中,我们会往笔记本里存储各式各样的数据,比如学习课程、手机照片、公司资料

    2024年02月01日
    浏览(48)
  • 笔记本电脑控制树莓派,树莓派获取IP地址,连接笔记本电脑屏幕

    树莓派使用需要连接显示屏配备键盘和鼠标,为了方便实用可以直接连接到自己的笔记本电脑上,主要步骤如下: 第一步:获取树莓派IP地址 首先进行树莓派的系统烧录,烧录过程可以查看网上教程,有很多这里不再赘述,本文主要是针对已经烧录好的树莓派连接笔记本电脑

    2024年02月12日
    浏览(46)
  • 将一台笔记本电脑作为另一台笔记本电脑的扩展显示器

                            可以使用 快捷键win + i 打开设置 ,然后点击 ‘系统’         步骤2:点击 ‘投影到此电脑’ ,可以看到右边的选项是灰色,                 不可以选,然后点击 ‘可选功能’ ;如果是可选的,可以跳过步骤4 步骤3 :查找是否安

    2024年02月11日
    浏览(58)
  • 三防笔记本丨加固笔记本丨三防笔记本电脑赋能车辆检修

    随着汽车数量的不断增加和交通运输行业的发展,车辆检修行业成为了保障交通安全和延长车辆寿命的重要领域。在车辆检修过程中,需要使用各种工具和设备来进行检测、维修和保养,而信息化技术的应用正逐渐渗透到这一行业中,为检修工作提供了更高效、更精准的解决

    2024年04月09日
    浏览(76)
  • python编程用什么笔记本好,python用什么笔记本电脑

    大家好,给大家分享一下写python大家都用什么笔记本的,很多人还不知道这一点。下面详细解释一下。现在让我们来看看! 大家好,小编为大家解答python编程对笔记本电脑配置的要求的问题。很多人还不知道python编程笔记本电脑推荐便宜,现在让我们一起来看看吧! 大家好

    2024年01月18日
    浏览(44)
  • 笔记本电脑参数简介

    笔记本电脑按照性能续航重量可分为轻薄本、全能本和游戏本。 从轻薄本到全能本再到游戏本,性能依次提高,续航依次下降,重量依次增加。 更详细的对比如下: 轻薄本 :特点是轻薄便携,续航持久,颜值较高,但是性能相对保守。适合文科类专业,如会计学、语言类等

    2024年02月09日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包