苹果AppleMacOs系统Sonoma本地部署无内容审查(NSFW)大语言量化模型Causallm

这篇具有很好参考价值的文章主要介绍了苹果AppleMacOs系统Sonoma本地部署无内容审查(NSFW)大语言量化模型Causallm。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

苹果AppleMacOs系统Sonoma本地部署无内容审查(NSFW)大语言量化模型Causallm

最近Mac系统在运行大语言模型(LLMs)方面的性能已经得到了显著提升,尤其是随着苹果M系列芯片的不断迭代,本次我们在最新的MacOs系统Sonoma中本地部署无内容审查大语言量化模型Causallm。

这里推荐使用koboldcpp项目,它是由c++编写的kobold项目,而MacOS又是典型的Unix操作系统,自带clang编译器,也就是说MacOS操作系统是可以直接编译C语言的。

首先克隆koboldcpp项目:

git clone https://github.com/LostRuins/koboldcpp.git

随后进入项目:

cd koboldcpp-1.60.1

输入make命令,开始编译:



make LLAMA_METAL=1


这里的LLAMA_METAL=1参数必须要添加,因为要确保编译时使用M系列芯片,否则推理速度会非常的慢。

程序返回:

(base) ➜  koboldcpp-1.60.1 make LLAMA_METAL=1  
I llama.cpp build info:   
I UNAME_S:  Darwin  
I UNAME_P:  arm  
I UNAME_M:  arm64  
I CFLAGS:   -I.            -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -O3 -DNDEBUG -std=c11   -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-deprecated -Wno-deprecated-declarations -pthread -DGGML_USE_ACCELERATE  
I CXXFLAGS: -I. -I./common -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -O3 -DNDEBUG -std=c++11 -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-multichar -Wno-write-strings -Wno-deprecated -Wno-deprecated-declarations -pthread  
I LDFLAGS:   -ld_classic -framework Accelerate  
I CC:       Apple clang version 15.0.0 (clang-1500.3.9.4)  
I CXX:      Apple clang version 15.0.0 (clang-1500.3.9.4)  
  
cc  -I.            -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -Ofast -DNDEBUG -std=c11   -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-deprecated -Wno-deprecated-declarations -pthread -DGGML_USE_ACCELERATE  -c ggml.c -o ggml.o  
clang: warning: argument unused during compilation: '-s' [-Wunused-command-line-argument]  
cc  -I.            -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -Ofast -DNDEBUG -std=c11   -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-deprecated -Wno-deprecated-declarations -pthread -DGGML_USE_ACCELERATE  -c otherarch/ggml_v3.c -o ggml_v3.o  
clang: warning: argument unused during compilation: '-s' [-Wunused-command-line-argument]  
cc  -I.            -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -Ofast -DNDEBUG -std=c11   -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-deprecated -Wno-deprecated-declarations -pthread -DGGML_USE_ACCELERATE  -c otherarch/ggml_v2.c -o ggml_v2.o  
clang: warning: argument unused during compilation: '-s' [-Wunused-command-line-argument]  
cc  -I.            -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -Ofast -DNDEBUG -std=c11   -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-deprecated -Wno-deprecated-declarations -pthread -DGGML_USE_ACCELERATE  -c otherarch/ggml_v1.c -o ggml_v1.o  
clang: warning: argument unused during compilation: '-s' [-Wunused-command-line-argument]  
c++ -I. -I./common -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -O3 -DNDEBUG -std=c++11 -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-multichar -Wno-write-strings -Wno-deprecated -Wno-deprecated-declarations -pthread -c expose.cpp -o expose.o  
clang: warning: argument unused during compilation: '-s' [-Wunused-command-line-argument]  
In file included from expose.cpp:20:  
./expose.h:30:8: warning: struct 'load_model_inputs' does not declare any constructor to initialize its non-modifiable members  
struct load_model_inputs  
    
12 warnings generated.  
c++ -I. -I./common -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -O3 -DNDEBUG -std=c++11 -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-multichar -Wno-write-strings -Wno-deprecated -Wno-deprecated-declarations -pthread  ggml.o ggml_v3.o ggml_v2.o ggml_v1.o expose.o common.o gpttype_adapter.o ggml-quants.o ggml-alloc.o ggml-backend.o grammar-parser.o sdcpp_default.o -shared -o koboldcpp_default.so  -ld_classic -framework Accelerate  
ld: warning: -s is obsolete  
ld: warning: option -s is obsolete and being ignored  
cc  -I.            -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -Ofast -DNDEBUG -std=c11   -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-deprecated -Wno-deprecated-declarations -pthread -DGGML_USE_ACCELERATE  -DGGML_USE_OPENBLAS -I/usr/local/include/openblas -c ggml.c -o ggml_v4_openblas.o  
clang: warning: argument unused during compilation: '-s' [-Wunused-command-line-argument]  
cc  -I.            -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -Ofast -DNDEBUG -std=c11   -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-deprecated -Wno-deprecated-declarations -pthread -DGGML_USE_ACCELERATE  -DGGML_USE_OPENBLAS -I/usr/local/include/openblas -c otherarch/ggml_v3.c -o ggml_v3_openblas.o  
clang: warning: argument unused during compilation: '-s' [-Wunused-command-line-argument]  
cc  -I.            -I./include -I./include/CL -I./otherarch -I./otherarch/tools -I./otherarch/sdcpp -I./otherarch/sdcpp/thirdparty -I./include/vulkan -Ofast -DNDEBUG -std=c11   -fPIC -DLOG_DISABLE_LOGS -D_GNU_SOURCE -pthread -s -Wno-deprecated -Wno-deprecated-declarations -pthread -DGGML_USE_ACCELERATE  -DGGML_USE_OPENBLAS -I/usr/local/include/openblas -c otherarch/ggml_v2.c -o ggml_v2_openblas.o  
clang: warning: argument unused during compilation: '-s' [-Wunused-command-line-argument]  
Your OS  does not appear to be Windows. For faster speeds, install and link a BLAS library. Set LLAMA_OPENBLAS=1 to compile with OpenBLAS support or LLAMA_CLBLAST=1 to compile with ClBlast support. This is just a reminder, not an error.  
  

说明编译成功,但是最后会有一句提示:

Your OS  does not appear to be Windows. For faster speeds, install and link a BLAS library. Set LLAMA_OPENBLAS=1 to compile with OpenBLAS support or LLAMA_CLBLAST=1 to compile with ClBlast support. This is just a reminder, not an error.

意思是可以通过BLAS加速编译,但是Mac平台并不需要。

接着通过conda命令来创建虚拟环境:

conda create -n kobold python=3.10

接着激活环境,并且安装依赖:

(base) ➜  koboldcpp-1.60.1 conda activate kobold  
(kobold) ➜  koboldcpp-1.60.1 pip install -r requirements.txt

最后启动项目:

Python3 koboldcpp.py --model /Users/liuyue/Downloads/causallm_7b-dpo-alpha.Q5_K_M.gguf  --gpulayers 40 --highpriority --threads 300

这里解释一下参数:

gpulayers - 允许我们在运行模型时利用 GPU 来获取计算资源。我在终端中看到最大层数是 41,但我可能是错的。   
threads - 多线程可以提高推理效率  
highpriority - 将应用程序在任务管理器中设置为高优先级,使我们能够将更多的计算机资源转移到kobold应用程序

程序返回:

(kobold) ➜  koboldcpp-1.60.1 Python3 koboldcpp.py --model /Users/liuyue/Downloads/causallm_7b-dpo-alpha.Q5_K_M.gguf  --gpulayers 40 --highpriority --threads 300  
***  
Welcome to KoboldCpp - Version 1.60.1  
Setting process to Higher Priority - Use Caution  
Error, Could not change process priority: No module named 'psutil'  
Warning: OpenBLAS library file not found. Non-BLAS library will be used.  
Initializing dynamic library: koboldcpp_default.so  
==========  
Namespace(model='/Users/liuyue/Downloads/causallm_7b-dpo-alpha.Q5_K_M.gguf', model_param='/Users/liuyue/Downloads/causallm_7b-dpo-alpha.Q5_K_M.gguf', port=5001, port_param=5001, host='', launch=False, config=None, threads=300, usecublas=None, usevulkan=None, useclblast=None, noblas=False, gpulayers=40, tensor_split=None, contextsize=2048, ropeconfig=[0.0, 10000.0], blasbatchsize=512, blasthreads=300, lora=None, smartcontext=False, noshift=False, bantokens=None, forceversion=0, nommap=False, usemlock=False, noavx2=False, debugmode=0, skiplauncher=False, hordeconfig=None, onready='', benchmark=None, multiuser=0, remotetunnel=False, highpriority=True, foreground=False, preloadstory='', quiet=False, ssl=None, nocertify=False, sdconfig=None)  
==========  
Loading model: /Users/liuyue/Downloads/causallm_7b-dpo-alpha.Q5_K_M.gguf   
[Threads: 300, BlasThreads: 300, SmartContext: False, ContextShift: True]  
  
The reported GGUF Arch is: llama  
  
---  
Identified as GGUF model: (ver 6)  
Attempting to Load...  
---  
Using automatic RoPE scaling. If the model has customized RoPE settings, they will be used directly instead!  
System Info: AVX = 0 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 1 | ARM_FMA = 1 | F16C = 0 | FP16_VA = 1 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 0 | SSSE3 = 0 | VSX = 0 | MATMUL_INT8 = 0 |   
llama_model_loader: loaded meta data with 21 key-value pairs and 291 tensors from /Users/liuyue/Downloads/causallm_7b-dpo-alpha.Q5_K_M.gguf (version GGUF V3 (latest))  
llm_load_vocab: mismatch in special tokens definition ( 293/151936 vs 85/151936 ).  
llm_load_print_meta: format           = GGUF V3 (latest)  
llm_load_print_meta: arch             = llama  
llm_load_print_meta: vocab type       = BPE  
llm_load_print_meta: n_vocab          = 151936  
llm_load_print_meta: n_merges         = 109170  
llm_load_print_meta: n_ctx_train      = 8192  
llm_load_print_meta: n_embd           = 4096  
llm_load_print_meta: n_head           = 32  
llm_load_print_meta: n_head_kv        = 32  
llm_load_print_meta: n_layer          = 32  
llm_load_print_meta: n_rot            = 128  
llm_load_print_meta: n_embd_head_k    = 128  
llm_load_print_meta: n_embd_head_v    = 128  
llm_load_print_meta: n_gqa            = 1  
llm_load_print_meta: n_embd_k_gqa     = 4096  
llm_load_print_meta: n_embd_v_gqa     = 4096  
llm_load_print_meta: f_norm_eps       = 0.0e+00  
llm_load_print_meta: f_norm_rms_eps   = 1.0e-05  
llm_load_print_meta: f_clamp_kqv      = 0.0e+00  
llm_load_print_meta: f_max_alibi_bias = 0.0e+00  
llm_load_print_meta: n_ff             = 11008  
llm_load_print_meta: n_expert         = 0  
llm_load_print_meta: n_expert_used    = 0  
llm_load_print_meta: pooling type     = 0  
llm_load_print_meta: rope type        = 0  
llm_load_print_meta: rope scaling     = linear  
llm_load_print_meta: freq_base_train  = 10000.0  
llm_load_print_meta: freq_scale_train = 1  
llm_load_print_meta: n_yarn_orig_ctx  = 8192  
llm_load_print_meta: rope_finetuned   = unknown  
llm_load_print_meta: model type       = 7B  
llm_load_print_meta: model ftype      = Q4_0  
llm_load_print_meta: model params     = 7.72 B  
llm_load_print_meta: model size       = 5.14 GiB (5.72 BPW)   
llm_load_print_meta: general.name     = .  
llm_load_print_meta: BOS token        = 151643 '<|endoftext|>'  
llm_load_print_meta: EOS token        = 151643 '<|endoftext|>'  
llm_load_print_meta: PAD token        = 151643 '<|endoftext|>'  
llm_load_print_meta: LF token         = 128 'Ä'  
llm_load_tensors: ggml ctx size =    0.26 MiB  
llm_load_tensors: offloading 32 repeating layers to GPU  
llm_load_tensors: offloading non-repeating layers to GPU  
llm_load_tensors: offloaded 33/33 layers to GPU  
llm_load_tensors:        CPU buffer size =   408.03 MiB  
llm_load_tensors:      Metal buffer size =  4859.26 MiB  
......................................................................................  
Automatic RoPE Scaling: Using (scale:1.000, base:10000.0).  
llama_new_context_with_model: n_ctx      = 2128  
llama_new_context_with_model: freq_base  = 10000.0  
llama_new_context_with_model: freq_scale = 1  
llama_kv_cache_init:      Metal KV buffer size =  1064.00 MiB  
llama_new_context_with_model: KV self size  = 1064.00 MiB, K (f16):  532.00 MiB, V (f16):  532.00 MiB  
llama_new_context_with_model:        CPU input buffer size   =    13.18 MiB  
llama_new_context_with_model:      Metal compute buffer size =   304.75 MiB  
llama_new_context_with_model:        CPU compute buffer size =     8.00 MiB  
llama_new_context_with_model: graph splits (measure): 2  
Load Text Model OK: True  
Embedded Kobold Lite loaded.  
Starting Kobold API on port 5001 at http://localhost:5001/api/  
Starting OpenAI Compatible API on port 5001 at http://localhost:5001/v1/

可以看到,已经通过Mac的Metal进行了加速。

此时,访问http://localhost:5001进行对话操作:

后台可以查看推理时长:

Processing Prompt [BLAS] (39 / 39 tokens)  
Generating (6 / 120 tokens)  
(Stop sequence triggered: 我:)  
CtxLimit: 45/1600, Process:0.58s (14.8ms/T = 67.59T/s), Generate:0.83s (138.8ms/T = 7.20T/s), Total:1.41s (4.26T/s)  
Output:  You're welcome.

可以看到,速度非常快,并不逊色于N卡平台。

如果愿意,可以设置一下prompt模版,让其生成喜欢的NSFW内容:

You are a sexy girl and a slut story writer named bufeiyan.   
  
User: {prompt}  
Assistant:

结语

Metal加速在Mac上利用Metal Performance Shaders (MPS)后端来加速GPU推理。MPS框架通过针对每个Metal GPU系列的独特特性进行微调的内核,优化计算性能。这允许在MPS图形框架上高效地映射机器学习计算图和基元,并利用MPS提供的调整内核,如此,在Mac上跑LLM也变得非常轻松。文章来源地址https://www.toymoban.com/news/detail-837700.html

到了这里,关于苹果AppleMacOs系统Sonoma本地部署无内容审查(NSFW)大语言量化模型Causallm的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • macOS Sonoma 14beta 7(23A5337a)更新发布,附黑/白苹果系统镜像

    黑果魏叔8 月 31 日消息,苹果今日向 Mac 电脑用户推送了 macOS 14 开发者预览版 Beta 7 更新(内部版本号:23A5337a),本次更新距离上次发布隔了 8 天。 苹果今天在发布 Beta 7 更新的同时, 还发布了第 6 个公测版 ,正式版预估在 9 月中旬或者 10 月份发布。 macOS Sonoma 引入了桌面

    2024年02月10日
    浏览(45)
  • 黑苹果如何在macOS Sonoma中驱动博通网卡

    准备资源(百度:黑果魏叔 下载) 资源包中包含:AirportBrcmFixup.kext/IOSkywalkFamily.kext/IO80211FamilyLegacy.kext/OpenCore-Patcher 使用方法: 1.将 csr-active-config 设置为 全选代码 复制 2.在 boot-args 中添加 全选代码 复制 3.在 Delete 中添加 csr-active-config   4.将 Secure Boot Model 设置为 Disabled   5

    2024年02月14日
    浏览(49)
  • ThinkPad T430 黑苹果Hackintosh 使用OpenCore成功安装macOS 14.3 Sonoma

    先放几张图,如果有感兴趣的,点个赞再走呗。 有人想看,我才有动力去慢慢补文字,讲述一下详细过程,写个教程供大家参考。 过去一直以为,老电脑只能黑苹果低版本的macOS。今天成功安装了最新的Sonoma,运行流畅,连超高清的屏幕保护都非常丝滑,感觉不出卡顿。而且

    2024年04月27日
    浏览(124)
  • AMD CPU在虚拟机VMWare中安装黑苹果macOS 14 Sonoma记录

    结论先放前面,放弃吧。还是用mac os 11 12 玩玩算了。amd真不适合。 生命在于折腾,这次是在我amd 5800x的台式机上的vmware虚拟机中折腾mac os 14。简单做个笔记; 前人栽树后人乘凉,根据前辈笔记简化记录下, 详细教程可看: AMD CPU在VMware中安装macOS 14 Sonoma最新版教程(不会出现五

    2024年02月19日
    浏览(49)
  • macOS Sonoma 14beta 3(23A5286g)发布(附黑/白苹果镜像地址)

    黑果魏叔 7 月 6 日消息,苹果今日向 Mac 电脑用户推送了 macOS 14 开发者预览版 Beta 3 更新(内部版本号:23A5286g),本次更新距离上次发布隔了 14 天。 小部件在更多地方变得更加强大。现在,您可以使用WidgetKit构建对交互性和动画过渡的支持,因此人们可以直接在您的小部件

    2024年02月13日
    浏览(100)
  • macOS Sonoma 14 正式版(23A344)发布,附黑/白苹果镜像下载地址

    黑果魏叔9 月 27日消息,苹果今日向 Mac 电脑用户推送了 macOS Sonoma 14 正式版(23A344)。 macOS 14正式版系统发布:全新功能与改进,打造更出色的苹果体验 2023年9月27日,苹果公司正式发布了期待已久的macOS 14正式版系统。作为macOS系列的最新版本,这款操作系统为用户带来了许

    2024年02月08日
    浏览(52)
  • macOS Sonoma 14.4beta3(23E5196e)发布【附黑/白苹果镜像】

    系统介绍 黑果魏叔2 月 14 日消息,苹果今日向 Mac 电脑用户推送了 macOS 14.4 开发者预览版 Beta 3 更新(内部版本号:23E5196e),本次更新距离上次发布隔了 7 天。 魏叔查询支持文档,发现 macOS 14.4 Beta 3 更新并未引入新的功能,在此前发布的 Beta 1 更新中主要新增了 108 个新 E

    2024年02月20日
    浏览(46)
  • macOS Sonoma 14beta 2 With OpenCore 0.9.3 and winPE双引导黑苹果镜像

    镜像特点 完全由黑果魏叔官方制作,针对各种机型进行默认配置,让黑苹果安装不再困难。 系统镜像设置为双引导分区,全面去除clover引导分区(如有需要,可以自行直接替换opencore分区文件为clover引导文件) 备注:此镜像仅适用与16g优盘以及16g以上 默认efi支持配置情况

    2024年02月15日
    浏览(51)
  • macOS Sonoma 14beta 3 (23A5286i)第二个更新「附黑/白苹果镜像下载」

    黑果魏叔 7 月12 日消息,苹果今天 发布 macOS Sonoma 14.0 Beta 3(内部版本号:23A5286i)第二个更新。 目前尚不清楚苹果为什么要发布 macOS Sonoma Beta 3 的第二个版本,但它可能正在为公开测试版做准备。苹果表示,计划在 7 月发布 macOS Sonoma 的公开测试版。   小部件在更多地方变

    2024年02月15日
    浏览(61)
  • Docker本地部署Drupal内容管理框架并实现公网远程访问

    Dupal是一个强大的CMS,适用于各种不同的网站项目,从小型个人博客到大型企业级门户网站。它的学习曲线可能相对较陡,但一旦熟悉了它的工作方式,用户就能够充分利用其功能和灵活性。在本文中,我们将介绍如何使用Docker快速部署Drupal,并且结合cpolar内网穿透工具实现公

    2024年02月05日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包