配置LLM运行环境时遇到的坑

这篇具有很好参考价值的文章主要介绍了配置LLM运行环境时遇到的坑。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. bitsandbytes 遇到CUDA Setup failed despite GPU being available.

使用conda 管理环境时加载大模型会遇到bitsandbytes无法识别cuda的情况:
此处windows系统:

pip install bitsandbytes-windows

linux 系统:
将bitsandbytes版本降低至0.39.0

pip install bitsandbytes==0.39.0

2. 在安装deepspeed库时报错, can not find CUDA_HOME,

由于使用conda 管理环境时安装pytorch会安装一系列cuda基础包,体现为对应环境的/anaconda/env/xxx/lib/libcudart11…so。但是deepspeed不识别这部分,需要重新安装nvidia-cudatookkit才行,具体的版本号需要和你的虚拟环境使用的相同,例如都应该为cuda113.
例如cuda113:

wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run
sudo sh cuda_11.3.1_465.19.01_linux.run

进入界面后安装时只选择粗大toolkit, 不安装驱动等其它包
然后设置CUDA_HOME变量

export CUDA_HOME=/usr/loca/cuda-xxx

或者直接写入你的bash文件里面也可以
然后再次安装deepspeed还是会报错,错误信息大概是 “file does not belong to current user”,因为上述方法安装cuda是在root权限下安装,但是我们在自己的机器上跑大多用非root账号。此时可以将该部分cuda文件的权限更改掉,

sudo chown xxxx /usr/loca/cuda-xxx -R

这样就可以正常安装了

3. UserWarning: CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES

猜测是安装了上述两个cudatoolkit导致的问题,之前是没有的
可以通过如下方法解决

sudo apt-add-repository multiverse
sudo apt update
 sudo apt install nvidia-modprobe 

4. Error no file named pytorch_model.bin, tf_model.h5, model.ckpt

开始加载大模型时找不到模型权重
我试的qwen,安装他使用的保存权重的库就可以文章来源地址https://www.toymoban.com/news/detail-736894.html

pip install safetensors

到了这里,关于配置LLM运行环境时遇到的坑的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包