【GitHub】VQGAN+CLIP代码从零开始复现

这篇具有很好参考价值的文章主要介绍了【GitHub】VQGAN+CLIP代码从零开始复现。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

论文地址

GitHub地址

论文讲解

从开放领域的文本提示中生成和编辑图像是一项具有挑战性的任务，到目前为止，需要昂贵的和经过专门训练的模型。我们为这两项任务展示了一种新的方法，它能够通过使用多模态编码器来指导图像的生成，从具有显著语义复杂性的文本提示中产生高视觉质量的图像，而无需任何训练。我们在各种任务上证明了使用CLIP来指导VQGAN产生的视觉质量比之前不太灵活的方法如minDALL-E、GLIDE和Open-Edit更高。

【GitHub】VQGAN+CLIP代码从零开始复现

代码复现

1.创建conda环境并激活进入

conda create --name vqgan python=3.9
conda activate vqgan

2.安装pytorch

两种方法：

（1）通过镜像下载

添加中科大镜像源：

conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
 
conda config --set show_channel_urls yes

添加镜像之后，直接利用中科大源进行pip下载：

pip3 install torch torchvision torchaudio -i https://pypi.mirrors.ustc.edu.cn/simple/

（2）vpn下载

挂上vpn后直接运行：

注意：我使用的是3090显卡，所以cuda版本要求11.3以上（建议是11.6）

conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge

3.安装环境依赖

这里默认会下载一次最新的torch（目前是1.12.1），如果上一步安装的不是1.12.1可能会再下载一次torch

pip install ftfy regex tqdm omegaconf pytorch-lightning IPython kornia imageio imageio-ffmpeg einops torch_optimizer setuptools==59.5.0

4.在git上克隆VQGAN-CLIP，cd到VQGAN-CLIP文件夹下再克隆CLIP和VQGAN

git clone 'https://github.com/nerdyrodent/VQGAN-CLIP'
cd VQGAN-CLIP
git clone 'https://github.com/openai/CLIP'
git clone 'https://github.com/CompVis/taming-transformers'

5.运行download_models.sh脚本文件下载基于imagnet的VQGAN预训练模型

（1）先给download_models.sh脚本添加权限：

chmod u+x download_models.sh

（2）运行download_models.sh，下载预训练模型

./download_models.sh

6.运行generate.py文章来源地址https://www.toymoban.com/news/detail-411497.html

python generate.py -p "A painting of an apple in a fruit bowl"

到了这里，关于【GitHub】VQGAN+CLIP代码从零开始复现的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

【GitHub】VQGAN+CLIP代码从零开始复现

代码复现

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2