使用您自己的计算机训练 Stable Diffusion 和 Bloom (175B) 等模型

这篇具有很好参考价值的文章主要介绍了使用您自己的计算机训练 Stable Diffusion 和 Bloom (175B) 等模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在我们最近的几篇文章中,我们一直在提到围绕大型语言和生成 AI 模型的炒作,以及如何减少推理和训练时间。随着我们的用户开始使用这些模型并对其进行微调,他们自然希望微调和部署包含数千亿参数的模型,以提高其特定用例的性能。

通常,这是一项要求非常高的任务,需要大量计算和 40GB 检查点的存储。这在普通计算机硬件上是不可行的。除了所需的电力和存储之外,这种性质的微调模型需要很长时间才能运行,而且本质上非常昂贵——直到现在。

介绍Huggingface的PEFT库,该库支持LoRA、Prefix Tuning等Parameter Efficient Fine-tuning方法,无需对所有模型参数进行微调,即可使预训练语言模型高效适配各种下游应用。这些不同的技术实现了与完全微调相当的性能。

PEFT方法

自然语言处理的一个重要范例包括对一般领域数据的大规模预训练和对特定任务或领域的适应。在进行微调时,我们会更新目标任务的整套模型参数。虽然微调获得了良好的性能,但它在训练过程中会消耗内存,因为必须存储所有参数的梯度和优化器状态。此外,在推理期间为每个任务保留模型参数的副本是不方便的,因为预训练模型通常很大。

目前 PEFT 库支持 4 种方法,LoRA、Prefix Tuning、P-Tuning和Prompt Tuning。尽管这些方法有细微差别,但它们都围绕着相似的范例展开。他们冻结预训练的模型权重,只更新参数权重的一个子集。以前,现有技术通常通过扩展模型深度或减少模型可用序列长度来引入延迟。因此,这些方法以前无法匹配微调基线,从而在效率和模型质量之间进行权衡。

例如,使用LoRA,它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每一层,大大文章来源地址https://www.toymoban.com/news/detail-793115.html

到了这里,关于使用您自己的计算机训练 Stable Diffusion 和 Bloom (175B) 等模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Kears-4-深度学习用于计算机视觉-使用预训练的卷积网络

    本篇学习记录主要包括:《Python深度学习》的第5章(深度学习用于计算机视觉)的第3节(使用预训练的卷积神经网络)内容。 相关知识点: 预训练模型的复用方法; 预训练网络 (pretrained network) 是一个保存好的网络,之前已经在大型数据集上完成训练。理论上数据集足够大

    2024年02月11日
    浏览(33)
  • 【Stable diffusion inpaiting】训练自己数据集

    https://github.com/advimman/lama/tree/7dee0e4a3cf5f73f86a820674bf471454f52b74f https://github.com/advimman/lama/blob/main/bin/gen_mask_dataset.py 如果图像不是正方形,使用crop或者transform变换 配置文件修改 解释 运行配置文件 https://github.com/lorenzo-stacchio/Stable-Diffusion-Inpaint/blob/main/scripts/generate_llama_mask/README.m

    2024年02月02日
    浏览(26)
  • Azure 机器学习 - 使用自动化机器学习训练计算机视觉模型的数据架构

    了解如何设置Azure Machine Learning JSONL 文件格式,以便在训练和推理期间在计算机视觉任务的自动化 ML 实验中使用数据。 关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的

    2024年02月05日
    浏览(35)
  • 训练自己的个性化Stable diffusion模型,LORA

    需要训练自己的LORA模型 1、有sd-webui有训练插件功能 2、有单独的LORA训练开源web界面 两个开源训练界面 1、秋叶写的SD-Trainer https://github.com/Akegarasu/lora-scripts/  没成功,主要也是cudnn和nvidia-smi中的CUDA版本不一致退出 2、 Kohya\\\'s GUI GitHub - bmaltais/kohya_ss    成功了 遇到问题1, cudn

    2024年02月04日
    浏览(40)
  • 如何基于stable diffusion训练出自己的模型,给出详细的python代码

    首先,基于 stable diffusion 训练自己的模型需要了解 stable diffusion 的原理和基本操作。 Stable diffusion 是一种基于最小化相对熵的机器学习方法,旨在解决在机器学习中常见的过拟合问题。它通过在模型训练过程中引入一个惩罚项来限制模型的复杂度,从而使模型更稳定。 下面是

    2024年02月11日
    浏览(33)
  • stable-diffusion-webui怎么样增加自己训练的LoRA模型?

    不怕笑话,我曾经为了找这个功能,居然搞了半天时间,结果还没有搞定。 后来再不断地研究各种教程,就是没有发现这个功能,无意间发现有一个人贴了一张图片, 他只是介绍放到这个目录,他没有告诉我这个目录怎么样来的,因为我在同样的位置上没有这个目录。 这样

    2024年04月14日
    浏览(43)
  • 由浅入深理解Latent Diffusion/Stable Diffusion(5):利用预训练模型快速开始自己的科研任务

    本系列博客导航 由浅入深理解latent diffusion/stable diffusion(1):写给初学者的图像生成入门课 由浅入深理解latent diffusion/stable diffusion(2):扩散生成模型的工作原理 由浅入深理解latent diffusion/stable diffusion(3):一步一步搭建自己的stable diffusion models

    2024年02月12日
    浏览(36)
  • 计算机导论学习综合训练及其答案

    第1题 智能计算机的组成有:知识库、( )、智能接口系统、应用系统。 存储器 运算器 问题求解和推理机 (答案) 控制器 第2题 从自然界得到启发,模仿其结构和工作原理所设计的问题求解算法,如遗传算法、粒子群算法、蚁群算法等是( )的应用。 云计算 生物计算 智能

    2023年04月24日
    浏览(23)
  • 【计算机视觉】对比学习综述(自己的一些理解)

    对比loss 对比学习的 loss(InfoNCE)即以最 大化互信息为目标推导而来。其核心是通过计算样本表示间的距离,拉近正样本, 拉远负样本,因而训练得到的模型能够区分正负例。 具体做法为:对一个 batch 输入的图片,随机用不同的数据增强方法生成两个 view,对他们用相同的

    2024年02月12日
    浏览(34)
  • 计算机视觉基础知识(十三)--推理和训练

    Supervisied Learning 输入的数据为训练数据; 模型在训练过程中进行预期判断; 判断错误的话进行修正; 直到模型判断预期达到要求的精确性; 关键方法为分类和回归 逻辑回归(Logistic Regression) BP神经网络(Back Propagation Neural Network) Unsupervisied Learning 没有训练数据; 模型基于无标记数据

    2024年02月22日
    浏览(124)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包