用一杯星巴克的钱,训练自己私有化的ChatGPT

这篇具有很好参考价值的文章主要介绍了用一杯星巴克的钱,训练自己私有化的ChatGPT。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

用一杯星巴克的钱,训练自己私有化的ChatGPT

文章摘要:用一杯星巴克的钱,自己动手2小时的时间,就可以拥有自己训练的开源大模型,并可以根据不同的训练数据方向加强各种不同的技能,医疗、编程、炒股、恋爱,让你的大模型更“懂”你…..来吧,一起尝试下开源DolphinScheduler加持训练的开源大模型!

导读

让人人都拥有自己的ChatGPT

ChatGPT的诞生无疑让我们为人工智能的未来充满期待,它以其精细的表达和强大的语言理解能力,震撼了全球。但是在使用ChatGPT的时候,因为它是SaaS,所以个人隐私泄露,企业数据安全问题是每一个人、每一个企业都担心的问题。而现在越来越多的开源大模型出现,让个人/企业拥有自己的大模型成为可能,但是,开源大模型上手、优化、使用要求门槛都比较高,很难让大家简单的使用起来。为此,我们借助Apache DolphinScheduler,一键式地支持了开源大模型训练、调优和部署,让大家可以在极低的成本和技术储备下,用自己的数据训练出专属于自己的大模型。当然,开源大模型的功力距离ChatGPT还有距离,但是经过测试我们看到7、8成的功力还是有的,而且这是可以根据你的场景和领域知识特殊训练过的,针对性更强。同时,我们坚信将来随着技术发展,开源大模型的能力会越来越强,让用户体验越来越好。来吧,我们准备开始。

面向人群——每一个屏幕面前的你

我们的目标是,不仅专业的AI工程师,更是任何对GPT有需求和兴趣的人,都能享受到拥有更“懂”自己的模型的乐趣。我们相信,每一个人都有权利和能力去塑造自己的AI助手,而Apache DolphinScheduler可见即所得的工作流程为此提供了可能。顺带介绍下Apache DolphinScheduler,这是一个Star超过1万个的大数据和AI的调度工具,它是Apache开源基金会旗下的顶级项目,这意味着你可以免费使用它,也可以直接修改代码而不用担心任何商业问题。

无论你是业界专家,寻求用专属于你的数据来训练模型,还是AI爱好者,想尝试理解并探索深度学习模型的训练,我们下面的这个工作流程都将为你提供便捷的服务。它为你解决了复杂的预处理、模型训练、优化等步骤,只需1-2个小时几个简单的操作,加上20小时的运行时间,就可以构建出更“懂”你的ChatGPT大模型:

https://weixin.qq.com/sph/AHo43o

那么,我们一起开启这个神奇的旅程吧!让我们把AI的未来带到每一个人的手中。

仅用三步,构造出更“懂”你的ChatGPT

  1. 用低成本租用一个拥有3090级别以上的GPU显卡
  2. 启动DolphinScheduler
  3. 在DolphinScheduler页面点击训练工作流和部署工作流,直接体验自己的ChatGPT吧

1. 准备一台3090显卡的主机

首先需要一个3090的显卡,如果你自己有台式机可以直接使用,如果没有,网上也有很多租用GPU的主机,这里我们以使用AutoDL为例来申请,打开 https://www.autodl.com/home,注册登录,后可以在算力市场选择对应的服务器,根据屏幕中的1,2,3步骤来申请:

用一杯星巴克的钱,训练自己私有化的ChatGPT

这里,建议选择性价比较高的RTX3090,经过测试支持1-2个人在线使用3090就可以了。如果想训练速度和响应速度更快,可以选择更强的显卡,训练一次大约需要20小时左右,使用测试大概2-3个小时,预算40元就可以搞定了。

镜像

点击社区镜像,然后在下面红框出输入 WhaleOps/dolphinscheduler-llm/dolphinscheduler-llm-0521 之后,即可选择镜像,如下如所示,目前只有V1版本的,后面随着版本更新,有最新可以选择最新

用一杯星巴克的钱,训练自己私有化的ChatGPT
如果需要多次训练模型,建议硬盘扩容一下,建议100G即可。

创建后,等待下图所示的进度条创建完成即可。
用一杯星巴克的钱,训练自己私有化的ChatGPT

2. 启动DolphinScheduler

为了可以在界面上部署调试自己的开源大模型,需要启动DolphinScheduler这个软件,我们要做以下配置工作:

进入服务器

进入服务器的方式有两种,可以按照自己的习惯进行:

通过JupyterLab页面登录(不懂代码的请进)

点击如下JupyterLab按钮

用一杯星巴克的钱,训练自己私有化的ChatGPT
页面跳转到JupyterLab,后可以点击这里的终端进入

用一杯星巴克的钱,训练自己私有化的ChatGPT
用一杯星巴克的钱,训练自己私有化的ChatGPT

通过终端登录(懂代码的请进)

我们可以从下图这个按钮获取SSH连接命令

用一杯星巴克的钱,训练自己私有化的ChatGPT
并通过终端链接

用一杯星巴克的钱,训练自己私有化的ChatGPT

导入DolphinScheduler的元数据

在DolphinScheduler中,所有的元数据都存储在数据库中,包括工作流的定义,环境配置,租户等信息。为了方便大家在使用时能够启动DolphinScheduler时候就能够看到这些工作流,我们可以直接导入已经做好的工作流定义数据,照屏幕copy进去。

修改导入MySQL的数据的脚本

通过终端如下命令,进入到以下目录

cd apache-dolphinscheduler-3.1.5-bin

敲击命令,vim import_ds_metadata.sh 打开 import_ds_metadata.sh 文件

文件内容如下

#!/bin/bash

# 设置变量
# 主机名
HOST="xxx.xxx.xxx.x"
# 用户名
USERNAME="root"
# 密码
PASSWORD="xxxx"
# 端口
PORT=3306
# 导入到的数据库名
DATABASE="ds315_llm_test"
# SQL 文件名
SQL_FILE="ds315_llm.sql"

mysql -h $HOST -P $PORT -u $USERNAME -p$PASSWORD -e "CREATE DATABASE $DATABASE;"

mysql -h $HOST -P $PORT -u $USERNAME -p$PASSWORD $DATABASE < $SQL_FILE

把 xxx.xxx.xxx.x 和 xxxx 修改成你公网上一个mysql的一个数据库的数据(可以自己在阿里云、腾讯云申请或者自己安装一个),然后执行

bash import_ds_metadata.sh

执行后,如果有兴趣可在数据库中看到相应的元数据(可连接mysql查看,不懂代码的略过)。

用一杯星巴克的钱,训练自己私有化的ChatGPT

启动DolphinScheduler

在服务器命令行里,打开下面的文件,修改配置到DolphinScheduler连接刚才的数据库

/root/apache-dolphinscheduler-3.1.5-bin/bin/env/dolphinscheduler_env.sh

修改数据库部分的相关配置,其他部分不用修改,把’HOST’和’PASSWORD’的值改为刚才导入的数据库的相关配置值 xxx.xxx.xxx.x 和 xxxx:

......
export DATABASE=mysql
export SPRING_PROFILES_ACTIVE=${DATABASE}
export SPRING_DATASOURCE_URL="jdbc:mysql://HOST:3306/ds315_llm_test?useUnicode=true&characterEncoding=UTF-8&useSSL=false"
export SPRING_DATASOURCE_USERNAME="root"
export SPRING_DATASOURCE_PASSWORD="xxxxxx"
......

配置完成后执行(也在这个目录下 /root/apache-dolphinscheduler-3.1.5-bin )

bash ./bin/dolphinscheduler-daemon.sh start standalone-server

执行完成后,我们可以通过 tail -200f standalone-server/logs/dolphinscheduler-standalone.log 查看日志,这时候,DolphinScheduler就正式启动了!

启动服务后,我们可以在AutoDL控制台中点击自定义服务(红框部分)会跳转到一个网址:

用一杯星巴克的钱,训练自己私有化的ChatGPT
打开网址后发现是404,别着急,我们补充一下url的后缀 /dolphinscheduler/ui 即可

用一杯星巴克的钱,训练自己私有化的ChatGPT

AutoDL模块开放一个6006的端口,我们将DolphinScheduler的端口配置成6006之后,可以通过上面的入口进入,但是因为跳转的url补全,所以404,因此我们补全URL即可

登录用户名密码

用户名: admin

密码: dolphinscheduler123

登录后点击 项目管理,即可看到我们预置的项目 vicuna,再次点击 vicuna后,我们即可进入该项目。

用一杯星巴克的钱,训练自己私有化的ChatGPT

3. 开源大模型训练与部署

工作流定义

进入vicuna项目后,点击工作流定义,我们可以看到三个工作流,Training,Deploy,Kill_Service,下面解释下这几个功能的用途和内部选择大模型和训练你自己的数据的配置:

用一杯星巴克的钱,训练自己私有化的ChatGPT

我们可以点击下面的运行按钮运行对应的工作流

用一杯星巴克的钱,训练自己私有化的ChatGPT

Training

点击后可以看到工作流的定义,包含两个,一个是通过lora finetune模型,一个是将训练出来的模型与基础模型进行合并,得到最终的模型。

具体的任务定义,可以双击对应的图标查看。

用一杯星巴克的钱,训练自己私有化的ChatGPT
该工作流具有以下参数(点击运行后弹出)

  • base_model: 基础模型,根据个人情况选择自行下载,注意开源大模型仅为学习和体验用途,目前默认为 TheBloke/vicuna-7B-1.1-HF
  • data_path: 你要训练的个性化数据和领域数据的路径,默认为 /root/demo-data/llama_data.json
  • lora_path: 训练出来的lora权重的保持路径 /root/autodl-tmp/vicuna-7b-lora-weight
  • output_path: 将基础模型和lora权重合并之后,最终模型的保存路径,记下来部署的时候需要用到
  • num_epochs: 训练参数,训练的轮次,可以设为1用于测试,一般设为3~10即可
  • cutoff_len: 文本最大长度,默认1024
  • micro_batch_size: batch_size

用一杯星巴克的钱,训练自己私有化的ChatGPT

Deploy

部署大模型的工作流,会先引用kill_service杀死已经部署的模型,在依次启动 controller,然后添加模型,然后打开gradio网页服务。

用一杯星巴克的钱,训练自己私有化的ChatGPT
启动参数如下

用一杯星巴克的钱,训练自己私有化的ChatGPT

  • model: 模型路径,可以为huggingface的模型id,也可以为我们训练出来的模型地址,即上面training工作流的output_path。默认为TheBloke/vicuna-7B-1.1-HF 使用默认,将直接部署vicuna-7b的模型

Kill_service

这个工作流用于杀死已经部署的模型,释放显存,这个工作流没有参数,直接运行即可。

如果一些情况下,我们要停掉正在部署的服务(如要重新训练模型,显存不够时)我们可以直接执行kill_service工作流,杀死正在部署的服务。

看过经过几个实例,你的部署就完成了,下面我们实操一下:

大模型操作实例演示

训练大模型

启动工作流

可以直接执行training的工作流,选择默认参数即可

启动后,可以点击下图红框部分工作流实例,然后点击对应的工作流实例查看任务执行情况

用一杯星巴克的钱,训练自己私有化的ChatGPT
右键对应的任务,可以查看对应的日志,如下

用一杯星巴克的钱,训练自己私有化的ChatGPT
也可以在左边栏最下面的任务实例栏中,查看对应的任务状态和日志等信息

在训练过程中,也可以通过查看日志查看具体训练的进度(包括当前的训练步数,loss指标,剩余时间等),有个进度条一直显示目前在第几个step,step = 数据量 * epoch / batchsize

用一杯星巴克的钱,训练自己私有化的ChatGPT
训练完成后日志如下

用一杯星巴克的钱,训练自己私有化的ChatGPT
用一杯星巴克的钱,训练自己私有化的ChatGPT
更新自己个性化训练数据

我们默认的数据是在 /root/demo-data/llama_data.json ,当前数据来源于下面华佗,一个使用中文医学数据finetune的医学模型,对,我们样例是训练一个家庭医生出来:

用一杯星巴克的钱,训练自己私有化的ChatGPT
如果自己有特定领域的数据,可以指向自己的数据,数据格式如下

一行一个json,字段含义为

  • instruction ****: 指令,为给模型指令
  • input : 输入
  • output : 期望模型的输出

如以下

{"instruction": "计算算数题", "input": "1+1等于几", "output": "2"}

温馨提示,可以将 instructioninput 合并为 instruction , input为空也可以。

按照格式制作数据,训练时修改data_path 参数执行自己的数据即可。

注意事项

第一次执行训练,会从你指定的位置拉取基础模型,例如TheBloke/vicuna-7B-1.1-HF ,会有下载的过程,稍等下载完成即可,这个模型下载是由用户指定的,你也可以任选下载其他的开源大模型(注意使用时遵守开源大模型的相关协议)。

因为网络问题,第一次执行Training的时候,有可能会下载基础模型到一半失败,这个时候可以点击重跑失败任务,即可重新继续训练,操作如下所示
用一杯星巴克的钱,训练自己私有化的ChatGPT

如果要停止训练,可以点击停止按钮停止训练,会释放训练占用的显卡显存

用一杯星巴克的钱,训练自己私有化的ChatGPT

部署工作流

在工作流定义页面,点击运行deploy工作流,如下如所示即可部署模型

用一杯星巴克的钱,训练自己私有化的ChatGPT
如果自己没有训练出来的模型的话,也可以执行默认参数 TheBloke/vicuna-7B-1.1-HF,部署vicuna-7b的模型,如下图所示:

用一杯星巴克的钱,训练自己私有化的ChatGPT
如果在上一步我们进行了模型训练,我们可以部署我们的模型了,部署之后就可以体验我们自己的大模型了,启动参数如下,填入上一步的模型的output_path即可

用一杯星巴克的钱,训练自己私有化的ChatGPT
下面我们进入部署的工作流实例,如下图所示,先点击工作流实例,然后点击deploy前缀的工作流实例即可

用一杯星巴克的钱,训练自己私有化的ChatGPT
右键点击refresh_gradio_web_service后可以查看任务日志,找到我们大模型链接的位置,操作如下

用一杯星巴克的钱,训练自己私有化的ChatGPT
在日志的最后,我们可以看到一个链接,可以公网访问,如下

用一杯星巴克的钱,训练自己私有化的ChatGPT
这里有两个链接,一个是0.0.0.0:7860 因为AutoDL只开放了6006端口,并且已经用于dolphinscheduler,所以我们暂时无法访问该接口,我们可以直接访问下面的链接

[https://81c9f6ce11eb3c37a4.gradio.live](https://81c9f6ce11eb3c37a4.gradio.live) 这个链接每次部署都会不一样,因此需要从日志找重新找链接。

进入后,即可看到我们的对话页面

用一杯星巴克的钱,训练自己私有化的ChatGPT
用一杯星巴克的钱,训练自己私有化的ChatGPT
对!就这样你就拥有了你自己的ChatGPT了!而且它的数据仅服务于你自己!而且!你只花了不到一杯咖啡的钱哦~~

体验一下,你自己的私有化ChatGPT吧!

总结

在这个以数据和技术驱动的世界中,拥有一个专属的ChatGPT模型具有无法估量的价值。随着人工智能和深度学习的日益发展,我们正处在一个可塑造个性化AI助手的时代。而训练和部署属于自己的ChatGPT模型,可以帮助我们更好地理解AI,以及它如何改变我们的世界。

总的来说,自训练和部署ChatGPT模型可以帮助你更好地保护数据安全和隐私、满足特定的业务需求、节约技术成本,同时通过工作流工具如DolphinScheduler使训练过程自动化,并更好地遵守当地的法律法规。这都使得自训练和部署ChatGPT模型成为一个值得考虑的选择。

附注意事项:

数据安全与隐私

当你使用公共API服务使用ChatGPT时,你可能会对数据的安全性和隐私有所顾虑。这是一个合理的担忧,因为你的数据可能会在网络中被传播。通过自己训练和部署模型,你可以确保你的数据仅在你自己的设备或你租用的服务器上存储和处理,保障数据安全与隐私。

特定领域知识

对于具有特定业务需求的组织或个人来说,通过训练自己的ChatGPT模型,可以确保模型具有与业务相关的最新和最相关的知识。无论你的业务领域是什么,一个专门针对你的业务需求训练的模型都会比通用模型更有价值。

投入成本

使用OpenAI的ChatGPT模型可能会带来一定的费用,同时如果要自己训练和部署模型,也需要投入一定的资源和技术成本,40元就可以体验调试大模型,如果长期运行建议自己采购3090显卡,或者年租云端服务器。因此,你需要根据自己的具体情况,权衡利弊,选择最适合自己的方案。

DolphinScheduler

通过使用Apache DolphinScheduler的工作流,你可以使整个训练过程自动化,大大降低了技术门槛。即使你不具备深厚的算法知识,也可以依靠这样的工具,顺利地训练出自己的模型。支持大模型训练的同时,它也支持大数据调度、机器学习的调度,帮助你和你的企业非技术背景的员工简单上手的做好大数据处理、数据准备、模型训练和模型部署,而且,它是开源且免费的。

开源大模型法律法规约束

DolphinScheduler只是可视化AI工作流,本身不提供任何开源大模型。用户在使用下载开源大模型时,你需要注意自行选择不同的开源大模型使用约束条件,本文中的开源大模型所举的例子仅供个人学习体验使用,使用大模型时需要注意遵守开源大模型开源协议合规性。同时,不同国家都不同严格的数据存储和处理规定,在使用大模型时,你必须对模型进行定制和调整,以适应你所在地的具体法律法规和政策。这可能包括对模型输出的内容进行特定的过滤等,以满足当地的隐私和敏感信息处理规定。

本文由 白鲸开源 提供发布支持!文章来源地址https://www.toymoban.com/news/detail-464395.html

到了这里,关于用一杯星巴克的钱,训练自己私有化的ChatGPT的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python】极简部署私有化ChatGPT-Web,使用Flask框架编写网页版ChatGPT

    python环境下可极简配置 windows、linux、mac os均可部署 支持多用户使用 多对话管理 公式显示 流式逐字加载显示 代码高亮 仓库链接地址:https://github.com/LiangYang666/ChatGPT-Web,用的好麻烦给个star啦 可参照README 执行 python flask_main.py 运行程序.若程序中未指定apikey也可以在终端执行时

    2024年02月01日
    浏览(72)
  • 【码银送书第六期】《ChatGPT原理与实战:大型语言模型的算法、技术和私有化》

    2022年11月30日,ChatGPT模型问世后,立刻在全球范围内掀起了轩然大波。无论AI从业者还是非从业者,都在热议ChatGPT极具冲击力的交互体验和惊人的生成内容。这使得广大群众重新认识到人工智能的潜力和价值。对于AI从业者来说,ChatGPT模型成为一种思路的扩充,大模型不再是

    2024年02月09日
    浏览(76)
  • 从零开始,三分钟内用Python快速自建一个私有化 ChatGpt 聊天机器人网站

    用 Python 构建由 gpt-3.5-turbo API 支持的聊天机器人网站 自2023年3月1日发布“ChatGPT API”以来,已经开发出了数千个基于该API的应用程序,为企业和个人开启了新的可能性时代。借助GPT-3.5的自然语言处理能力,用户可以创建能够无缝与人交互的聊天机器人,以回答问题、创作小说

    2023年04月14日
    浏览(54)
  • 使用 Verdaccio 私有化 npm 源指南

    使用 Verdaccio 私有化 npm 源指南 介绍 什么是 Verdaccio 为什么选择 Verdaccio 部署 Verdaccio Nodejs 部署 全局 局部 Docker 部署 云服务商一键部署 注册用户 发布私有 npm 包 管理 npm 包 项目使用私有源 全量切换 部分切换 结尾 源代码链接 在日常的工作开发中,我们常常会遇到这样的场景

    2024年04月15日
    浏览(47)
  • 企业微信私有化的价值与实践

    随着信息技术的飞速发展,企业微信作为一种高效、便捷的通讯工具,已经成为了众多企业的首选。然而,对于一些大型企业或者对信息安全有特殊需求的企业来说,使用公有云的企业微信已经无法满足其需求,此时,企业微信的私有化就成为了更好的选择。 一、企业微信私

    2024年01月21日
    浏览(43)
  • Sealos 云操作系统私有化部署教程

    Sealos 私有云已经正式发布了,它为企业用云提供了一种革命性的新方案。Sealos 的核心优势在于,它允许企业 在自己的机房中一键构建一个功能与 Sealos 公有云完全相同的私有云 。这意味着企业可以在自己的控制和安全范围内,享受到公有云所提供的灵活性和扩展性。这对于

    2024年02月05日
    浏览(71)
  • Docker详解(十六)——Docker私有化仓库创建

    今天继续给大家介绍Linux运维相关知识,本文主要内容是Docker的私有化仓库创建。 对于一些有能力的企业来说,有时希望能够创建一个私有化的Docker仓库,这样一来可以将自己定制的系统发布到自己的仓库里,在保证安全的前提下使用;二来可以节省网络带宽,可以使得Doc

    2023年04月09日
    浏览(46)
  • 可私有化部署的车牌识别API接口

    车牌OCR识别 的出现为企业提供了一种高效、准确的车牌识别和信息提取解决方案。通过图像预处理、区域定位、字符分割和字符识别等步骤,将获取的车牌图片或视频中的车牌信息瞬时输出,可提供车牌识别API接口做二次开发,该 API 能够自动识别车牌中的段信息,并

    2024年02月11日
    浏览(60)
  • 安装Joplin Server私有化部署(docker)

    前言: 老规矩官方文档链接 1. 首先拥有一个自己的云服务器(如果没有外网访问需求的话就随意吧) 安装docker安装方式 这里Joplin是使用PostgreSQL数据库的形式, 如果没有PostgreSQL库的话, Joplin默认使用的是SQLLite数据库 我这里使用的是docker-compose部署用的是官网的demo.yml所以就直接也

    2024年02月21日
    浏览(63)
  • 私有化部署大模型:5个.Net开源项目

    从零构建.Net前后端分离项目 今天一起盘点下,10月份推荐的5个.Net开源项目(点击标题查看详情)。 1、BootstrapBlazor企业级组件库:前端开发的革新之路 BootstrapBlazor是一个用于构建现代Web应用程序的开源框架,它基于Blazor框架,采用Bootstrap的UI样式。Blazor框架允许使用C#代替

    2024年02月05日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包