如何高度优化适用于企业的AI (二) 数据准备

这篇具有很好参考价值的文章主要介绍了如何高度优化适用于企业的AI (二) 数据准备。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

我们先从快速浏览整个过程

  1. 首先, 我们需要数据, 要尽可能使用CSV/Json格式, 基于这些信息, 我们要让AI获取所有所需要的信息来正确的完成它的工作
  2. 准备数据, 微调过程需要很长的书剑才能运行, 我们肯定是不希望出现错误的, 所以我们使用OpenAI的数据准备工具(CLI tool)来处理我们的数据, 让格式正确, 这样就不会被拒绝
  3. 上传数据, 告诉OpenAI来制作我们的微调模型, 同样的, 我们同样使用CLI tool来执行此操作, 启动是很快的, 但这可能需要很长时间来处理请求
  4. 当上面这个过程结束的时候, 我们会有自己特殊的端点, 然后我们可以使用我们新训练的模型来进行对话了

以上就是这整个过程的工作原理, 下面让我们一步一步的开始操作

1.Get Data

我们需要一些数据来微调我们的模型, 那第一个问题来了: 微调模型需要多少数据?
OpenAI给出了我们建议:

原文: You should provide at least a fewhundred high-quality examples,ideally vetted by human experts.
翻译: 你应该提供至少几百个高质量的例子, 最好由人类专家审查

更重要是, OpenAI说:

原文: Increasing the number of examples isusually the best and most reliable wayofimproving performance.
翻译: 增加示例数量, 通常是提高性能最好最可靠的方法

所以, 以上是微调模型的原则, 这是绝对要记住的
那有了数据量, 我们再来谈谈数据格式
下面是OpenAI官方给出的要求, 希望数据为 Json-L格式, 并给我们一个示例
image.png
Json-L是每行都用Json格式化的数据, 每行都必须是有效的Json, 而且每行都必须以换行符结尾
当然, 你如果不会写也不要紧, 我们会使用一种特殊的工具来创建它
现在让我们来使用更简单的CSV或逗号分隔值数据, 然后让OpenAI tool来完成繁重的工作
OpenAI对于我们的数据给了一些进一步的标准

原文: Each prompt should end with a separator to showwhere the prompt ends and the completion begins.
翻译: 每个提示都已分隔符结尾来显示提示结束位置和完成的开始位置
原文: Each completion should start with a whitespace
翻译: 每个完成都应该以空白开始
原文: Each completion should end with a stop sequence toinform the model where the completion ends.
翻译: 每个完成都应该以一个停止序列结束,以告知模型完成的终点

stop sequence是什么我们暂时还不需要, 等我们后面到项目用的时候再来讨论它
坏消息是: 官方并没有告诉我们到底想要什么, 甚至是什么是停止序列, 什么样的分隔符, 甚至连个例子都没有
好消息是: 它提供了工具, ↓
image.png
看一下这次训练我准备的数据
image.png
prompt里给的是关键词, completion里给的是回复, 每个数据都是来自于真实的数据
当然, 你也可以不必局限于这个格式, 你也可以直接在下面写一段总结式的内容, 直接作为 prompt
理想情况下, 我们需要更多的数据来训练, 但这里, 我们用这部分数据来尝试微调的工作原理
下面我们开始进行数据处理前的准备
我们将会使用终端来进行数据处理, 使用的python3 以及pip(自己安装)
升级pip到最新版 python3 -m ensurepip --upgrade
安装OpenAI工具 pip install --upgrade openai
image.png
这里要特别说明一下, 我们创建的微调模型是只有我们自己才能使用的, 所以, OpenAI工具需要我们的API秘钥
你可以使用export OPENAI_API_KEY="sk-vXXXXXXXXXXXXXXXXXXXXXXXXXXX4QbUMjo"这个命令添加openAI秘钥

PS: windows系统是不认export指令的
所以到这里我们就开始使用CentOS系统了, 上面的操作都在CentOS系统上执行一遍

image.png
到这个命令为止, 系统并不会返回我们执行的结果, 说明已经成功接受了我们的秘钥

2.Prep Data

截止到当前操作, 我们已经成功安装OpenAI CLI并指定上了我们的秘钥
下面我们开始用它来准备我们的数据
现在, 我已经将准备好的数据放到了服务器上
image.png
然后让我们进入到这个文件夹下, 并执行
openai tools fine_tunes.prepare_data -f XXXX.csv
这个命令就是来告诉OpenAI使用微调工具来准备我们的数据, -f标识将识别数据文件
这里我们遇到了一个问题
我们的终端一直在报: openai: 未找到命令
查阅了一些资料后发现, 可能是由于在使用OpenAI CLI命令时尚未激活虚拟环境(Virtual Environment)所致
所以我们再来创建一个虚拟环境

python3 -m venv myenv
source myenv/bin/activate
pip install openai
openai --version

image.png
可以看到, 现在确实能够使用OpenAI CLI了
继续重复上面的命令, 我们又遇到了新的问题
image.png
OK, 继续安装pandas

pip install openai pandas

image.png
pandas安装成功, 我们再来试一下
image.png

image.png
然后下面的, 都选y就可以了
image.png

然后就得到了OpenAI CLI给处理好的Jsonl文件

现在我们已经准备好我们的数据了, 下面就开始进行模型微调~

关注一下, 持续更新~
如何高度优化适用于企业的AI (二) 数据准备文章来源地址https://www.toymoban.com/news/detail-502587.html

到了这里,关于如何高度优化适用于企业的AI (二) 数据准备的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 从“手写病例”到“AI家庭医生”,人工智能大数据如何走进我们的生活?

    编 辑:老彭 来 源:大数据架构师 彭友们好,我是老彭。最近“X疾病”肆虐,彭友们要小心啊,一定要保重身体。老彭去年就老去医院,不知道是不是“X疾病”闹的 。 上周末我特意找国家卫健委沈剑峰沈博士请教,顺便叙叙旧,他给我们讲了很多很有意思的医学新进展。

    2024年04月09日
    浏览(110)
  • 企业为什么要做自动化测试?我们该如何学习自动化测试?

    作为一名大厂测试开发,编写自动化脚本,俨然成为一种必备的技能。 为什么要做自动化测试? 那企业或者是我们测试人员为什么要做自动化测试呢? 如果在前两年,可能10个测试员有6个都是做的功能测试,但随着测试技术的发展以及测试工作的深入,传统的手工测试已经

    2024年02月10日
    浏览(40)
  • 从 AI 增强到大模型,企业使用数据的方式又将如何变化?

    AI(Artificial Intelligence,人工智能)的发展不过百年,却已经深刻影响着人们的思维和见解,并逐渐关联到每个人生活和工作的方方面面。从最初的规则引擎和引入统计学方法,到基于知识表示和推理机制的专家系统,再到神经网络的提出助推大数据背景下深度学习和复杂 A

    2024年02月12日
    浏览(42)
  • AI写作的困惑与挑战:我们如何应对?

    大家好,小发猫降重今天来聊聊AI写作的困惑与挑战:我们如何应对?,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: AI写作的困惑与挑战:我们如何应对? 随着AI技术的飞速发展,AI写作助手正在逐渐改变我

    2024年04月16日
    浏览(28)
  • 数据之美:如何用数据可视化优化我们的日常生活?

    在这个信息爆炸的时代,我们周围充斥着各种数据,而数据可视化正是一种强大的工具,帮助我们更好地理解和利用这些信息。那么,如何将数据可视化应用在我们的日常生活中呢?让我们一起探索这个引人入胜的话题。 首先,让我们简单了解一下数据可视化的概念。数据可

    2024年02月02日
    浏览(47)
  • 准备我们心爱的IDEA写Jsp

    JSP学习 new一个项目:New Project -- Next --Next --Finsh 1. 在WEB-INF下创建一个Lib包 将jsp-api.jar复制进去,并使其生效 未生效前: 生效过程: 2. 用锤子配置汤姆猫TomCat 点击+ 号 选择本地的汤姆猫 在Deployment中的 + 号 选择Artifat 将多余的名称删去,为了方便找到 1. 在web包下创建以.jsp为

    2024年02月07日
    浏览(27)
  • AI工程师在崛起,我们如何做到快速转型

    W...Y的主页 😊  代码仓库分享💕 前言:针对目前AI快速发展,越来越多的程序员遭到裁员的风险,AI终将取代程序员的事情好像可以板上钉钉,程序员的行业已经开始走向下坡路,我们的内心不免有一些慌乱,但是AI程序员却在悄悄崛起,并且在不断的推进,我们应该怎么办

    2024年02月05日
    浏览(37)
  • 人工智能 AI 如何让我们的生活更加便利

    每个人都可以从新技术中获益,一想到工作或生活更为便利、简捷且拥有更多空余时间,谁会不为之高兴呢?借助人工智能,每天能够多一些空余时间,或丰富自己的业余生活,为培养日常兴趣爱好增添一点便利。从电子阅读器到智能家居,再到植物识别应用和智能室内花园

    2024年01月18日
    浏览(55)
  • 如何把Ai绘画工具放到我们的App中

    Scribble Diffusion 是一个简单的在线服务,它使用 AI 将粗略的草图转换为精致的图像,每一张图像都是不同的(而且没有版权困扰)。简单来说,我们只需要「用画笔描绘一张草图,在输入描述后稍等片刻」,随后就会为你生成一幅画。这幅画可以多次生成,每次生成的结果也

    2024年02月11日
    浏览(30)
  • AI时代已来,我们该如何培养创造力

    chatGPT 已经出来很久了,说实话,22年底的时候还没怎么在意,而且当时注册账号因为种种原因,弄国外手机验证码老费劲了。 直到最近一段时间,真的是被这玩意儿刷屏了,尤其是 GPT-4 的问世。所以买了账号体验了一段时间了,是真强,也是真香。还记得当时看 GPT-4 演示的

    2024年02月03日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包