国外团队从GPT3.5提取大规模数据完成本地机器人训练,并开源项目源码和模型支持,普通在笔记上运行chatgpt。下面是他们分享的:收集到的数据、数据管理程序、训练代码和最终模型,以促进开放研究和可重复性。
1、数据收集和管理
在 2023 年 3 月 20 日至 2023 年 3 月 26 日期间,该团队使用 GPT-3.5-Turbo OpenAI API 收集了大约 100 万个提示-响应对。为此,我们首先通过利用三个公开可用的数据集收集了不同的问题提示样本:
• The unified chip2 subset of LAION OIG.
• Coding questions with a random sub-sample of Stackoverflow Questions(用 Stackoverflow 问题的随机子样本来编码问
题)
• Instruction-tuning with a sub-sample of Bigscience/P3(使用 Big- science/P3 的子样本进行指令调优)文章来源:https://www.toymoban.com/news/detail-420307.html
他们选择在斯坦福羊驼项目(Taori et al., 2023)的评论基础上,将大量注意力放在数据准备和管理上。在收集了提示生成对的初始数据集之后,我
们将数据加载到 Atlas 中进行数据管理和清理。使用 Atlas,我们删除了所有 GPT-3.5-Turbo 无法响应提示并产生畸形输出的例子。这将他们的示例总数减少到 806,199 对高质量的提示生成对。接下来,他们决定从最终训练数据集中移除整个Bigscience/P3 子集,文章来源地址https://www.toymoban.com/news/detail-420307.html
到了这里,关于本地构建自己的chatgpt已成为可能,国外团队从GPT3.5提取大规模数据完成本地机器人训练,并开源项目源码和模型支持普通在笔记上运行chatgpt的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!