ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来

这篇具有很好参考价值的文章主要介绍了ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

  • 论文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

  • 项目地址:https://github.com/LAION-AI/Open-Assistant

  • 数据集地址:https://huggingface.co/datasets/OpenAssistant/oasst1

  • 体验地址:https://open-assistant.io/chat

  • 观看公告视频:https://youtu.be/ddG2fM9i4Kk

OpenAssistant介绍

最近火爆的ChatGPT使用如下图三个步骤训练得到,分别是:1)使用人类标注的数据训练SFT模型;2)对模型输出进行排序训练RM模型;3)使用RM模型微调SFT模型;

下图论文来自《Training language models to follow instructions
with human feedback》

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

通过监督微调(SFT)、人类反馈强化学习 (RLHF)大大减少了有效利用LLMs能力所需的技能和领域知识,然而,RLHF需要依赖高质量的人工反馈数据,这种数据的创建成本很高,而且往往是专有的。为了让大型语言模型民主化,LAION AI 等机构的研究者收集了大量基于文本的输入和反馈,创建了一个专门训练语言模型或其他 AI 应用的多样化和独特数据集 OpenAssistant Conversations。

该数据集是一个由13500 名志愿者人工生成、人工注释的助理式对话语料库,覆盖了广泛的主题和写作风格,由 161443 条消息组成,分布在 66497 个会话树中,使用 35 种不同的语言,有461292个质量评级标注。对于任何希望创建 SOTA 指令模型的开发者而言,它都是一个非常宝贵的工具。并且任何人都可以免费访问整个数据集。

此外,为了证明 OpenAssistant Conversations 数据集的有效性,该研究还提出了一个基于聊天的助手 OpenAssistant,它基于Pythia和LLaMA微调而来,其可以理解任务、与第三方系统交互、动态检索信息。可以说这是第一个在人类数据上进行训练的完全开源的大规模指令微调模型。

结果显示,OpenAssistant 的回复比 GPT-3.5-turbo (ChatGPT) 更受欢迎。

OpenAssistant数据格式

基本数据结构是会话树(CT),每个Node表示一个对话中的信息。一个 CT 的根节点代表一个初始提示,由提示者给出。为了避免混淆,研究人员把对话的角色称为提示者和助手。

下面是一个例子:

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

OpenAssistant数据收集

这些数据是通过一个web-app应用程序界面(https://open-assistant.io/)收集的,该界面通过将整个流程分为五个独立的步骤来完成:提示标记提示作为提示者或助手添加回复信息标记回复、以及对助手的回复进行排名

单步收集

为减少用户流失造成的数据丢失,数据收集分为多个单元,并确保每个工作单元都被捕获以供利用。用户可以从一系列任务选择或随机采样(根据当前要求加权)。任务类型包括创建提示助手身份回复以提示者身份回复标记提示或回复以及提示者或助理答复进行排序。

创建提示

每个新的会话树需要用户指定初始化Prompt,这里类似彩票系统一样,是从固定数量的Prompt中进行选择。

助手身份回复

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

以提示者身份回复

作为提示者回复的任务并不严格质量要求,但强调多样性的重要性,以适应各种用例。提示回复的例子可能包括要求澄清、修改原文意图,提出后续问题,或完全改变谈话方向。

标记提示或回复

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

提示者或助理答复进行排序

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

OpenAssistant数据语言分布

主要以英语和西班牙语为主:

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

OpenAssistant信息分布

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

实验验证

指令微调

为了评估和证明 OpenAssistant Conversations 数据集的有效性,研究者专注于基于 Pythia 和 LLaMA 的微调语言模型。其中 Pythia 是一个具有宽松开源许可的 SOTA 语言模型,而 LLaMA 是一个具有定制非商业许可的强大语言模型。

对此,研究者发布了一系列微调语言模型,包括指令微调的 Pythia-12B、LLaMA-13B 和 LLaMA-30B,这是他们迄今最大的模型。研究者将分析重心放在了具有开源属性的 Pythia-12B 模型上,使得它可以被广泛访问并适用于各种应用程序。

为了评估 Pythia-12B 的性能,研究者展开了一项用户偏好研究,将其输出与 OpenAI 的 gpt-3.5-turbo 模型进行比较。目前已经有 7,042 项比较,结果发现 Pythia-12B 对 gpt-3.5-turbo 的胜率为 48.3%,表明经过微调的 Pythia 模型是非常具有竞争力的大语言模型。

偏好建模

除了指令微调模型之外,研究者还发布了基于 Pythia-1.4B 和 Pythia-12B 的经过训练的奖励模型。利用在真实世界数据上训练的奖励模型可以为用户输入带来更准确和自适应的响应,这对于开发高效且对用户友好的 AI 助手至关重要。

研究者还计划发布经过人类反馈强化学习(RLHF)训练的 LLaMA-30B,这种方法可以显著提升模型性能和适应性。不过,基于 RLHF 方法的模型开发与训练正在进行中,需要进一步努力确保成功地整合进来。

有毒信息

研究者采取基于 Detoxify 的毒性检测方法来获得六个不同类别的自动评级,分别是有毒、色情、威胁、侮辱、攻击性、露骨言论。使用自动毒性评级,研究者系统地评估了人工指定毒性标签(如仇恨言论、不恰当和色情)的级别。并且基于 115,153 条消息样本,他们计算了自动与人工注释毒性标签之间的相关性,如下图 5 所示。

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

OpenAssistant训练配置

数据格式

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

监督微调SFT

mask掉Prompts的token,只预测助手回复的token

奖励模型RM

使用一个线性层替换掉语言模型的head得到一个score,这个score作为会话最好一个回复的score,损失函数如下:

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

强化学习PPO

使用https://github.com/CarperAI/trlx训练PPO算法

更多训练细节

https://github.com/LAION-AI/Open-Assistant/tree/main/model/model_training

局限性

主观偏见和文化偏见

数据标注人员来自不同的背景,有各种各样的兴趣,但在性别和年龄有偏向性。具体来说,89.1%的标注人员是平均在26岁的男性。这可能会在数据集中无意引入偏见,因为事实上必然会反映标注人员的价值观、观点和兴趣。

贡献分配不均

数据集受益于大量用户,但他们的参与程度差异很大。参与度越高的用户贡献的标注数量越多,这导致他们的价值观和兴趣代表性在数据集中越高。

可能的不安全内容

尽管采取了一些检测和消除数据集中的有害内容,但并不能保证系统的万无一失,因此主张在学术研究中使用LLM,并敦促研究人员在将这些模型应用于下游任务时,要仔细考虑安全性和偏差影响。

OpenAssistant与GPT3.5对比

我们来看几组 OpenAssistant 与 GPT-3.5 的生成结果比较。比如“单词 barn 的词源 / 起源是什么?”可以看到,OpenAssistant 解释地更详细、全面。

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

再比如输入“你现在是一个普通的人类。请介绍一下你自己并告诉我一些你的日常生活。”OpenAssistant 代入了普通人类的角色,GPT-3.5 显然没有,还是以 AI 语言模型自居。

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能

最后输入“如何创建一个成功的 YouTube 频道,从开发一个利基市场到创建内容以建立一个社区并货币化频道?”OpenAssistant 的回答相对而言更有条理性。

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来,chatgpt,llama,人工智能文章来源地址https://www.toymoban.com/news/detail-555215.html

到了这里,关于ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChatGPT/GPT4开源“平替”汇总

    寻找那些ChatGPT/GPT4开源“平替”们。 ChatGPT爆火出圈,国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。ChatGPT没有开源,复现难度极大,即使到现在GPT3的完全能力也没有任何一个单位或者企业进行了复现。刚刚,OpenAI又官宣发布了图文多模态的GPT4模型,能力相对

    2023年04月16日
    浏览(40)
  • ChatGPT 火了,一大批开源平替也来了

    ChatGPT 凭一己之力让全球为 AI 沸腾,引发了科技巨头之间的聊天机器人军备竞赛。 众所周知,ChatGPT 的背后技术是 GPT(Generative Pre-trained Transformer)模型。GPT 是一种基于 Transformer 模型的自然语言处理模型,由 OpenAI 公司开发。它可以通过学习大量的自然语言数据来生成自然流畅

    2023年04月20日
    浏览(42)
  • 开发者笑疯了! LLaMa惊天泄露引爆ChatGPT平替狂潮,开源LLM领域变天

    来源: 新智源  微信号:AI-era Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻。谁都没想 谁能想到,一次意外的LLaMA泄漏,竟点燃了开源LLM领域最大的创新火花。 一系列表现出色的ChatGPT开源替代品——「羊驼家族」,随后眼花缭乱地登场。 开源和基于 API 的分发之

    2024年02月10日
    浏览(79)
  • 推荐 ChatGpt 平替介绍文章

    chenking2020/FindTheChatGPTer: 汇总那些ChatGPT的平替们 (github.com) Alpaca https://github.com/tatsu-lab/stanford_alpaca Alpaca DEMO: https://alpaca-ai-custom6.ngrok.io OpenChatKit https://github.com/togethercomputer/OpenChatKit ChatGLM https://github.com/THUDM/ChatGLM-6B ChatYuan https://github.com/clue-ai/ChatYuan Colossal AI https://github.com/hpca

    2024年02月03日
    浏览(38)
  • 9个已开源的GPT4平替分享(附开源代码+论文)

    资料整理自网络,有误欢迎指正 对于想要研究大模型的同学来说,目前ChatGPT无疑是最好的学习对象,但等它开源估计是不太可能了,所以学姐今天整理了一些开源的类GPT模型,帮助大家更好的理解大模型背后的机理。 PS:有的功能还不错,也可以上手玩耍玩耍。 开源链接都

    2024年02月09日
    浏览(44)
  • ChatGPT 的平替 Claude 使用指南

    Claude的独立体验版本姗姗来迟,经过近半个月的等待后,收到了体验邮件,不过之前早已体验过poe和slack的集成版,响应速度上要比ChatGPT快很多。 目前提供的Model有: \\\"claude-v1\\\":我们最大的型号,适用于各种更复杂的任务。claude-v1使用此型号名称将在一段时间的早期访问评估

    2023年04月15日
    浏览(46)
  • 真正的ChatGPT平替产品:Claude

    ChatGPT 已经流行了很长的时间了,但是 ChatGPT 由于种种的限制,我们无法用上,也有很多的平替产品,但是这些平替产品也有很多的问题。 现在 Claude 出来了,没有任何的限制。 Claude 不用魔法,注册简单。为什么 Claude 这么厉害,我们来问问他和 chatgpt 的区别。 我和 ChatGP

    2023年04月19日
    浏览(44)
  • ChatGPT平替- ChatGLM多用户并行访问部署

            ChatGLM对话模型基本环境配置和部署请参考上一篇博文《ChatGPT平替-ChatGLM环境搭建与部署运行》,地址为“https://blog.csdn.net/suiyingy/article/details/130370190”。但是,默认部署程序仅支持单用户访问,多用户则需要排队访问。测试过相关的几个Github多用户工程,但是其中

    2024年02月08日
    浏览(35)
  • 全球最大的BT种子站RARBG突然关闭

    我是卢松松,点点上面的头像,欢迎关注我哦! 全球知名的也最大的BT种子网站RARBG突然关闭, 关站的原因竟然不是版权,而是疫情,战争和电价。 也许很多人不知道RARBG是啥,就这么说吧: 国内大部分字幕组和资源网站基本都从这个网站搬运资源 。RARBG应该是国内BT资源粮

    2024年02月07日
    浏览(39)
  • 借助国内ChatGPT平替+MindShow,飞速制作PPT

    借助国内ChatGPT平替+markmap/Xmind飞速生成思维导图 借助国内ChatGPT平替+剪映/百度AIGC平台快速制作短视频 利用ChatGPT编写Excel公式,对比讯飞星火与ChatGPT对Excel公式的回答 随着人工智能技术的不断发展,越来越多的企业和个人开始利用自然语言处理技术来提高工作效率。其中,最

    2024年02月04日
    浏览(66)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包