【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究

这篇具有很好参考价值的文章主要介绍了【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究,人工智能,chatgpt

【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究,人工智能,chatgpt

【深入探讨人工智能】网络研讨系列总共有 17 个视频。我们按照视频内容,大致上分成了 3 个大类:

1. 人工智能的开放、风险与挑战(4 篇)

2. 人工智能的治理(总共 12 篇),其中分成了几个子类:

a. 人工智能的治理框架(3 篇)

b. 人工智能的数据治理(4 篇)

c. 人工智能的许可证(4 篇)

d. 人工智能的法案(1 篇)

3. 炉边对谈-谁在构建开源人工智能? 

今天发布的是第一个类别“人工智能的开放、风险与挑战”里的第三个视频:【开放 ChatGPT - 人工智能开放性运作的案例研究】。

我们期盼如此分类,对读者的易读性有帮助,也欢迎读者们的反馈和指正。

                   --- 开源社.国际接轨组 ---

【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究,人工智能,chatgpt

【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究,人工智能,chatgpt

欢迎来到另一个由开源促进会主办的深入探讨人工智能网络研讨会。我是 Stefano Maffulli 执行董事,我们将从 Andreas Liesenfeld 和 Mark Dingemanse 那里听到开放 ChatGPT:人工智能开放性运作的案例研究。希望你喜欢。最后我们会回答大家的问题。

我是 Andreas Liesenfeld,我将和 Mark Dingemanse 一起展示我们的合作作品。我们在荷兰拉德堡德大学的语言研究中心工作。今天我要讲的是开放 ChatGPT 项目 - 在人工智能中实现开放性的案例研究。这个想法源于我们作为欧洲学者的一个非常实际的担忧,欧洲学术界对开源软件的支持很大。例如,在德国,开源软件将成为公共机构的规范,也是国家数字化战略的基石。在法国,开源已被视为最近开源政策中科学研究的关键组成部分。在荷兰,国家数字化战略推行默认开源原则,敦促公务员尽可能地使用开源软件。

因此,当大型语言模型和文本生成器通过 ChatGPT 的发布而广为人知时,促使欧洲迫切需要确定一种这种类型且足够开放的技术,可以用于科学和教育。开放 ChatGPT 项目的第一个问题是,我们看到 “开源” 大型语言模型层出不穷,但它们到底有多开放?对于需要最大限度地开放和负责任的技术的用例来说,哪一个是正确的选择?在我们最近发表的论文中,我们提出了对指令调优文本生成器开放性的调查结果,发布了一个众包实时跟踪器,试图在这个快速发展的领域即时关注几乎每隔一天就会有新的所谓 ChatGPT 开放式替代品发布。

那么,您如何调查类似 ChatGPT 的文本生成器的开放性呢? 首先要注意的是,在复杂的 AI 系统中,开放性从来不是全有或全无。单是要对开放性做出判断,需要考虑的变化因素太多。我们需要将系统分解成各个部分,分解为最相关的构成要素,并首先将其分为三大领域,代码和数据的可用性,系统的文档化程度以及用户访问的选项。然后在这些区域内,我们进一步将系统分解为其元素。类似 ChatGPT 的文本生成器,至少包含以下 14 个特性。虽然这份不完全清单上的具体项目可能会引起争论或者可能取决于系统的具体配置。

无论如何,这样的列表都应该涵盖文本生成器的所有部分,在此,对开放性的循证判断是可行的。直接跳到结果。如果你拿这 14 个特征逐一检查每个系统,就会得到一张大表。目前这个数据库包含了大约 25 个系统的信息,包括 ChatGPT 本身,与类似的可用系统相比,它的开放性相当低。现在,我要从这个大表格中选取两个例子,然后和你谈谈它们在开放性方面的比较。

它们都声称是开源的,但根据我们基于证据的衡量标准,只有一个系统在我们的排名中名列前茅。第一个是 BLOOM,由法国政府支持的一项倡议。这个项目汇集了来自 100 多个机构的研究人员,历时一年创建一个非常大的语言模型。我们比较的另一个例子是最近也上了头条的模型: Meta 的 Llama2。Meta 自己将其介绍为 “我们的开源大型语言模型” 全球媒体的报道几乎无一例外,都接过了这一资格。正如我们将展示的那样,我们的方法提供了一种对 “免责声明” 的真实性和实用性进行循证判断的方法。以 BLOOM 和 Llama2 为例,介绍了这两个系统中开放性的相关维度。对于 BLOOM,我们特别关注模型的指令调优变体,称为 BLOOM(z)。

对于 Llama2,我们研究了三种类似的指令调优模型,称为 Llama2-7B, 13B, 70B 我们从开放代码开始,即传统意义上的开放源代码,我们问模型和训练流程的源代码是否可用? 可以检查吗? 我们能不能看看引擎盖下面的情况,或者甚至修补一下? 对 BLOOM 来说,情况就是这样。对于 Llama 没有可用的源代码,没有共享代码来重现数据管理、训练、微调或模型评估步骤。因此 Llama2 被标记为红色,表示不开放,BLOOM 被标记为绿色,表示开放。

接下来,我们问预训练数据集,用以训练基础大语言模型的数据集,是文档化和可用的吗?再一次,BLOOM 通过了检测,而 Llama2 没通过,看看语言模型权重。然后我们问训练好的模型是否公开可用? 我们发现 BLOOM 通过了检测,而对于 Llama2,需要一个注册步骤,所以它是黄色的,表示部分开放。然后我们看看系统的强化学习部分,我们询问指令调优步骤中使用的数据集是否有文档记录和可用。我们还询问了指令调优的模型权重是否可取得。所以就这项技术来说,这是最终用户将参与模型训练的最终产品。

然后我们看看这些模型发布时所用的许可证,这是传统的 OSI 领域,所以我们使用现有的 OSI 对开源的定义来区分许可证。Llama 有 Meta 的社区许可证,但其并非 OSI 曾批准过的许可证。BLOOM 有两个相关的许可证。源代码是 Apache 2.0 许可证,它是 OSI 批准过的开源许可证,但该模型本身是在 Responsible AI (RAIL) 许可证下发布的。让我们仔细看看这些许可证,RAIL 许可证对 OSI 来说不算开放,因为它施加了限制,但它是无限的,或者是发布技术的最好和最负责任的方式。

RAIL许可证是开发者认真思考责任和义务的一个有意思的案例。对于这种可能造成实际伤害的技术,谁有责任防止不良用途?所以特定的用例可能会受到限制,例如,不要使用该技术来利用特定群体的漏洞。这样的限制有助于防止有害的应用 BLOOM 和 Llama 在他们的许可证中都涉及了此类有害用例。这种防止伤害的责任具体是如何处理的呢?这里有两段来自许可证的引言:Llama2 规定 - 您不得表示 Llama2 的输出是人为生成的;而 RAIL 声明的限制要严格得多 - 您不得在未明确声明文本为机器生成的情况下生成内容。

因此,这两个组织选择了不同的途径来处理标注模型输出结果的责任。现在回到比较,接下来,我们看看代码文档的水平。这不是关于数据或代码是否可获得的问题,而是关于代码库是否有足够详细的文档。对于 BLOOM,我们有一个完整的代码库,有维护地很好,并且非常深入的文档。相反地,Llama2 只分享了一些最基本的例子。然后我们看看系统架构的文档,这包括从硬件需求、到模型如何训练、微调或评估的信息。

对于 BLOOM,这些都有详细的文档。至于 Llama2,一些内容已在一份公司预印本中披露了概述。说到预印本,开放的另一个重要方面是该系统的公共科学文献的范围。我们问是否有提供该系统科学而全面的文档预印本?我们也查找同行评议的论文,发现它们似乎在这个领域已经过时了。

接下来的两项是关于模型卡和数据表是否可用,这两种方法都是现有的标准化程序,可确保提供有关数据和模型设计的相关信息。最后,我们来看一下终端用户访问方法,并询问软件包是否被编入索引,并通过软件仓库来提供。我们要看是否有最大限度不受限制访问的应用程序接口 (API) 。像这样的详细比较表明,虽然两个系统都声称是开源的,但其实只有一个是开源的。通过深入研究细节,我们可以看到确切的差异。至关重要的是,基于证据的判断,有助于对在开发和发布此类人工智能技术时所采取的谨慎措施给予肯定,但也要戳穿企业的炒作,并指出对 “开源” 等术语的劫持。

在调查了大约 25 个这样的文本生成器后,我们发现在很多情况下,新系统要么从现有系统中继承数据,要么以复杂的方式组合现有数据集,这使得我们很难描述在哪里使用了什么数据集,这可能会导致数据集的许可证和一般使用方面的法律问题。

我们还发现人工合成数据呈上升趋势,这是从其他大型语言模型中获取的数据。目前,我们研究的系统中约有 40% 以某种形式使用合成数据,其法律和实际后果仍不得而知。另一个广受欢迎的做法是透过博客来发布,亦即组织在那里共享有关架构和性能的详细信息,只能通过帖子或预印本,但通常没有足够的细节。

另一方面,同行评议的论文也是非常罕见的,这类技术的一个更普遍的特点是:这些人工智能系统是复杂的、多元的,它们由多步骤训练流程组成,通常以步骤为特征。比如训练一个基础模型,可能是一个微调步骤,也可能是 RLHF 组件,比如在 ChatGPT 类型的系统中。而这些漫长的训练流程构成了使系统尽可能开放的挑战。因此,当涉及到回溯训练步骤或甚至逆向工程这样一个系统时,训练流程的后期步骤可能会阻碍对早期部分的访问。

至关重要的是,真正的开放只有在中间步骤被记录和开放的情况下才有可能。因此,真正的开放性,需要给训练过程中的每一个这样的障碍提供资源,以最大限度地保留逆向工程能力。

总之,我们评估开放性的方法是:首先,在各自的系统中分离出最相关的开放维度,然后在每个维度上提供基于证据的判断,并在公众场合进行这项工作,开放供大家参与审查。任何开放生成式 AI 系统的定义,需要将开放定义为复合的和分级的。没有放之四海而皆准的解决方案,因为需要领域知识来确定开放的相关维度。只有这样,我们相信逆向工程能力的精神才能延续到新一代的技术中。谢谢您的关注!

如有问题或意见,请在 opening-up-chatgpt.io 找到我们的联系方式。

【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究,人工智能,chatgpt

【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究,人工智能,chatgpt

Mark Dingemanse

Associate Professor, Centre for Language Studies, Radboud University

【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究,人工智能,chatgpt

Andreas Liesenfeld

Assistant Professor, Centre for Language Studies, Radboud University

作者丨Andreas Liesenfeld、Mark Dingemanse

翻译 | 李华根

审校 | 刘文涛

视频 | 陈玄

策划 | 李思颖、罗蕊艳
编辑丨王梦玉

相关阅读 | Related Reading

【Deep Dive: AI Webinar】自由与开源软件和人工智能的意识形态:“开放”对于平台和黑盒子系统意味着什么?

【Deep Dive: AI Webinar】预防生成式人工智能的风险

【深入探讨人工智能】网络研讨系列介绍

【探索 AI+开源的未来:Open Source Congress@日内瓦】

开源社简介

开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。

开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。

自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。

【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究,人工智能,chatgpt文章来源地址https://www.toymoban.com/news/detail-784742.html

到了这里,关于【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChatGPT:开启AI新纪元-人工智能AI

    随着人工智能技术的不断发展,越来越多的领域开始应用人工智能技术来提高效率和质量。其中,自然语言处理技术的应用尤为广泛,人们使用自然语言处理技术来进行语音识别、机器翻译、文本分类等。而在这些领域中,人工智能AI报告则是一个非常重要的应用领域,它可

    2024年02月09日
    浏览(58)
  • CHATGPT4.0:更加智能、更加便捷的AI人工智能系统

    GPT4.0是一种基于自然语言处理技术的人工智能系统,由一支由专业的科学家和工程师组成的团队研发出来。相比于之前的版本,GPT4.0在语言理解和生成、对话交互以及信息检索方面都有了很大的提升和改进。 首先,GPT4.0在语言理解和生成方面比GPT3.5更加出色。它可以更加准确

    2024年02月16日
    浏览(56)
  • 人工智能、ChatGPT等火爆的当下 AI大模型爆发

    4月18日,火山引擎在其举办的“原动力大会”上发布自研DPU等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。火山引擎总裁谭待表示,AI大模型有巨大潜力和创新空间,火山引擎会服务客户做好大模型,共同推动各

    2023年04月22日
    浏览(57)
  • ChatGPT 时代,程序员的生存之道 | 人工智能 AI

    ChatGPT 近期炙手可热,仿佛没有什么问题是它不能解决的。出于对 ChatGPT 的好奇,我们决定探索下它对于前端开发人员来讲,是作为辅助工具多一些, 还是主力工具更多一些?   我们就挑选一个著名的递归回溯问题——“八皇后”,看看 ChatGPT 的表现如何。   首先,我们先

    2024年02月08日
    浏览(72)
  • 【大数据&AI人工智能】意识机器:ChatGPT 能否拥有自我意识?

    2022年11月30日,一个现象级应用程序诞生于互联网,这就是OpenAI开发的ChatGPT。从问答到写程序,从提取摘要到论文写作,ChatGPT展现出了多样化的通用智能。于是,微软、谷歌、百度、阿里、讯飞,互联网大佬们纷纷摩拳擦掌准备入场……但是,请先冷静一下…… 现在 all in

    2023年04月26日
    浏览(70)
  • 如何学习和规划类似ChatGPT这种人工智能(AI)相关技术

    学习和规划类似ChatGPT这种人工智能(AI)相关技术的路径通常包括以下步骤: 学习基础知识 : 学习编程:首先,你需要学习一种编程语言,例如Python,这是大多数人工智能项目的首选语言。 数学基础:深度学习和自然语言处理等领域需要一定的数学基础,包括线性代数、微

    2024年02月19日
    浏览(54)
  • ChatGPT3.5——AI人工智能是个什么玩意?

    AI,就像是一位超级聪明的机器朋友,它不会抢你的零食,但可以回答你的问题。AI可以扮演各种角色,就像是一个多面手,但不会像演员那样要求高薪。最重要的是,AI从不生气,总是耐心地听你唠叨。它会让你在学习和娱乐中倍感惊喜! 那么,到底什么是AI? AI,即人工智

    2024年02月14日
    浏览(47)
  • ChatGPT人工智能对话系统源码 一款非常强大的AI智能系统 附带完整的搭建教程

    随着人工智能技术的不断发展,对话系统作为人机交互的重要方式,已经成为了各个领域的热门应用。ChatGPT作为一款强大的人工智能对话系统,备受关注。它基于深度学习技术,通过学习大量的语料库,实现了自然语言理解和生成的能力,能够与用户进行智能化的交互。 以

    2024年01月17日
    浏览(61)
  • 时代浪潮已经袭来 AI人工智能频频爆火 ChatGPT改变行业未来

    目录 1 人工智能的发展 1.1人工智能发展历程 1.1.1 人工智能的起源 1.1.2 人工智能发展的起起伏伏 1.1.3 人工智能多元化  2 什么是ChatGPT 2.1 ChatGPT的主要功能 2.2ChatGPT对企业的多种优势 2.3 不必担心ChatGPT带来的焦虑 3 人工智能对行业未来的影响 3.1 人工智能的现状  3.2 人工智能的

    2024年02月02日
    浏览(59)
  • 大数据人工智能ai培训师专家讲师叶梓介绍及ChatGPT提纲

    叶梓,长期负责城市信息化智能平台的建设工作,牵头多个省级、市级智能化信息系统的建设,主持设计并搭建多个行业省级、市级大数据平台。参与国家级行业人工智能课题研究,牵头市级行业人工智能课题研究。助理威信:amliy007 带领团队在相关行业领域研发多款人工智

    2024年02月01日
    浏览(70)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包