ChatGPT 速通手册——GPT 训练数据集介绍

这篇具有很好参考价值的文章主要介绍了ChatGPT 速通手册——GPT 训练数据集介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

GPT 训练数据集介绍

所有人工智能算法都会分为训练和推理两步。算法的效果好坏,很大程度上取决于训练数据本身的质量。ChatGPT 所用的训练数据,openai 公司没有单独公布过细节。不过考虑到 ChatGPT 是在前序 GPT 算法基础上发展而来,我们可以侧面分析 GPT-3 的训练数据集情况。

人工智能领域知名人士 Alan D. Thompson 博士发表过一篇文章,介绍在大语言模型领域目前常用的数据集情况。其中根据 openai 论文公开的 token 数据情况,推测了 GPT-3 所用训练数据集大小一共有 753.4GB。具体分布如下:

  • 维基百科: 11.4GB。维基百科是世界著名的免费、多语种、在线百科全书,有超过 30 万名志愿者在贡献内容。一般参与训练的是其中的英文版部分,包括 662 万篇文章,超过 42 亿个单词。这其中传记类占 27.8%,地理类占17.7%,文化艺术类占15.8%,历史类占9.9%,生物医学占7.8%,体育类占6.5%,工商类占4.8%,理工和数学占3.5%。
  • Gutenberg Book:21GB。古腾堡书籍语料库,是电子书发明人 Michael Hart 创建的项目,也是世界上第一个免费电子书网站。网站收录了各种语言文字的书籍,有 12 种语言收录超过 50 本,中文书籍有 500 本,不过基本都是古籍。一般用于训练的是语料库中精选的 SPGC 版本。因为是在线网站,我们可以直接看到按日排列的前一百名书籍清单。比如 2023 年 3 月 10 日,排名第一个的书籍为莎士比亚的《罗密欧与朱丽叶》,而前 100 名中唯一的中文书籍,很巧合正是第 88 名汤显祖的《牡丹亭》。
  • Bibliotik Journey:101GB。Bib 是互联网最大的电子书站点,通过 P2P 方式分发下载,种子数量超 50 万。 EleutherAI 实验室在 2021 年为了训练 GPT-Neo 大模型,整合精选了该电子书数据集,占EleutherAI 实验室最后使用的 Pile 数据集中全部数据的 12.07%。
  • Reddit links:50GB。Reddit 是一个流行的社交媒体平台,WebText 数据集从 Reddit 平台上爬取了所有三个赞以上的出站链接的网页,代表了流行内容的风向标。
  • Common Crawl:570GB。这是一个从 2011 年开始一直在爬取的数据集,包括原始网页、元数据和提取的文本,存储在 AWS 上,总量超 1PB,并以每月 20TB 的速度持续新增。一般用来训练的只是 Common Crawl 中的 C4 部分。从数据分析来看,除谷歌专利网站占 0.48% 比例偏高以外,其他来源网站的占比都比较平均,维持在0.04%以下。

openai 自身公开的训练数据分语种统计结果(https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_word_count.csv)中,训练数据集里英语单词占比高达 92%。此外,法语占 1.81%,德语占1.47%,其他语种均在 1%一下,汉语比例为0.1%。但实际 ChatGPT 的各语种问答能力,远超 openai 自身的预料之外。人类语言可能在某种程度上有超乎人类理解的相通。

也有其他方面的消息,称 GPT-3 的训练语料大小高达 45TB。两个数据的差距实在太大,有可能 45TB 是上述数据来源未精选之前的总大小之和。

这些数据集,能多大程度上代表整个互联网呢?www.worldwidewebsize.com 网站长期跟踪谷歌、必应等搜索引擎上可检索到的互联网总网页数量,到目前为止,总索引网页数量为 58.5 亿。还有另一份针对网页 HTML 大小的长期跟踪,目前互联网网页的平均大小为 1.2MB。估算可知,整个互联网的文本大小为 7000TB。去除掉各种 HTML 标签,按照二八法则大致去掉长尾的雷同内容,我们可以武断的认为,整个互联网上的文本大概会是 1000TB 大小。但直接运用这个 1000TB 数据训练 AI 对话,未必是最佳方案。多年前,微软小冰"学会"骂人的事故就是明证。

此外,由于 ChatGPT 的思维链能力需要刻意锻炼逻辑能力,训练数据可能还有来自 GitHub 的代码数据集、StackExchange 的编程问答数据集等。

我们可以看到,目前 ChatGPT 的训练数据,基本来自英语互联网世界,对中文互联网数据的理解有所缺失。这也是中国互联网公司巨头的一次机会。但中文互联网上也确实还缺少如此量级的、开放且标准化的数据集语料。甚至可能连对应的形态都不存在。比如:中国几乎没有 reddit、hackernews 这类以出站链接和问答评论为主的社交媒体平台。现存的中文语料库,几乎都来自各大高校和科研机构,如北京语言大学 BBC、清华大学 OpenSLR、北京大学 CCL、南京农业大学 NEPD、智源研究院 WuDaoCorpora 等。复旦大学发布 MOSS 人工智能对话机器人时,就坦言自己完全是使用英文互联网世界的标准语料,并无特殊的中文数据。

科研机构很难长期维护一份实时更新的数据集,因此这一方面依赖于中国互联网企业自身的努力,比如:百度百科、知乎问答提供优选内容,京东、当当免费电子书分发、知网免费期刊杂志公开、微信朋友圈开放出站链接、微博热搜榜及评论的整合等等。另一方面,也考量监管层的探索。中国证监会科技监管局局长姚前,日前在《中国金融》2023 年第 6 期发表署名文章《ChatGPT类大模型训练数据的托管与治理》,提出要抓住高质量数据这个"牛鼻子",对高质量数据的供给,"要统筹兼顾自立自强和对外开放。可考虑对 Wikipedia、Reddit 等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用"。文章来源地址https://www.toymoban.com/news/detail-456210.html

到了这里,关于ChatGPT 速通手册——GPT 训练数据集介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPT-3.5(ChatGPT)训练和部署成本估算

    因为ChatGPT(GPT-3.5)未正式公布参数量,暂时按照1750亿参数计算。 后续其他模型公布参数量后,可按参数量线性比例估算相关数值。 以下数值仅为理论估算,可能和实际数值相差很大,敬请谅解。 一、GPT-3.5磁盘占用估算 不同模型之间,磁盘、参数量可以按线性关系粗略估

    2023年04月20日
    浏览(43)
  • 【ChatGPT】如何正确的训练gpt的详细教程

    ChatGPT是基于GPT-3.5架构的大型语言模型,由OpenAI发布。该模型可用于各种自然语言处理任务,比如文本生成、对话系统、文本分类等等。为了帮助读者更好地训练自己的ChatGPT模型,本文提供了一份调教教程 首先,您需要安装Python 3.x版本以及pip包管理器。接着,您需要安装H

    2024年02月04日
    浏览(50)
  • GPT-4 VS ChatGPT:训练、性能、能力和限制的探索

    GPT-4是一种改进,但是应该适当降低期望 当OpenAI在2022年末推出ChatGPT时,震惊了全世界。这个新的生成式语言模型预计将彻底改变包括媒体、教育、法律和技术在内的整个行业。简而言之,ChatGPT听起来可以颠复一切。甚至在我们没有时间真正设想一个ChatGPT后的世界之前,Op

    2023年04月11日
    浏览(34)
  • AI很渴:chatGPT交流一次=喝掉一瓶水,GPT3训练=填满核反应堆

    流行的大型语言模型(LLM),如OpenAI的ChatGPT和Google的Bard,耗能巨大,需要庞大的服务器农场提供足够的数据来训练这些强大的程序。对这些数据中心进行冷却也使得AI聊天机器人对水的需求量极大。新的研究表明,仅GPT-3的训练就消耗了18.5万加仑(70万升)的水。根据一项新

    2024年02月12日
    浏览(43)
  • ChatGPT 的核心 GPT 模型:探究其生成式预训练变换架构的革新与应用潜力

    GPT(Generative Pre-trained Transformer)模型是一种深度学习模型,由OpenAI于2018年首次提出,并在随后的几年中不断迭代发展,包括GPT-2、GPT-3以及最新的GPT-4。GPT模型在自然语言处理(NLP)领域取得了显著成果,特别是在语言生成、文本理解、问答系统、代码编写等方面表现出强大

    2024年04月09日
    浏览(35)
  • 用MidJourney设计自己的专属Logo;哈佛大学教你如何使用GPT-4打造智能程序;ChatGPT精美入门手册;使用ChatGPT开发二次元游戏攻略 | ShowMeAI日报

    👀 日报周刊合集 | 🎡 生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! ⋙ Twitter@indigo11 5月11日凌晨,在一年一度的Google I/O开发者大会上,Google 高管轮番上阵,公布了一系列与生成式AI相关进展,涉及全新大模型、AI聊天机器人、搜索、办公软件、云服务、安卓系统等

    2024年02月09日
    浏览(128)
  • 陈巍:LLaMA-2的多模态版本架构与训练详解(收录于GPT-4/ChatGPT技术与产业分析)

    陈巍 :2023年9月,Meta的研究人员推出了AnyMAL(任意模态增强语言模型,Any-Modality Augmented Language Model)。该模型能够理解多种模态信号并生成文本回应,即多模态输入,单模态输出。输入的模态可包括图像、视频、音频和IMU(惯性测量单元,Inertial Measurement Unit)传感器数据。

    2024年04月10日
    浏览(68)
  • 【ChatGPT】预训练模型微调及其应用(ChatGLM-6B、duckduckgo_search、GPT在科研的应用等)

    instructGPT(基于提示学习的系列模型)——GPT3.5(大规模预训练语言模型)——ChatGPT模型(高质量数据标注+反馈学习)。chatGPT三大技术:情景学习、思维链、自然指令学习。 GPT4飞跃式提升:多模态、输入字符数量、推理能力、文本创造,如poem、解释图片含义、图表计算等

    2023年04月16日
    浏览(72)
  • 最新ChatGPT GPT-4 NLU实战之智能多轮对话机器人(附ipynb与python源码及视频)——开源DataWhale发布入门ChatGPT技术新手从0到1必备使用指南手册(七)

    智能多轮对话机器人 是一种可以自主进行多轮对话的机器人系统,具有高度的交互性和可用性。智能多轮对话机器人旨在通过模拟人类对话方法来实现与用户之间更加自然和有效的沟通。然而,由于自然语言的复杂性和多变性,使得该技术面临巨大的挑战。 当前,基于大预

    2024年02月12日
    浏览(55)
  • State of GPT (ChatGPT 原理及现状介绍)

    演讲信息: 演讲人:Andrej Karpathy (现在OpenAI任职),之前是特斯拉视觉研发负责人,斯坦福深度学习入门课程 CS231N 讲师 演讲主题:受到微软 BUILD2023 邀请,介绍 GPT 的原理及研发现状,介绍大语言模型应用生态 第一部分介绍如何训练 ChatGPT (本演讲中有个更通用的名字: GP

    2024年02月07日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包