谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

这篇具有很好参考价值的文章主要介绍了谷歌训了28个15亿参数模型,说明数据对大模型训练的影响。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

夕小瑶科技说 原创
作者 | Python

随着ChatGPT的爆火,大规模语言模型(Large Language Model,LLM)如日中天。然而,由于相关数据细节并不公开,相关研究大多都是盲人摸象式探索,缺乏系统的经验指导。

本文针对LLM的语言模型预训练步骤给出了系统的经验性探索,训练了28个1.5B规模的LLM,关注数据时间、不同的风险内容和质量过滤策略、不同的领域组合方案,对预训练来拿带来的影响。

结论表明,预训练数据与测试数据之前的时间差距会带来负面影响,且无法被后续的fine-tuning克服;模型表现与内容风险难以两全;不同来源的数据混合,如书籍与网页数据,能够带来明确的提升。

论文题目:
A Pretrainer’s Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity

论文链接:
https://arxiv.org/pdf/2305.13169.pdf

大模型研究测试传送门

ChatGPT能力研究传送门: hujiaoai

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可): Hello, GPT4!

实验设置

模型选用基于T5X codebase实现的LM-XL, 一个 1.5B 规模的Decoder-only模型,通过自回归的next-token-prediction目标训练。此外,还用了一个20M参数的LM-Small模型作为小模型对比。

数据集基于C4和Pile。C4数据集是Common Crawl在2019年的快照,包含新闻、法律、维基百科和通用网络文档等多种文本类型。Pile数据集包括22个来源的800GB数据,如Common Crawl的网络爬取数据,以及更多多样化的学术、书籍、编码、医疗、法律和社交等数据源。

评价方式:

  • 领域泛化:MRQA和UnifiedQA,包含30个不同领域的问答数据集。

  • 时效性:从论文[1]中选取了5个不同领域的数据集,PubCLS, NewSum, PoliAffs, TwiERC, 和 AIC。

  • 有害信息生成:根据Perspective API和RealToxicityPrompts数据集,关注与性别、种族和宗教等相关的输出。

  • 有害信息识别:使用了来自Social Bias Frames、DynaHate和Toxigen等数据集的训练和测试集,以评估模型识别有害信息的能力。

预训练数据与测试数据的时间差

谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

模型表现如上图所示。其中,纵轴是预训练数据的时间来源,横轴是测试数据的时间来源。按时间差进行统计后可以得到下图。从中可以看出,训练数据和测试数据时间上的差异会带来明显的表现下降。

谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

具体看下图的统计数据,其中TD训练数据和测试数据每差一年的预期效果下降,而r是皮尔森相关系数。Fine-tuning部分是在测试前,先用和数据集相同年代的语料精调一下。可以看出,预训练数据和评估数据之间的时间不一致无法通过微调来解决,预训练数据时效性的影响对于较大的模型比较明显。

谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

有害内容/质量过滤策略

下图可以看出,预训练数据中有害内容过滤越多,模型生成有害信息就越少,模型鉴别有害信息的能力也越弱。但低质数据过滤之后,会减少数据的多样性,从而提高有害信息鉴别的能力的同时,让模型生成更多的有害信息。

谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

下图可以看出,在LM-XL上,低质量内容过滤可以提升大多数领域的问答任务表现,除了在书籍数据上起到了反效果。事实上,在Books, Wikipedia, 和 Web 这三个“高质量”领域中,低质量数据过滤起到的效果反而是最差的。

谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

下图可以看出,有害信息过滤会对LM-XL解决绝大多数下游QA任务的能力起到负面影响。

谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

预训练数据领域组合

下图可以看出,去掉预训练数据中的某一个领域,普遍会对模型在下游任务上的表现产生负面影响。领域多样性对预训练数据而言,甚至比领域相关性更重要。Common Crawl, OpenWeb, 和 Books 对下游任务表现的影响最为明显。

谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

下图中,我们观察去掉预训练数据中的某一个领域,对有害信息生成与检测的影响。可以发现,去掉一个领域的数据,普遍会对有害信息检测产生负面影响。书籍、学术和互联网数据含有相对较多的有害信息(如个人信息等),将其去除可以让预训练模型生成较少的有害信息。

谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

结束语

这篇文章调研了大语言模型训练数据对预训练过程的影响,为大语言模型的研究提供了有价值的经验指导,同时又让人们看到了谷歌的财大气粗。训28个1.5B的大模型不带眨眼的,而且只是为了得到些经验性的结论而非产生直接的社会经济效益。

参考资料

[1] Time waits for no one! analysis and challenges of temporal misalignment.文章来源地址https://www.toymoban.com/news/detail-469392.html

到了这里,关于谷歌训了28个15亿参数模型,说明数据对大模型训练的影响的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • mysql数据导入导出参数说明

    这种方法的好处是导出的数据格式可以自己规定,并且导出的是纯数据,不含建表信息。 1. into outfile 导出 2. load data infile 导入 1.导出整个数据库 3.导出结构不导出数据 4.导出数据不导出表结构 5.导入数据 1.  --all-databases , -A 2. --all-tablespaces , -Y 3. --no-tablespaces , -y 4. --add-drop

    2024年02月11日
    浏览(8)
  • 使用LoRA对大语言模型LLaMA做Fine-tune

    使用LoRA对大语言模型LLaMA做Fine-tune

    目前有大量对LLM(大语言模型)做 Fine-tune 的方式,不过需要消耗的资源非常高,例如 Stanford Alpaca: 对LLaMA-7B做Fine-tune,需要4颗A100 (80GB) GPU FastChat/Vicuna: 对LLaMA-7B做Fine-tune,需要4颗A100 (40GB) GPU 这种资源需求令普通的学习者望而却步,使用 LoRA 则可以较好的解决这个问题 LoRA 全

    2024年02月09日
    浏览(8)
  • 【论文速读】| 对大语言模型解决攻击性安全挑战的实证评估

    【论文速读】| 对大语言模型解决攻击性安全挑战的实证评估

    本次分享论文为:An Empirical Evaluation of LLMs for Solving Offensive Security Challenges 原文作者: Minghao Shao, Boyuan Chen, Sofija Jancheska, Brendan Dolan-Gavitt, Siddharth Garg, Ramesh Karri, Muhammad Shafique 作者单位: 纽约大学、纽约大学阿布扎比分校 : 大语言模型,网络安全,攻击性挑战,CTF竞赛

    2024年04月10日
    浏览(12)
  • 3D Web轻量引擎HOOPS Communicator如何实现对大模型的渲染支持?

    3D Web轻量引擎HOOPS Communicator如何实现对大模型的渲染支持?

    除了读取轻松外,HOOPS Communicator对超大模型的支持效果也非常好,它可以支持30GB的包含70万个零件和3.5亿个三角面的Catia装配模型! 那么它是如何来实现对大模型的支持呢? 我们将从以下几个方面与大家分享:最低帧率控制、增量更新、截流等级、边界预览、内存限制以及破

    2024年02月04日
    浏览(9)
  • 国内外交通数据集介绍(附参数说明)

    国内外交通数据集介绍(附参数说明)

    NGSIM数据集         NGSIM数据集采集自美国,数据集中包含两条高速公路(US-101,I-80)及两条城市道路(lankershim,peachtree)的数据,每条道路的采集时间为45min。数据集中包含包含车辆ID、时间、速度、加速度、坐标、车道等信息,数据采样间隔为0.1s,速度单位为英尺/秒

    2023年04月10日
    浏览(9)
  • 普通人应该如何应对大模型时代的人工智能变革带来的挑战和机遇?

    目录 普通人应该如何应对大模型时代的人工智能变革带来的挑战和机遇?

    2024年02月06日
    浏览(8)
  • ChatGPT时代对大数据应用的展望

    ChatGPT时代对大数据应用的展望

    目录 一、ChatGPT提供的技术能力分析 1.1ChatGpt是什么? 1.2 实现ChatGpt需要什么? 二、大模型在大数据领域应用分析 2.1 大数据领域应用需求分析 2.2 大数据每个阶段需求人工智能应用的可能 2.2.1 ChatGPT在搭建大数据基础生态的可能性分析 2.2.2 ChatGPT在数据处理周期的可能性分析

    2024年01月22日
    浏览(6)
  • 区块链技术及其对大数据分析的影响

    区块链技术及其对大数据分析的影响

    李升伟  综述 在这里,我们将帮助您掌握区块链与大数据这两大技术及其交汇的基础知识[1]。                                                 所谓区块链技术, 简称BT(Blockchain technology),也被称之为分布式账本技术(distributed ledger technology),它是一种互联网数据

    2024年02月03日
    浏览(8)
  • kaggle新赛:谷歌AI模型运行时间预测赛题解析【数据挖掘】

    kaggle新赛:谷歌AI模型运行时间预测赛题解析【数据挖掘】

    赛题名称: Google - Fast or Slow? Predict AI Model Runtime 赛题链接: https://www.kaggle.com/competitions/predict-ai-model-runtime Alice 是一名 AI 模型开发人员,但她的团队开发的一些模型运行速度非常慢。她最近发现了编译器的配置,这些配置改变了编译器编译和优化模型的方式,从而使模型运行

    2024年02月10日
    浏览(10)
  • Hibench对大数据平台CDH/HDP基准性能测试

    Hibench对大数据平台CDH/HDP基准性能测试

    1.1、源码/包:https://github.com/Intel-bigdata/HiBench 部署方法: https://github.com/Intel-bigdata/HiBench/blob/master/docs/build-hibench.md 注意:hibench执行需hadoop客户端jar包环境 如何使用HiBench进行基准测试说明: https://cloud.tencent.com/developer/article/1158310 主要介绍下bin执行文件目录和conf配置文件目录

    2024年02月05日
    浏览(8)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包