【论文阅读】Scaling Laws for Neural Language Models

这篇具有很好参考价值的文章主要介绍了【论文阅读】Scaling Laws for Neural Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

  • 本文简要介绍 Scaling law 的主要结论
  • 原文地址:Scaling Laws for Neural Language Models
  • 个人认为不需要特别关注公式内各种符号的具体数值,而更应该关注不同因素之间的关系,比例等

Summary

  • Performance depends strongly on scale, weakly on model shape

    • scale: 参数量 N N N, 数据量 D D D, 计算量 C C C
    • shape: 模型深度,宽度,self-attention head数目等
  • Smooth power laws: N , D , C N, D, C N,D,C 三个因素中,当其他两个不受限制时,模型性能与任意一个因素都有 power-law relationship

    【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

  • Universality of overfitting:只要我们一起增大 N N N D D D, 性能就会可预测得提高。但是当其中一个被固定,另一个在增加时,性能就会下降。二者比例关系大致为 N 0.74 / D N^{0.74}/D N0.74/D,这意味着,每次将模型增大8倍,只需要将数据量增大6倍来避免性能下降(过拟合)

    【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

  • Universality of training:在模型参数量不变的情况下,模型的表现是可以预测的。通过对早期的训练曲线进行推断,就能粗略估计训练更长时间后模型的表现

  • Transfer improves with text performance:当在分布不同的文本上评估模型时,结果与在验证集上的结果密切相关,损失的偏移量大致恒定。这说明用验证集的结果来作为评估指标是合理的

  • Sample efficiency:大模型能在更少的step内,更少的数据(图4)上达到相同的性能

    【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

  • Convergence is inefficient:当计算量固定时,但是模型大小和数据量没有限制时,大模型在得到最佳性能时,还远远没有收敛。最大训练效率训练比训练小模型到收敛是更 sample efficient的,数据需求随着计算量增长比较慢 D ∼ C 0.27 D \sim C^{0.27} DC0.27

  • Optimal batch size: 最好的batch size与loss有 power-law 关系,也受到梯度噪声规模的影响

总的来说,LLM的性能随着模型大小,数据量和计算量的增大平滑,可预测地提升

Summary of Scaling Laws

当性能只受除了embedding层之外的模型参数N, dataset size D, compute budgec C_min三者之一限制时,自回归的 Transformer 模型的 test loss是可以用一个 power-law预测的。

  • 模型参数受限时:

    【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

  • 数据量受限时:

    【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

  • 计算量受限时:

    • 【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

    【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

power-law α N , α D , α C m i n \alpha_N, \alpha_D, \alpha_C^{min} αN,αD,αCmin 代表当我们增加模型参数,数据量,计算量时模型性能提升的程度(越大越好), N c , D c , C c m i n N_c, D_c, C_c^{min} Nc,Dc,Ccmin的具体值没有实际意义

  • 这里看到,提升数据量提升最大,其次是模型参数,最后才是计算量

batch size与模型在测试集上的表现 L L L 之间有一个 power-law

【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

  • 模型参数和数据量的公式结合起来看,可知,当增大模型参数时,应该以 N α N α D ∼ N 0.74 N^{\frac{\alpha_N}{\alpha_D}} \sim N^{0.74} NαDαNN0.74 的比例增大数据量,这里有一个将二者结合的方程(图4.左):

    【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

  • 在有限的更新步数 S S S 下,test loss与 N , S N,S N,S 的关系为(图4.右)

    【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

    • S c ∼ 2.1 × 1 0 3 , α s ∼ 0.76 S_c \sim 2.1 \times 10^3, \alpha_s \sim 0.76 Sc2.1×103,αs0.76
    • S m i n ( S ) S_{min}(S) Smin(S) 是最小的可能的优化步数

当计算量 C C C 有限,其他因素不受限时,最佳的 N , B , S , D N,B,S,D N,B,S,D C C C 的关系是

【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习

【论文阅读】Scaling Laws for Neural Language Models,论文阅读,LLMs,自然语言处理,论文阅读,语言模型,深度学习文章来源地址https://www.toymoban.com/news/detail-558920.html

  • 计算量增大时,最应该增大的是模型大小,而不是训练时间和数据量,这也说明,当模型变大时,其更加 sample efficient(用没那么大的数据量可以训出很大的模型)
  • 然而实际上,由于硬件限制,人们通常将小模型训练更长的时间而不是追求 compute-efficient

到了这里,关于【论文阅读】Scaling Laws for Neural Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读

    Vary 的代码和模型均已开源,还给出了供大家试玩的网页 demo。感兴趣的小伙伴可以去试试 主页:https://varybase.github.io/ 部分内容参考:https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA 官网:https://openai.com/research/clip (要了解的建议看这个,篇幅少点,论文中大量篇幅是介绍实验的) 论

    2024年02月03日
    浏览(46)
  • 论文阅读《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    就上一篇博客如何写论文、读(分享汇报)论文,在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》进行实践。 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的论文,主要关注卷积神经网络(CNN)的模型缩

    2024年02月03日
    浏览(44)
  • 论文精读:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Status: Reading Author: Chunrui Han, Haoran Wei, Jianjian Sun, Jinrong Yang, Jinyue Chen, Liang Zhao, Lingyu Kong, Xiangyu Zhang, Zheng Ge Institution: 中国科学院大学, 华中科技大学, 旷视科技(MEGVII Technology) Publisher: arXiv Publishing/Release Date: December 11, 2023 Score /5: ⭐️⭐️⭐️ Type: Paper Link: https://arxiv.org/abs/

    2024年02月01日
    浏览(78)
  • LLMs 缩放指令模型Scaling instruct models FLAN(Fine-tuned LAnguage Net,微调语言网络)

    本论文介绍了FLAN(Fine-tuned LAnguage Net,微调语言网络),一种指导微调方法,并展示了其应用结果。该研究证明,通过在1836个任务上微调540B PaLM模型,同时整合Chain-of-Thought Reasoning(思维链推理)数据,FLAN在泛化、人类可用性和零射推理方面相对于基础模型取得了改进。论文

    2024年02月11日
    浏览(34)
  • 【论文阅读】A Survey on Dynamic Neural Networks for Natural Language Processing

    A Survey on Dynamic Neural Networks for Natural Language Processing 发表单位:University of California, San Diego 作者:Canwen Xu, Julian McAuley 发表会议: EACL 2023 论文地址:http://arxiv.org/abs/2202.07101 发布时间:2022.2.15(v1) 2023.2.24 (v2) 掌握主要内容 有效缩小大型Transformer模型是自然语言处理最新进展的主

    2024年02月03日
    浏览(44)
  • 论文阅读:Making Large Language Models A Better Foundation For Dense Retrieval

    论文链接 密集检索需要学习区分性文本嵌入来表示查询和文档之间的语义关系。考虑到大型语言模型在语义理解方面的强大能力,它可能受益于大型语言模型的使用。然而,LLM是由文本生成任务预先训练的,其工作模式与将文本表示为嵌入完全不同。因此,必须研究如何正确

    2024年01月21日
    浏览(57)
  • [论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models

    TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models arXiv2023 复旦大学 Benchmark、Continual Learing、LLMs 已经对齐过的大模型 (Aligned LLMs )能力很强,但持续学习能力缺乏关注; 目前CL的benchmark对于顶尖的LLMs来说过于简单,并且在指令微调存在model的potential exposure。(这里的

    2024年01月18日
    浏览(56)
  • 【视频异常检测】VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection 论文阅读

    文章信息: 发表于:AAAI(CCF A) 原文链接:https://arxiv.org/abs/2308.11681 源码链接:https://github.com/nwpu-zxr/VadCLIP 最近,对比语言-图像预训练(CLIP)模型在各种图像级任务中取得了巨大成功,展现了学习丰富语义的强大视觉表示能力。一个开放且值得探讨的问题是如何高效地将这样一

    2024年03月19日
    浏览(57)
  • [arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

    Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074 最近,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在 指令跟随 和 2D图像理解

    2024年02月02日
    浏览(56)
  • (详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Haoran Wei1∗, Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 1MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology arXiv 2023.12.11 背景: 随着大规模视觉-语言模型(LVLMs)的兴起,它们在多个领域展现出了卓

    2024年02月02日
    浏览(68)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包