LLM：Scaling Laws for Neural Language Models 理解

1年前作者：微风❤水墨分类：Toy博客阅读(6)违法举报

这篇具有很好参考价值的文章主要介绍了LLM：Scaling Laws for Neural Language Models 理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

核心结论

1：LLM模型的性能主要与计算量C，模型参数量N和数据大小D三者相关，而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足: C ≈ 6ND

2. 为了提升模型性能，模型参数量N和数据大小D需要同步放大，但模型和数据分别放大的比例还存在争议。（参见下篇文章）

首先看一下核心结论1是怎么推导得到的。

LLM：Scaling Laws for Neural Language Models 理解,LLM,人工智能,LLM

针对transformer结构：Parameters 参数量（不含embedding层）为N，每个Token前向传播消耗运算量C 约为 2N，反向传播的运算量又是前向传播运算量的两倍，所以每个Token需要花费的运算量C 约为 2N + 2*(2N) = 6N。现在Token的数量为D，所以总的运算量为C = 6N*D。

核心公式：本部分来自参考2.文章来源地址https://www.toymoban.com/news/detail-793107.html

到了这里，关于LLM：Scaling Laws for Neural Language Models 理解的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

（详细版）Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
Haoran Wei1∗, Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 1MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology arXiv 2023.12.11 背景：随着大规模视觉-语言模型（LVLMs）的兴起，它们在多个领域展现出了卓
2024年02月02日
浏览(9)
论文精读：Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
Status: Reading Author: Chunrui Han, Haoran Wei, Jianjian Sun, Jinrong Yang, Jinyue Chen, Liang Zhao, Lingyu Kong, Xiangyu Zhang, Zheng Ge Institution: 中国科学院大学, 华中科技大学, 旷视科技（MEGVII Technology） Publisher: arXiv Publishing/Release Date: December 11, 2023 Score /5: ⭐️⭐️⭐️ Type: Paper Link: https://arxiv.org/abs/
2024年02月01日
浏览(15)
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读
Vary 的代码和模型均已开源，还给出了供大家试玩的网页 demo。感兴趣的小伙伴可以去试试主页：https://varybase.github.io/ 部分内容参考：https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA 官网：https://openai.com/research/clip （要了解的建议看这个，篇幅少点，论文中大量篇幅是介绍实验的）论
2024年02月03日
浏览(9)
LLM 大模型实用指南 | The Practical Guides for Large Language Models
2024年02月09日
浏览(12)
Scaling Instruction-Finetuned Language Models
Paper name Scaling Instruction-Finetuned Language Models Paper Reading Note Paper URL: https://arxiv.org/pdf/2210.11416.pdf 2022 年谷歌出的文章，对指令微调的影响因素进行分析，提出了一些提升指令微调效果的方案。与该文章一起出品的数据集 Flanv2 也是业界公认的高质量微调数据集，对于各种公开榜
2024年02月15日
浏览(23)
21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding
官网将原始LiDAR数据作为输入，利用LLMs卓越的推理能力，来获得对室外3D场景的全面了解，将3D户外场景认知重构为语言建模问题，如3D captioning, 3D grounding, 3D question answering。给定LiDAR输入 L ∈ R n × 3 L in R^{n times 3} L ∈ R n × 3 ，n 是点的数量，使用 VoxelNet 获取 LiDAR Fe
2024年01月21日
浏览(9)
【AI人工智能】用于代码生成的大型语言模型 Large Language Models for Code Generation
目录 Large Language Models for Code Generation – Part 1用于代码生成的大型语言模型——第 1 部分 Introduction
2024年02月08日
浏览(42)
论文笔记：Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati
使用LMM生成活动轨迹的开创性工作理解活动模式（mobility pattern）——能够灵活模拟城市移动性尽管个体活动轨迹数据由于通信技术的进步而丰富，但其实际使用往往受到隐私顾虑的限制 ——生成的数据可以提供一种可行的替代方案，提供了效用和隐私之间的平衡之前有很
2024年03月11日
浏览(11)
[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding
Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074 最近，大型语言模型（LLMs）和多模态大型语言模型（MLLMs）在指令跟随和 2D图像理解
2024年02月02日
浏览(13)
LLMs 缩放指令模型Scaling instruct models FLAN（Fine-tuned LAnguage Net，微调语言网络）
本论文介绍了FLAN（Fine-tuned LAnguage Net，微调语言网络），一种指导微调方法，并展示了其应用结果。该研究证明，通过在1836个任务上微调540B PaLM模型，同时整合Chain-of-Thought Reasoning（思维链推理）数据，FLAN在泛化、人类可用性和零射推理方面相对于基础模型取得了改进。论文
2024年02月11日
浏览(12)