深度学习常见模型大小汇总（持续更新...）

9月前作者：Iareges 分类：Toy博客阅读(42) 违法举报

这篇具有很好参考价值的文章主要介绍了深度学习常见模型大小汇总（持续更新...）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

本篇博客将记录深度学习领域常见模型的大小，具体算法如下

torchinfo.summary(model)

模型可能来自于PyTorch官方，HuggingFace等。

如有错误或者建议欢迎在评论区指出。

第三方库	版本
transformers	4.30.2
PyTorch	2.0.1

1. NLP

1.1 Transformer架构

Encoder-Only架构

模型	来源	总参数量	总参数量
BERT-base	HuggingFace	109,482,240	109.5M
BERT-large	HuggingFace	335,141,888	335.1M
RoBERTa-base	HuggingFace	124,645,632	124.6M
RoBERTa-large	HuggingFace	355,359,744	355.3M
DeBERTa-base	HuggingFace	138,601,728	138.6M
DeBERTa-large	HuggingFace	405,163,008	405.2M
DeBERTa-xlarge	HuggingFace	757,804,032	757.8M
DistilBERT	HuggingFace	66,362,880	66.4M

Decoder-Only架构

模型	来源	总参数量	总参数量
GPT	HuggingFace	116,534,784	116.5M
GPT-2	HuggingFace	124,439,808	124.4M
GPT-2-medium	HuggingFace	354,823,168	354.8M
GPT-2-large	HuggingFace	774,030,080	774.0M
GPT-J	HuggingFace	5,844,393,984	5.8B
LLaMA	HuggingFace	6,607,343,616	6.6B

Encoder-Decoder架构文章来源地址https://www.toymoban.com/news/detail-538792.html

模型	来源	总参数量	总参数量
Transformer	PyTorch	44,140,544	44.1M
T5-small	HuggingFace	93,405,696	93.4M
T5-base	HuggingFace	272,252,160	272.3M
T5-large	HuggingFace	803,466,240	803.5M

2. CV

2.1 CNN架构

模型	来源	总参数量	总参数量
AlexNet	PyTorch	61,100,840	61.1M
GoogLeNet	PyTorch	13,004,888	13.0M
VGG-11	PyTorch	132,863,336	132.9M
VGG-13	PyTorch	133,047,848	133.0M
VGG-16	PyTorch	138,357,544	138.4M
VGG-19	PyTorch	143,667,240	143.7M
ResNet-18	PyTorch	11,689,512	11.7M
ResNet-34	PyTorch	21,797,672	21.8M
ResNet-50	PyTorch	25,557,032	25.6M
ResNet-101	PyTorch	44,549,160	44.5M
ResNet-152	PyTorch	60,192,808	60.2M

2.2 Transformer架构

模型	来源	总参数量	总参数量
SwinTransformer-tiny	PyTorch	28,288,354	28.3M
SwinTransformer-small	PyTorch	49,606,258	49.6M
SwinTransformer-base	PyTorch	87,768,224	87.8M
ViT-base-16	PyTorch	86,567,656	86.6M
ViT-base-32	PyTorch	88,224,232	88.2M
ViT-large-16	PyTorch	304,326,632	304.3M
ViT-large-32	PyTorch	306,535,400	306.5M
ViT-Huge-14	PyTorch	632,045,800	632.0M

到了这里，关于深度学习常见模型大小汇总（持续更新...）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

开源大语言模型(LLM)汇总（持续更新中）

随着ChatGPT的火爆，越来越多人希望在本地运行一个大语言模型。为此我维护了这个开源大语言模型汇总，跟踪每天不发的大语言模型和精调语言模型。我将根据个模型采用的基础大模型进行分类，每个大模型下列出各派生模型。斯坦福Alpaca：一种指令遵从型 LLaMA 模型。 🏠

2023年04月17日
浏览(41)
李宏毅深度学习【持续更新】

csdn快速入门 https://blog.csdn.net/PolarisRisingWar/article/details/116069338 工具箱dir() 、help() 或者类名??、 ipython交互式操作 pycharm 的好处就是可以看到实时变量的值 OS包 os.path.join() 拼接路径 os.listdir( ) 返回目录下的文件列表 PIL包 from PIL import Image 导入 Image.open(path) 读取图片，读出的图

2023年04月27日
浏览(62)
【STM32】江科大STM32学习笔记汇总(持续更新中...)

【STM32】STM32学习笔记-课程简介(01) 【STM32】STM32学习笔记-STM32简介(02) 【STM32】STM32学习笔记-软件安装(03) 【STM32】STM32学习笔记-新建工程(04) 【STM32】STM32学习笔记-GPIO输出(05) 【STM32】STM32学习笔记-GPIO相关API概述(06-1) 【STM32】STM32学习笔记-LED闪烁 LED流水灯蜂鸣器(06-2) 【STM32】

2024年02月22日
浏览(46)
深度学习踩坑经验沉淀【持续更新】

在深度学习炼丹过程中，总会遇到各种奇怪问题，这个时候总会在csdn和知乎平台找到答案，那每次遇到的问题是解决了，但没有记录起来，确实太可惜，因为未来某个时间或者某个人会遇到类似问题，所以在这片文章专项整理，pytorch、python、conda、pip等问题，希望能给大家更

2024年02月05日
浏览(48)
【Unity引擎技术整合】 Unity学习路线 | 知识汇总 | 持续更新 | 保持乐趣 | 共同成长

前言本文对 Unity引擎的知识进行了一个整理总结，基本包含了Unity中大部分的知识介绍。网上也有很多Unity相关的学习资料，但大多数都不成体系，学起来的时候难免会东奔西走的摸不着头脑。本文整理的多数文章都是有对应的系列性文章专栏，可以更方便的进行系统学习

2024年02月03日
浏览(63)
数据集收集列表（opencv,机器学习，深度学习）持续更新

opencv 车牌识别数据集 opencv 手写数字识别数据集，下载地址，下载

2024年02月11日
浏览(72)
深度学习面试八股文（2023.9.06持续更新）

一、优化器 1、SGD是什么？批梯度下降（Batch gradient descent）：遍历全部数据集算一次损失函数，计算量开销大，计算速度慢，不支持在线学习。随机梯度下降（Stochastic gradient descent，SGD）每次随机选择一个数据计算损失函数，求梯度并更新参数，计算速度快，但收敛性能可

2024年02月09日
浏览(42)
北邮22级信通院数电：Verilog-FPGA（1）实验一“跑通第一个例程” 过程中遇到的常见问题与解决方案汇总（持续更新中）

北邮22信通一枚~ 跟随课程进度更新北邮信通院数字系统设计的笔记、代码和文章持续关注作者迎接数电实验学习~ 获取更多文章，请访问专栏：北邮22级信通院数电实验_青山如墨雨如画的博客-CSDN博客目录问题一：Verilog代码没有跑通报错信息：错因分析：问题二：已连

2024年02月07日
浏览(64)
算法面试-深度学习基础面试题整理-AIGC相关（2023.9.01开始，持续更新...）

1、stable diffusion和GAN哪个好？为什么？ Stable diffusion是一种基于随机微分方程的生成方法，它通过逐步增加噪声来扰动原始图像，直到完全随机化。然后，它通过逐步减少噪声来恢复图像，同时使用一个神经网络来预测下一步的噪声分布。Stable Diffusion的优点是可以在连续的潜

2024年02月10日
浏览(48)
【最新】生成式人工智能(AIGC)与大语言模型(LLM)学习资源汇总

a) Andrej Karpathy 的 - 大型语言模型简介：https://www.youtube.com/watch?v=zjkBMFhNj_g 该视频对 LLMs 进行了一般性和高级的介绍，涵盖推理、缩放、微调、安全问题和提示注入等主题。 b) Nvidia 的生成式 AI 介绍：Course Detail | NVIDIA 注意：本课程需要您先登录 nvidia，然后才能看到详细信息。

2024年04月26日
浏览(59)