深度学习常见模型大小汇总(持续更新...)

这篇具有很好参考价值的文章主要介绍了深度学习常见模型大小汇总(持续更新...)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

本篇博客将记录深度学习领域常见模型的大小,具体算法如下

torchinfo.summary(model)

模型可能来自于PyTorch官方,HuggingFace等。

如有错误或者建议欢迎在评论区指出。

第三方库 版本
transformers 4.30.2
PyTorch 2.0.1

1. NLP

1.1 Transformer架构

Encoder-Only架构

模型 来源 总参数量 总参数量
BERT-base HuggingFace 109,482,240 109.5M
BERT-large HuggingFace 335,141,888 335.1M
RoBERTa-base HuggingFace 124,645,632 124.6M
RoBERTa-large HuggingFace 355,359,744 355.3M
DeBERTa-base HuggingFace 138,601,728 138.6M
DeBERTa-large HuggingFace 405,163,008 405.2M
DeBERTa-xlarge HuggingFace 757,804,032 757.8M
DistilBERT HuggingFace 66,362,880 66.4M

Decoder-Only架构

模型 来源 总参数量 总参数量
GPT HuggingFace 116,534,784 116.5M
GPT-2 HuggingFace 124,439,808 124.4M
GPT-2-medium HuggingFace 354,823,168 354.8M
GPT-2-large HuggingFace 774,030,080 774.0M
GPT-J HuggingFace 5,844,393,984 5.8B
LLaMA HuggingFace 6,607,343,616 6.6B

Encoder-Decoder架构文章来源地址https://www.toymoban.com/news/detail-538792.html

模型 来源 总参数量 总参数量
Transformer PyTorch 44,140,544 44.1M
T5-small HuggingFace 93,405,696 93.4M
T5-base HuggingFace 272,252,160 272.3M
T5-large HuggingFace 803,466,240 803.5M

2. CV

2.1 CNN架构

模型 来源 总参数量 总参数量
AlexNet PyTorch 61,100,840 61.1M
GoogLeNet PyTorch 13,004,888 13.0M
VGG-11 PyTorch 132,863,336 132.9M
VGG-13 PyTorch 133,047,848 133.0M
VGG-16 PyTorch 138,357,544 138.4M
VGG-19 PyTorch 143,667,240 143.7M
ResNet-18 PyTorch 11,689,512 11.7M
ResNet-34 PyTorch 21,797,672 21.8M
ResNet-50 PyTorch 25,557,032 25.6M
ResNet-101 PyTorch 44,549,160 44.5M
ResNet-152 PyTorch 60,192,808 60.2M

2.2 Transformer架构

模型 来源 总参数量 总参数量
SwinTransformer-tiny PyTorch 28,288,354 28.3M
SwinTransformer-small PyTorch 49,606,258 49.6M
SwinTransformer-base PyTorch 87,768,224 87.8M
ViT-base-16 PyTorch 86,567,656 86.6M
ViT-base-32 PyTorch 88,224,232 88.2M
ViT-large-16 PyTorch 304,326,632 304.3M
ViT-large-32 PyTorch 306,535,400 306.5M
ViT-Huge-14 PyTorch 632,045,800 632.0M

到了这里,关于深度学习常见模型大小汇总(持续更新...)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 开源大语言模型(LLM)汇总(持续更新中)

    随着ChatGPT的火爆,越来越多人希望在本地运行一个大语言模型。为此我维护了这个开源大语言模型汇总,跟踪每天不发的大语言模型和精调语言模型。 我将根据个模型采用的基础大模型进行分类,每个大模型下列出各派生模型。 斯坦福Alpaca:一种指令遵从型 LLaMA 模型。 🏠

    2023年04月17日
    浏览(27)
  • 李宏毅 深度学习【持续更新】

    csdn快速入门 https://blog.csdn.net/PolarisRisingWar/article/details/116069338 工具箱dir() 、help() 或者 类名??、 ipython交互式操作 pycharm 的好处就是可以看到实时变量的值 OS包 os.path.join() 拼接路径 os.listdir( ) 返回目录下的文件列表 PIL包 from PIL import Image 导入 Image.open(path) 读取图片, 读出的图

    2023年04月27日
    浏览(27)
  • 【STM32】江科大STM32学习笔记汇总(持续更新中...)

    【STM32】STM32学习笔记-课程简介(01) 【STM32】STM32学习笔记-STM32简介(02) 【STM32】STM32学习笔记-软件安装(03) 【STM32】STM32学习笔记-新建工程(04) 【STM32】STM32学习笔记-GPIO输出(05) 【STM32】STM32学习笔记-GPIO相关API概述(06-1) 【STM32】STM32学习笔记-LED闪烁 LED流水灯 蜂鸣器(06-2) 【STM32】

    2024年02月22日
    浏览(34)
  • 深度学习踩坑经验沉淀【持续更新】

    在深度学习炼丹过程中,总会遇到各种奇怪问题,这个时候总会在csdn和知乎平台找到答案,那每次遇到的问题是解决了,但没有记录起来,确实太可惜,因为未来某个时间或者某个人会遇到类似问题,所以在这片文章专项整理,pytorch、python、conda、pip等问题,希望能给大家更

    2024年02月05日
    浏览(40)
  • 【Unity引擎技术整合】 Unity学习路线 | 知识汇总 | 持续更新 | 保持乐趣 | 共同成长

    前言 本文对 Unity引擎 的知识进行了一个整理总结,基本包含了Unity中大部分的知识介绍。 网上也有很多Unity相关的学习资料,但大多数都不成体系,学起来的时候难免会东奔西走的摸不着头脑。 本文整理的多数文章都是有对应的 系列性文章专栏 ,可以更方便的进行系统学习

    2024年02月03日
    浏览(45)
  • 数据集收集列表(opencv,机器学习,深度学习)持续更新

    opencv 车牌识别数据集 opencv 手写数字识别数据集 ,下载地址 ,下载

    2024年02月11日
    浏览(29)
  • 深度学习面试八股文(2023.9.06持续更新)

    一、优化器 1、SGD是什么? 批梯度下降(Batch gradient descent):遍历全部数据集算一次损失函数,计算量开销大,计算速度慢,不支持在线学习。 随机梯度下降(Stochastic gradient descent,SGD) 每次随机选择一个数据计算损失函数,求梯度并更新参数,计算速度快,但收敛性能可

    2024年02月09日
    浏览(30)
  • 北邮22级信通院数电:Verilog-FPGA(1)实验一“跑通第一个例程” 过程中遇到的常见问题与解决方案汇总(持续更新中)

    北邮22信通一枚~ 跟随课程进度更新北邮信通院数字系统设计的笔记、代码和文章 持续关注作者 迎接数电实验学习~ 获取更多文章,请访问专栏: 北邮22级信通院数电实验_青山如墨雨如画的博客-CSDN博客 目录 问题一:Verilog代码没有跑通  报错信息: 错因分析: 问题二:已连

    2024年02月07日
    浏览(46)
  • 算法面试-深度学习基础面试题整理-AIGC相关(2023.9.01开始,持续更新...)

    1、stable diffusion和GAN哪个好?为什么 ? Stable diffusion是一种基于随机微分方程的生成方法,它通过逐步增加噪声来扰动原始图像,直到完全随机化。然后,它通过逐步减少噪声来恢复图像,同时使用一个神经网络来预测下一步的噪声分布。Stable Diffusion的优点是可以在连续的潜

    2024年02月10日
    浏览(36)
  • 【最新】生成式人工智能(AIGC)与大语言模型(LLM)学习资源汇总

    a) Andrej Karpathy 的 - 大型语言模型简介:https://www.youtube.com/watch?v=zjkBMFhNj_g 该视频对 LLMs 进行了一般性和高级的介绍,涵盖推理、缩放、微调、安全问题和提示注入等主题。 b) Nvidia 的生成式 AI 介绍:Course Detail | NVIDIA 注意: 本课程需要您先登录 nvidia,然后才能看到详细信息。

    2024年04月26日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包