常见AI模型参数量-以及算力需求评估

这篇具有很好参考价值的文章主要介绍了常见AI模型参数量-以及算力需求评估。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

token和byte有换算关系吗?

盘古一个token=0.75个单词,1token相当于1.5个汉字;
以中文为例:token和byte的关系
1GB=0.5G token=0.25B token;
Token 设计原则理解:英文中有些单词会根据语义拆分,如overweight会被设计为2个token,over和weight;
中文中有些汉语会根据语义被整合,如“等于”、“王者荣耀”;

大模型开源链接和大模型套件

大模型 应用方向 开源链接
悟空画画 文生图 https://github.com/mindspore-lab/minddiffusion/tree/main/vision/wukong-huahua
Taichu-GLIDE 文生图 https://github.com/mindspore-lab/minddiffusion/tree/main/vision/Taichu-GLIDE
CodeGeex 代码生成 https://github.com/THUDM/CodeGeeX
鹏城盘古 文本生成预训练 https://gitee.com/mindspore/models/tree/master/official/nlp/Pangu_alpha
紫东太初 图文音三模型 https://gitee.com/mindspore/zidongtaichu
LuojiaNet 遥感框架 https://github.com/WHULuoJiaTeam/luojianet
空天灵眸 多模态遥感(当前为10亿级别参数) https://gitee.com/mindspore/ringmo-framework
大模型套件 套件内容 开源链接
mindformers transformer大模型套件 https://gitee.com/mindspore/mindformers
minddiffusion diffusion模型套件 https://github.com/mindspore-lab/minddiffusion
MindPet 微调套件 https://github.com/mindspore-lab/mindpet

大模型对推理算力需求

4-bit Model Requirements for LLaMA

Model Model Size Minimum Total VRAM Card examples RAM/Swap to Load*
LLaMA-7B 3.5GB 6GB RTX 1660, 2060, AMD 5700xt, RTX 3050, 3060 16 GB
LLaMA-13B 6.5GB 10GB AMD 6900xt, RTX 2060 12GB, 3060 12GB, 3080, A2000 32 GB
LLaMA-30B 15.8GB 20GB RTX 3080 20GB, A4500, A5000, 3090, 4090, 6000, Tesla V100 64 GB
LLaMA-65B 31.2GB 40GB A100 40GB, 2x3090, 2x4090, A40, RTX A6000, 8000, Titan Ada 128 GB

来源:https://gist.github.com/cedrickchee/255f121a991e75d271035d8a659ae44d

昇思和业界开源大模型关于算力、训练时长

参数 数据 训练算力 时长
鹏城盘古 100B 300B token 512P Ascend910 28天
鹏城盘古 200B 300B token 512P Ascend910 41天
紫东太初 1B 1.3亿图文对 16P Ascend910 10天
紫东太初 100B 300万图文对 128P Ascend910 30天
空天灵眸 1B 200w遥感图片(250G) 20P Ascend910 3天
空天灵眸 10B 500w遥感图片(600G) 20P Ascend910 30天
燃灯 20B 400B token(加载预训练权重)+200B token(新数据) 64P Ascend910 27天
CodeGeeX 13B 850B token 384P Ascend910 60天
盘古Sigma 1T 300B token 128P Ascend910 100天
悟空画画 1B 5000万图文对 64P Ascend910 30天
东方御风 2B 10W流场图 16P Ascend910 3天
GPT3 175B 300B token 2048卡 A100 15天
GPT3 175B 300B token 1024卡 A100 34天
ChatGPT 175B(预训练)+6B(强化) 300B token估算 2048卡 A100 15.25天
ASR 千万 178小时语音 4卡 Ascend910 15H
wav2vec2.0 3亿 3000小时语音 32卡 Ascend910 120H
hubert 3亿 1w小时语音 32卡 Ascend910 10天

不同参数量下算力需求

模型参数量(亿) 数据量 并行卡数(如A100) 时间(天) 算力(P/天)
1 10 300 billion token 12 40 312Tx12=3.7P;
2 100 300 billion token 128 40 312Tx128=40P;
3 1000 1 trillion token 2048 60 312Tx2048=638P;
4

典型大模型下算力需求

模型参数量(亿) 数据量 时间(天) 算力(P/天) 金额
盘古 2.6B 600G 3 110
盘古 13B 600G 7 110
ChatGPT 13 300 billion token 27.5 27.5 一次模型训练成本超过1200万美元
GPT-3 XL 13 300 billion token 27.5 27.5
GPT-3 1746 300 billion token 1 3640 一次模型训练成本超过460万美元
GPT-3.5 1 3640

注:ChatGPT训练所用的模型是基于13亿参数的GPT-3.5模型微调而来

常见AI模型参数量-以及算力需求评估

来源:https://arxiv.org/abs/2005.14165

常见AI模型参数量-以及算力需求评估

来源:https://arxiv.org/abs/2104.12369

常见AI模型参数量-以及算力需求评估

常见AI模型参数量-以及算力需求评估

常见小模型参数量

来源: https://github.com/Lyken17/pytorch-OpCounter

Model Params(M) MACs(G)
alexnet 61.10 0.77
vgg11 132.86 7.74
vgg11_bn 132.87 7.77
vgg13 133.05 11.44
vgg13_bn 133.05 11.49
vgg16 138.36 15.61
vgg16_bn 138.37 15.66
vgg19 143.67 19.77
vgg19_bn 143.68 19.83
resnet18 11.69 1.82
resnet34 21.80 3.68
resnet50 25.56 4.14
resnet101 44.55 7.87
resnet152 60.19 11.61
wide_resnet101_2 126.89 22.84
wide_resnet50_2 68.88 11.46
Model Params(M) MACs(G)
resnext50_32x4d 25.03 4.29
resnext101_32x8d 88.79 16.54
densenet121 7.98 2.90
densenet161 28.68 7.85
densenet169 14.15 3.44
densenet201 20.01 4.39
squeezenet1_0 1.25 0.82
squeezenet1_1 1.24 0.35
mnasnet0_5 2.22 0.14
mnasnet0_75 3.17 0.24
mnasnet1_0 4.38 0.34
mnasnet1_3 6.28 0.53
mobilenet_v2 3.50 0.33
shufflenet_v2_x0_5 1.37 0.05
shufflenet_v2_x1_0 2.28 0.15
shufflenet_v2_x1_5 3.50 0.31
shufflenet_v2_x2_0 7.39 0.60
inception_v3 27.16 5.75

推理训练算力需求分析

训练

主要以机器视觉应用使能人工智能算力分析为课题,其中的视觉能力训练平台、图像增强模型、目标检测、图像分割、人员跟踪需求。

对人工智能算力需求计算过程如下:

参考业界流行的视频训练算法(表一、第四章),训练一个模型需要2560TFLOPS FP16算力(8卡/周,单卡算力为320 TFLOPS FP16),运算时间为7天左右,且通常需要训练大于8~10次才能找到一个满意的模型。

考虑2天的调测,安装和模型更新时间,则一个模型的训练周一为10天。

综上,至少需占用要2560*8=20480 TFLOPS FP16算力,才能在10天内找到一个满意的训练模型;

按照目标检测,分割,跟踪等常规模型统计,预计一年有30+任务需要分别训练;总算力需求20PFLOPS FP16。

表一:业界流行的视频训练算法
序号 算法分类 算法需求 模型参考 数据量参考 所需算力 (TFLOPS FP16) 训练时间/周 训练次数
1 视频异常检测 CLAWS >200G视频数据 20480 1 10
2 视频异常检测 C3D 20480 1 10
3 视频活动分析 SlowFast 20480 1 10
4 视频活动分析 AlphAction 20480 1 10
5 图像分类基础网络 ResNet系列:resnet18, resnet34, resnet50, resnet101 resnet50, ImageNet, ~150G图片 2560 1 8
6 MobileNet系列:MobileNetV1, MobileNetV2, MobileNetV3 mobilenetv2, 2560 1 8
7 人脸识别算法 图像分类Backbone,FaceNet FaceNet NN1, MS-Celeb-1M LFW, 1万+张图片 Adience, 2万+张图片 Color FERET, 1万+张图片 2560 1 8
8 目标检测 一阶段:SSD,yolo系列:yolov3, yolov4, yolov5 YOLOv3-608, COCO 2017, >25F数据 2560 1 8
9 二阶段:FasterRCNN faster rcnn + resnet101, 2560 1 8
10 分割算法 yolact, yolact++(unet、unet++) maskrcnn+resnet50 fpn, 2560 1 8
11 MaskRCNN 2560 1 8
12 人员跟踪 DensePeds 100G图片 2560 1 8
13 底层图像增强 CycleGAN等 >10G视频数据 2560 1 8
14 维护预测算法 >1G数据 2560 1 8
15 洗煤优化算法 >1G数据 2560 1 8

推理

推理服务器算力资源:采用适合张量计算的创新人工智能芯片架构,提供高性能视频解析能力和人工智能算力,用于AI应用场景人工智能算法的推理,系统支持3000路视频流解析;

基于昇腾芯片的AI推理卡,主要用于视频对象和行为分析,需要从视频流中提取对象和行为数据,每块AI推理卡的算力为88T(INT8)。

不同的算法模型对计算能力的要求不同,对于视频分析场景,通过业界主流ISV在该AI推理卡的测试结果来看,在每路视频的分辨率为不低于1080P,帧率不低于25帧,同屏检测目标数不低于5个的情况下,每路视频需要5.5T(INT8)的算力进行解析。单张AI推理卡算力为88T(INT8),所以每张推理卡可支持16路视频的分析。

如当前业务需要接入3000路视频的需求来计算,共需要的AI推理卡的数量为:3000/16≈188块。考虑到数据加工集群建模的并行效率(一般集群的并行效率为90%左右),留出适当的资源后需要的NPU卡的数量为:188/0.9≈209块。

参考

1、https://arxiv.org/abs/2005.14165

2、CNN的参数量、计算量(FLOPs、MACs)与运行速度文章来源地址https://www.toymoban.com/news/detail-459857.html

到了这里,关于常见AI模型参数量-以及算力需求评估的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 最高20倍!压缩ChatGPT等模型文本提示,极大节省AI算力

    最高20倍!压缩ChatGPT等模型文本提示,极大节省AI算力_信息_段落_问题 在长文本场景中,ChatGPT 等大语言模型经常面临更高算力成本、更长的延迟以及更差的性能。为了解决这三大难题,微软开源了 LongLLMLingua。 据悉,LongLLMLingua 的核心技术原理是将“文本提示”实现最高 2

    2024年02月19日
    浏览(35)
  • 第五章:AI大模型的性能评估5.2 评估方法

    随着AI技术的发展,大型AI模型已经成为了研究和实际应用中的重要组成部分。为了确保这些模型的性能和可靠性,性能评估是一个至关重要的环节。在本章中,我们将讨论AI大模型性能评估的核心概念、算法原理、最佳实践以及实际应用场景。 在AI领域,性能评估是指评估模

    2024年02月22日
    浏览(41)
  • 成为AI产品经理——模型评估(混淆矩阵)

    混淆矩阵有两个定义 positive(正例) 和 negative(反例) 。分别代表模型结果的好和坏。 下图就是一个分类问题的混淆矩阵。横行代表真实的情况,而竖行代表预测的结果。 为了便于理解,我在这里举一个分出瓜的好坏的分类问题。 TP: True Positive,真正例。表示这个瓜实际

    2024年02月03日
    浏览(62)
  • 数学模型——垃圾运输问题,运输车的路径以及数量选择(含matlab代码)

    垃圾运输问题可以看作是一个NP完全问题,但很遗憾的是,目前我们所掌握的数学知识并不足以让我们找到一个有效找到NP完全问题全局最优解的算法,甚至,在数学界中还无法确定NP完全问题是否真的存在找到全局最优解的有效算法。在本问题中,我选择通过 遍历和迭代 来

    2023年04月08日
    浏览(35)
  • Top-1错误率、Top-5错误率等常见的模型算法评估指标解析

    Top-1 错误率: 指预测输出的概率最高的类别与人工标注的类别相符的准确率,就是你预测的label取最后概率向量里面最大的那一个作为预测结果,如过你的预测结果中概率最大的那个分类正确,则预测正确,否则预测错误。比如预测100张图像的类别,每张图像的最高概率错误

    2024年02月05日
    浏览(58)
  • AGI时代的奠基石:Agent+算力+大模型是构建AI未来的三驾马车吗?

     ★AI Agent;人工智能体,RPA;大语言模型;prompt;Copilot;AGI;ChatGPT;LLM;AIGC;CoT;Cortex;Genius;MetaGPT;大模型;人工智能;通用人工智能;数据并行;模型并行;流水线并行;混合精度训练;梯度累积;Nvidia;A100;H100;A800;H800;L40s;混合专家;910B;HGX H20;L20 PCIe;L2 PCIe

    2024年02月04日
    浏览(42)
  • LLM - 训练与推理过程中的 GPU 算力评估

    目录 一.引言 二.FLOPs 和 TFLOPs ◆ FLOPs [Floating point Opearation Per Second] ◆ TFLOPs [Tera Floating point Opearation Per Second] 三.训练阶段的 GPU 消耗 ◆ 影响训练的因素 ◆ GPT-3 训练统计 ◆ 自定义训练 GPU 评估 四.推理阶段的 GPU 消耗 ◆ 影响推理的因素 ◆ 自定义推理 GPU 评估 ◆ 计算差异

    2024年02月06日
    浏览(42)
  • 干货 | 算力网络节点可信度评估和安全管控方案

    以下内容整理自清华大学《数智安全与标准化》课程大作业期末报告同学的汇报内容。 第一部分:算力网络 第二部分:可信度评估 一、可信度评估 在整个算力网络处理任务的实施流程中,不同部分有不同可信度评估的方法,具体包括: 用户可信度、任务可信度、算力资源

    2023年04月08日
    浏览(44)
  • 【AI大模型应用开发】【RAG评估】1. 通俗易懂:深度理解RAGAS评估方法的原理与应用

    大家好,我是同学小张,日常分享AI知识和实战案例 欢迎 点赞 + 关注 👏, 持续学习 , 持续干货输出 。 +v: jasper_8017 一起交流💬,一起进步💪。 微信公众号也可搜【同学小张】 🙏 本站文章一览: 上篇文章【AI大模型应用开发】【RAG评估】0. 综述:一文了解RAG评估方法、

    2024年04月13日
    浏览(40)
  • AIGC爆发算力引领数据中心(IDC)长期需求

    什么是IDC? 互联网数据中心(IDC)是指拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、开展互联网业务的数据中心¹。 我国数据中心行业由基础电信运营商和第三方IDC运营商主导。根据中国信通院测算,2022年第三方数据中心运营商

    2024年04月24日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包