transformers里的BertModel之架构和参数统计

这篇具有很好参考价值的文章主要介绍了transformers里的BertModel之架构和参数统计。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

BertModel的架构：

以bert-base-chinese为例：

model = BertModel.from_pretrained("../model/bert-base-chinese")

transformers里的BertModel之架构和参数统计,python,人工智能,transformers,python,transformer

统计模型参数：

# 参数量的统计
total_params = 0 # 模型总的参数量
total_learnable_params = 0 # 可学习的参数量
total_embedding_params = 0 # embeddings 层的参数量
total_encoder_params = 0 # Encoder编码器部分的参数量
total_pooler_params = 0

for name , param  in model.named_parameters():
    print(name , "->" , param.shape)
    if param.requires_grad:
        total_learnable_params += param.numel()
    if "embedding" in name :
        total_embedding_params += param.numel()
    if "encoder" in name :
        total_encoder_params += param.numel()
    if "pooler" in name :
        total_pooler_params += param.numel()
        
    total_params += param.numel()

transformers里的BertModel之架构和参数统计,python,人工智能,transformers,python,transformer

从上面可以看出：

embedding层占比 0.16254008305735163

Encoder编码器部分占比 0.8316849528014959

pooler层占比 0.005774964141152439

总共的参数：102267648

返回值分析：

关于BertModel的文档如下：

BERTWe’re on a journey to advance and democratize artificial intelligence through open source and open science.https://huggingface.co/docs/transformers/main/en/model_doc/bert#transformers.BertModel这里进步详细解释一下：

transformers里的BertModel之架构和参数统计,python,人工智能,transformers,python,transformer