使用Bert,ERNIE,进行中文文本分类

这篇具有很好参考价值的文章主要介绍了使用Bert,ERNIE,进行中文文本分类。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

GitHub - 649453932/Bert-Chinese-Text-Classification-Pytorch: 使用Bert,ERNIE,进行中文文本分类使用Bert,ERNIE,进行中文文本分类. Contribute to 649453932/Bert-Chinese-Text-Classification-Pytorch development by creating an account on GitHub.https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch使用Bert,ERNIE,进行中文文本分类,bert,分类,人工智能

 

gayhub上有一个项目,用Bert和ERNIE进行中文文本分类的,基于pytorch运行的挺好,但是在使用过程中有几个修改的地方。 

1. 运行时报错没有THUCNews/saved_dict这个位置,新建个文件夹就行了。

# 中文模型
# https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch/tree/master
预训练模型下载地址:
bert_Chinese: 模型 https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese.tar.gz
词表 https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-vocab.txt
备用:模型的网盘地址:https://pan.baidu.com/s/1qSAD5gwClq7xlgzl_4W3Pw
ERNIE_Chinese: http://image.nghuyong.top/ERNIE.zip
备用:网盘地址:https://pan.baidu.com/s/1lEPdDN1-YQJmKEd_g9rLgw
解压后,按照上面说的放在对应目录下,文件名称确认无误即可。

# 缺文件夹
mkdir -p  THUCNews/saved_dict/

2.项目有几个依赖库需要安装一下:

pip install torch


pip install tqdm scikit-learn tensorboardX  -i  https://pypi.tuna.tsinghua.edu.cn/simple/
pip install boto3 requests regex

python3 run.py  --model bert

3.代码在运行时会报几个Warning,大概是pytorch升级了,旧的函数被弃用,不影响运行。

但可以如此修改以消除警告。文章来源地址https://www.toymoban.com/news/detail-528666.html

pytorch_pretrained\optimization.py:275: UserWarning: This overload of add_ is deprecated:
add_(Number alpha, Tensor other)
Consider using one of the following signatures instead:
add_(Tensor other, *, Number alpha) (Triggered internally at ..\torch\csrc\utils\python_arg_parser.cpp:1025.)
改为:
next_m.mul_(beta1).add_(1 - beta1, grad)

改为add_(grad, alpha=1 - beta1)即可
.addcmul(grad, grad, value = 1-beta2)

到了这里,关于使用Bert,ERNIE,进行中文文本分类的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 用pytorch进行BERT文本分类

    BERT 是一个强大的语言模型,至少有两个原因: 它使用从 BooksCorpus (有 8 亿字)和 Wikipedia(有 25 亿字)中提取的未标记数据进行预训练。 顾名思义,它是通过利用编码器堆栈的双向特性进行预训练的。这意味着 BERT 不仅从左到右,而且从右到左从单词序列中学习信息。 B

    2024年02月11日
    浏览(27)
  • 【学习草稿】bert文本分类

    https://github.com/google-research/bert https://github.com/CyberZHG/keras-bert 在 BERT 中,每个单词的嵌入向量由三部分组成: Token 嵌入向量:该向量是 WordPiece 分词算法得到的子单词 ID 对应的嵌入向量。 Segment 嵌入向量:该向量用于表示每个单词所属的句子。对于一个包含两个句子的序列,

    2024年02月07日
    浏览(32)
  • pycorrector一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果

    pycorrector : 中文文本纠错工具。支持中文音似、形似、语法错误纠正,python3开发。实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。 当然,针对不同业务场景,这些问题并不一定全部存在,比如拼音输入法

    2024年02月13日
    浏览(25)
  • Bert + 架构解决文本分类任务

    ![在这里插入图片描述] 一般任务 = 预训练 + 架构 + 应用 在本文中,我们将用 BERT + 架构去实现文本分类 任务 未使用BERT架构,使用基本的模型架构解决文本分类任务的可见这篇文章 中文文本分类,基本模型的pytoch实现 - 影子的文章 - 知乎 https://zhuanlan.zhihu.com/p/577121058 BERT 最

    2023年04月13日
    浏览(27)
  • 文本情感分类模型之BERT

    BERT是google开源的一种自然语言处理领域的经典模型,全称是 B idirectional  E ncoder  R epresentations from  T ransformers 。它使用多头注意力和位置嵌入,来替换不易并行的循环神经网络。它的出现一举打破自然语言处理领域11个不同问题的记录,直接将自然语言处理推动到了一个新的

    2024年02月03日
    浏览(26)
  • NLP之Bert实现文本分类

    首先,概述一下代码的主要目的和流程。 主要目的 : 此代码的主要目的是使用BERT模型进行序列分类。具体来说,它似乎是在处理某种情感分析任务,因为代码中读取了标签和文本,并试图用BERT模型来进行分类(假设为正面或负面情感,因为 num_labels=2 )。 整体流程 : 导入

    2024年02月05日
    浏览(31)
  • 基于BERT对中文邮件内容分类

    本文是《用BERT做中文邮件内容分类》系列的第二篇,该系列项目持续更新中。系列的起源是《使用PaddleNLP识别垃圾邮件》项目,旨在解决企业面临的垃圾邮件问题,通过深度学习方法探索多语言垃圾邮件的内容、标题提取与分类识别。 在本篇文章中,我们使用PaddleNLP的BERT预

    2024年01月22日
    浏览(34)
  • 3 文本分类入门finetune:bert-base-chinese

    项目实战:         `bert-base-chinese` 是一种预训练的语言模型,基于 BERT(Bidirectional Encoder Representations from Transformers)架构,专门用于中文自然语言处理任务。BERT 是由 Google 在 2018 年提出的一种革命性的预训练模型,通过大规模的无监督训练,能够学习到丰富的语言表示

    2024年02月04日
    浏览(33)
  • jupyter快速实现单标签及多标签多分类的文本分类BERT模型

    jupyter实现pytorch版BERT(单标签分类版) nlp-notebooks/Text classification with BERT in PyTorch.ipynb 通过改写上述代码,实现多标签分类 参考解决方案 ,我选择的解决方案是继承BertForSequenceClassification并改写,即将上述代码的ln [9] 改为以下内容:

    2024年02月02日
    浏览(26)
  • 【AI实战】BERT 文本分类模型自动化部署之 dockerfile

    本文主要介绍: 基于BERT的文本分类模型,样本不均衡的多分类loss函数的写法 dockerfile自动构建docker镜像,服务部署 BERT 的全称为 Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言

    2024年02月12日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包