NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】

这篇具有很好参考价值的文章主要介绍了NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

NeuralNLP-NeuralClassifier的使用记录,训练预测自己的英文文本多分类

NeuralNLP-NeuralClassifier是腾讯开发的一个多层多分类应用工具,支持的任务包括,文本分类中的二分类、多分类、多标签,以及层次多标签分类。支持的文本编码模型包括 FastText, TextCNN, TextRNN, RCNN, VDCNN等。这篇博客将介绍如何使用这个项目实现文本的多标签多分类任务。

这里记录本人的英文文本分类,总共分6类。数据背景是:

2023 国际高等教育数学成型竞赛-A题 购物评论的数据分析的英文评论数据。

NeuralNLP-NeuralClassifier项目代码地址:
GitHub项目原开源代码

文章末有本次实验全部代码和数据。上传百度网盘,下载解压即可使用

项目目录介绍:

|--conf     # config文件存放目录
|--data    # 所有数据和schema存放目录
|--dataset  # 构建dataloader所需脚本
|--evaluate
|--model
    |--classification   # 项目中使用到的所有特征编码器
    |--attention.py
    |--embedding.py
    |-- ......  各模型通用的一些模块
|--predict.txt    # 执行预测生成的预测结果
|--checkpoint_dir_{}  # 训练过程中保存下来的权重文件目录
|--dict_{}              # 加载数据时产生的缓存文件目录
|--train.py            # 官方提供的训练脚本
|--eval.py            # 官方提供的评估脚本
|--predict.py        # 官方提供的预测脚本

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

一、构建自己的数据集格式

数据样式很简单,逐行的json格式,包括四个字段,使用者需要按照如下的形式去组织数据:

{
    "doc_label":["Computer--MachineLearning--DeepLearning", "Neuro--ComputationalNeuro"],
    "doc_token": ["I", "love", "deep", "learning"],
    "doc_keyword": ["deep learning"],
    "doc_topic": ["AI", "Machine learning"]
}

"doc_keyword" and "doc_topic" are optional.

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

"doc_label"就是这篇文档对应的所有标签构成的list,如果是单分类任务,list的长度为1,层次分类任务,各层之间用“–”进行分隔;

"doc_token"是这篇文档对应的所有token,中文可以使用各种分词工具进行分词。

“doc_keyword” 和"doc_topic"是在fasttext算法中提供额外的输入特征的,可以不提供,但是这两个字段必须要有,可以置为空。

二、构建自己的数据集:

自己数据数据处理成JSON文件,一段英文文本的标签,以及它的文本的词等等…

如何构建自己数据集url

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

编写自己数据的文本标签类别,我这里是数字标签,也可以文本标签,代表自己数据集总共有哪些标签。

后面的训练配置文件需要填入该文件的路径

三、训练:

模拟conf/train.json,自己数据就得写训练配置参数:

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

训练配置参数主要修改:

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

训练命令:

终端命令界面:

python train.py conf/english_train_conf.json

训练完后会生成相应的文件夹:有保存模型权重的、以及记录训练的:

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

验证命令:

python eval.py conf/english_train_conf.json

运行完后会生成混淆矩阵,评价指标:

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

四、预测:

预测时,构造预测数据,类似于训练的数据集,只是label为空:

处理待测的数据集,处理成JSON文件,如何处理,请看另一篇博文:
NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

放入文件夹:

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

预测命令:

python predict.py conf/english_train_conf.json englishdata/pridetct.json 

预测完后:

会生成predict.txt文本,txt里每一行就是每一个英文文本的预测分类:

NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】,分类,数据挖掘,人工智能

代码获取:

链接:https://pan.baidu.com/s/1PSA_0rMAzVBNGUmZQBczdw
提取码:2023文章来源地址https://www.toymoban.com/news/detail-653294.html

到了这里,关于NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用happytransformer对gpt-neo进行训练的过程记录

    本文使用的是Python3.10.12的Docker环境 在Python3.10环境中安装以下工具包:xformers、transformers v4.31.0、torch 2.0.1+cu118、happytransformer v2.4.1、accelerate v0.21.0 That\\\'s all.

    2024年02月16日
    浏览(61)
  • SSD训练数据集流程(学习记录)

    关于理论部分我看的是b站“霹雳吧啦Wz”的SSD理论讲解,作为入门小白表示能听懂,需要的同学可以自行观看 目录 1.训练环境 2.训练步骤 我的环境是win11+anaconda+python3.6.13+pytorch1.10.2+cuda11.6 (1)下载SSD源码 可到github进行下载 GitHub - amdegroot/ssd.pytorch: A PyTorch Implementation of Sing

    2023年04月09日
    浏览(38)
  • yolov7配置与训练记录(二)

    yolov7配置与训练记录(一) 已经完成了环境的配置,下面开始文件内部的操作 yolov7官方下载地址为 1 将下载好的预训练权重放在 yolov7-main/weights 内 需要在yolov7中新建weights文件夹(也是为了方便管理权重文件) 测试 如果未报错,则说明成功 2 将准备好的数据放在 yolov7-main/datasets 内

    2024年02月02日
    浏览(54)
  • SwinIR实战:详细记录SwinIR的训练过程

    论文地址:https://arxiv.org/pdf/2108.10257.pdf 预训练模型下载:https://github.com/JingyunLiang/SwinIR/releases 训练代码下载:https://github.com/cszn/KAIR 测试代码:https://github.com/JingyunLiang/SwinIR 论文翻译:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/124434886 测试:https://wanghao.blog.csdn.net/article/d

    2024年01月16日
    浏览(44)
  • nerf训练自己的数据,过程记录十分详细

           之前跑很多项目没有记录,后来再弄就不行了。这次特别记录一下,在梳理流程的同时希望给大家带来小小的帮助!我自己是在cuda11.2,windows环境下成功的,过程十分详细,有需要的朋友耐心看完。有问题可以评论区交流         首先,本文nerf是基于pytorch训练的,

    2024年02月03日
    浏览(47)
  • 基于yoloV7添加关键点训练记录

    yoloV7已经开源有一段时间了,近期已经基于yoloV7-pose的关键点算法进行了研究和修改。目前已经将该工程修改为,多分类+任意数量关键点:修改详细请看博客:基于yoloV7-pose添加任意关键点 + 多类别分类网络修改,修改代码已经开源:github地址,如果对大家有帮助也希望可以

    2024年01月17日
    浏览(51)
  • huggingface的diffusers训练stable diffusion记录

    目录 1.原理                 扩散模型的目的是什么?                         扩散模型是怎么做的?                         前向过程在干啥?                 反向过程在干啥? 2.安装环境 3.lora 训练 4.推理 5.源代码​         

    2024年04月26日
    浏览(34)
  • ptuning v2 的 chatglm垂直领域训练记录

    thunlp chatglm 6B是一款基于海量高质量中英文语料训练的面向文本对话场景的语言模型。 THUDM/ChatGLM-6B: ChatGLM-6B:开源双语对话语言模型 | An Open Bilingual Dialogue Language Model (github.com) 国内的一位大佬把chatglm ptuning 的训练改成了多层多卡并行训练的实现 zero_nlp/Chatglm6b_ModelParallel_pt

    2024年02月06日
    浏览(42)
  • YOLOV8目标检测——最全最完整模型训练过程记录

    本文记录一下yolov8训练目标检测模型的过程,以及其中的一些需要注意的地方。本人是yolov5直接使用的yolov8,因此本文也记录了与yolov5的训练过程不一样的地方。 原创声明:如有转载请注明文章来源。码字不易,如对卿有所帮助,欢迎评论、点赞、收藏。 这边说一下,pip这

    2024年02月07日
    浏览(54)
  • 【服务器训练调整yolov8时踩坑问题,修改记录】

    *** 另外网上yolov8教程特别多,关于数据集准备和制作这块,可以直接拆分的时候图片也拆分,也可以只记录在txt中,有三种方式所以在制作的时候都可以选择。需要也可以私信把我的处理脚本发你。 近期在服务器利用yolov8训练一些通用模型,发现不同时间段clone的yolov8内容和

    2024年02月19日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包