NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】

这篇具有很好参考价值的文章主要介绍了NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

NeuralNLP-NeuralClassifier的使用记录,训练预测自己的【中文文本多分类】

数据准备:

​ 与英文的训练预测一致,都使用相同的数据格式,将数据通过代码处理为JSON格式,以下是我使用的一种,不同的原数据情况会有所改动:

import jieba.analyse as ana
import re
import jieba

def make_data_json(df,outpath):
    def stop_words(path):
        txt = open(outpath,"r",encoding='utf-8') 
        lines = txt.readlines()
        txt.close()
        stop_txt = []
        for line in lines:
            stop_txt.append(line.strip('\n'))
        return stop_txt
    
    
    with open(outpath, "w+", encoding='utf-8') as f:
        
        # with open(output_path, "w") as fw:
        for indexs in df.index:
            dict1 = {}
            dict1['doc_label'] = [str(df.loc[indexs].values[0])]
            doc_token = df.loc[indexs].values[1]
            # 只保留中文、大小写字母和阿拉伯数字
            reg = "[^0-9A-Za-z\u4e00-\u9fa5]"
            doc_token = re.sub(reg, '', doc_token)
            print(doc_token)
            # 中文分词
            seg_list = jieba.cut(doc_token, cut_all=False)
            #$提取关键词,20个:
            ana.set_stop_words('./人工智能挑战赛-文本分类/停用词列表.txt')
            keyword = ana.extract_tags(doc_token, topK=20,withWeight=False,)   #True表示显示权重
            # 去除停用词
            content = [x for x in seg_list if x not in stop_words('../data/stop_words.txt')]
            dict1['doc_token'] = content
            dict1['doc_keyword'] = keyword
            dict1['doc_topic'] = []
            # 组合成字典
            print(dict1)
            # 将字典转化成字符串
            json_str = json.dumps(dict1, ensure_ascii=False)
            f.write('%s\n' % json_str)
    

使用构造JSON数据方法:

NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】,NLP,分类,数据挖掘,人工智能

训练前期准备:

1、创建中文数据文件夹,Chinese_datas,

2、创建该数据的文本数据对应的标签集Chinese_label.taxonomy

3、创建该数据的训练配置文件Chinese_train_conf.json,

继续目录如下:

NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】,NLP,分类,数据挖掘,人工智能

配置文件的注意点:

NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】,NLP,分类,数据挖掘,人工智能

其中需要额外修改的地方:

work_nums=0

以及涉及代码中,有读取文件的部分都需要给编码中文编码:

with open(encoding=‘utf-8’)

训练:

训练代码:

python train.py conf/Chinese_train_conf.json

训练后生成的权重文件,在配置文件中就写出了:

NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】,NLP,分类,数据挖掘,人工智能

预测:

NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】,NLP,分类,数据挖掘,人工智能

python predict.py conf/Chinese_train_conf.json Chinese_datas/predict_data.json

预测结果:

NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】,NLP,分类,数据挖掘,人工智能

可以看出预测效果仅一个错误,该模型方便NLP的比赛分类等,准确率也很高。

代码获取:

下载就是中文分类版,在命令界面进行命令行输入,训练和预测,:

链接:https://pan.baidu.com/s/1fw_ipmOFWMiTLAFrs9i5ig
提取码:2023文章来源地址https://www.toymoban.com/news/detail-646198.html

到了这里,关于NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用happytransformer对gpt-neo进行训练的过程记录

    本文使用的是Python3.10.12的Docker环境 在Python3.10环境中安装以下工具包:xformers、transformers v4.31.0、torch 2.0.1+cu118、happytransformer v2.4.1、accelerate v0.21.0 That\\\'s all.

    2024年02月16日
    浏览(60)
  • SSD训练数据集流程(学习记录)

    关于理论部分我看的是b站“霹雳吧啦Wz”的SSD理论讲解,作为入门小白表示能听懂,需要的同学可以自行观看 目录 1.训练环境 2.训练步骤 我的环境是win11+anaconda+python3.6.13+pytorch1.10.2+cuda11.6 (1)下载SSD源码 可到github进行下载 GitHub - amdegroot/ssd.pytorch: A PyTorch Implementation of Sing

    2023年04月09日
    浏览(35)
  • yolov7配置与训练记录(二)

    yolov7配置与训练记录(一) 已经完成了环境的配置,下面开始文件内部的操作 yolov7官方下载地址为 1 将下载好的预训练权重放在 yolov7-main/weights 内 需要在yolov7中新建weights文件夹(也是为了方便管理权重文件) 测试 如果未报错,则说明成功 2 将准备好的数据放在 yolov7-main/datasets 内

    2024年02月02日
    浏览(53)
  • nerf训练自己的数据,过程记录十分详细

           之前跑很多项目没有记录,后来再弄就不行了。这次特别记录一下,在梳理流程的同时希望给大家带来小小的帮助!我自己是在cuda11.2,windows环境下成功的,过程十分详细,有需要的朋友耐心看完。有问题可以评论区交流         首先,本文nerf是基于pytorch训练的,

    2024年02月03日
    浏览(42)
  • SwinIR实战:详细记录SwinIR的训练过程

    论文地址:https://arxiv.org/pdf/2108.10257.pdf 预训练模型下载:https://github.com/JingyunLiang/SwinIR/releases 训练代码下载:https://github.com/cszn/KAIR 测试代码:https://github.com/JingyunLiang/SwinIR 论文翻译:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/124434886 测试:https://wanghao.blog.csdn.net/article/d

    2024年01月16日
    浏览(40)
  • 基于yoloV7添加关键点训练记录

    yoloV7已经开源有一段时间了,近期已经基于yoloV7-pose的关键点算法进行了研究和修改。目前已经将该工程修改为,多分类+任意数量关键点:修改详细请看博客:基于yoloV7-pose添加任意关键点 + 多类别分类网络修改,修改代码已经开源:github地址,如果对大家有帮助也希望可以

    2024年01月17日
    浏览(48)
  • ptuning v2 的 chatglm垂直领域训练记录

    thunlp chatglm 6B是一款基于海量高质量中英文语料训练的面向文本对话场景的语言模型。 THUDM/ChatGLM-6B: ChatGLM-6B:开源双语对话语言模型 | An Open Bilingual Dialogue Language Model (github.com) 国内的一位大佬把chatglm ptuning 的训练改成了多层多卡并行训练的实现 zero_nlp/Chatglm6b_ModelParallel_pt

    2024年02月06日
    浏览(41)
  • huggingface的diffusers训练stable diffusion记录

    目录 1.原理                 扩散模型的目的是什么?                         扩散模型是怎么做的?                         前向过程在干啥?                 反向过程在干啥? 2.安装环境 3.lora 训练 4.推理 5.源代码​         

    2024年04月26日
    浏览(33)
  • YOLOV8目标检测——最全最完整模型训练过程记录

    本文记录一下yolov8训练目标检测模型的过程,以及其中的一些需要注意的地方。本人是yolov5直接使用的yolov8,因此本文也记录了与yolov5的训练过程不一样的地方。 原创声明:如有转载请注明文章来源。码字不易,如对卿有所帮助,欢迎评论、点赞、收藏。 这边说一下,pip这

    2024年02月07日
    浏览(51)
  • 【服务器训练调整yolov8时踩坑问题,修改记录】

    *** 另外网上yolov8教程特别多,关于数据集准备和制作这块,可以直接拆分的时候图片也拆分,也可以只记录在txt中,有三种方式所以在制作的时候都可以选择。需要也可以私信把我的处理脚本发你。 近期在服务器利用yolov8训练一些通用模型,发现不同时间段clone的yolov8内容和

    2024年02月19日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包