使用ChatGLMTokenizer处理json格式数据

1年前作者：一位安分的码农分类：Toy博客阅读(9)违法举报

这篇具有很好参考价值的文章主要介绍了使用ChatGLMTokenizer处理json格式数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

我下载了一些中文wikipedia数据，准备采用ChatGLMTokenizer对齐进行清洗，整理为预训练语料。

import numpy as np
import json
from tqdm import tqdm
from chatglm_tokenizer.tokenization_chatglm import ChatGLMTokenizer

tokenizer = ChatGLMTokenizer(vocab_file='./chatglm_tokenizer/tokenizer.model')

with open('./data/wikipedia-cn-20230720-filtered.json') as f:
    data = json.load(f)
    print(data[0:3])
    data = data[0:3]
    doc_ids = []
    for line in tqdm(data):
        text = line['completion']
        text_id = tokenizer.encode(text, add_special_tokens=False)
        text_id.append(tokenizer.special_tokens['<eos>'])
        # doc_ids = doc_ids+text_id
        doc_ids.append(doc_ids)
    doc_ids = np.array(doc_ids, dtype=np.uint16)

    with open('./test.bin', 'wb') as f:
        f.write(doc_ids.tobytes())

其中，chatglm_tokenizer目录下的文件如下：
使用ChatGLMTokenizer处理json格式数据,数据清洗,json 文章来源地址https://www.toymoban.com/news/detail-698372.html

到了这里，关于使用ChatGLMTokenizer处理json格式数据的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

RDD2022 数据格式转换与清洗
Rdd2022数据集，是关于道路损伤的数据集，与rdd2020相比增加了两万多张图片但是由于格式不能被yolo直接使用且其中有大量的图片没有符合要求的标注，特写此文章记录数据清洗与格式化的过程在开始前需要自己下载zip格式的RDD2022数据集，大小为12.4G 点击此处下载之后，在桌
2024年02月06日
浏览(58)
Python（21）json.dumps()使用indent参数格式化输出json数据格式
json.dumps() 方法将一个Python数据结构转换为JSON字符串输出为这样的格式一般都不优美，当数据很多的时候，看得就不是很直观方便。可以使用 indent=4 参数来对json进行数据格式化输出，会根据数据格式缩进显示，读起来更加清晰用法如下输出为 json.dumps()方法，参数解释
2024年02月08日
浏览(8)
Spring MVC学习随笔-Ajax集成（JSON格式返回数据）、拦截器（MyInterceptor）、全局异常处理（GlobalExceptionResolver）
学习视频：【编程不良人】继spring之后快速入门springmvc,面对SpringMVC不用慌引入相关依赖开发控制器日期格式修正可以正常响应拦截器：Interceptor 拦截中断类似于javaweb中的Filter，不过没有Filter那么强大作用 Spring MVC的拦截器是一种用于在请求处理过程中进行预处理和后处
2024年02月05日
浏览(11)
mysql 使用JSON_EXTRACT提取 json数据格式的字段
task 表中有如下数据结构 id data_ext 1 {“name”: “张三”,“gender”: 1,“age”: 20} 提取data_ext字段 JSON_EXTRACT：提取字段。 JSON_UNQUOTE：去掉双引号。 cast ：转换字符显示。《MySQL JSON_EXTRACT()、JSON_UNQUOTE() 函数获取JSON串的值》：https://blog.csdn.net/TM_enn/article/details/125786948
2024年02月16日
浏览(7)
QT练手小项目-——天气播报小狗（ui展示分析，构造实现，json格式数据分析，界面交互，天气图标处理，小狗语音）
前言经过之前一段时间的QT学习，做出一个小软件来总结自己掌握关于qt的知识点。网络上有许多免费的天气接口（api），有xml格式的，也有json格式的。具体xml和json有什么区别，这里我就不去深究了，我们这里用的是一个json格式的数据，所以重点是对json格式的数据
2023年04月17日
浏览(9)
Springboot +spring security，实现前后端分离，使用JSON数据格式登录（将表单提交方式改成json格式登录）
在前面的文章中，我们使用表单方式完成登录提交，但是目前基本都是前后端分离项目，很少使用表单提交的方式，基本都是json方式，使用ajax提交，那么我们怎么将表单提交方式改成json格式登录呢？通过前面源码部分学习中，已经知道在HttpSecurity配置中，每新增一种配置，
2024年02月06日
浏览(8)
头歌：数据预处理之数据清洗
本关任务：完成泰坦尼克号遇难数据的清洗。案例背景泰坦尼克号遭遇的灾难震惊世界，如何避免灾难甚至预测灾难呢？要实现首先要做好泰坦尼克号的损失数据统计，才能为数据分析打下基础。编程要求根据提示，你需要完成：缺失值填充离群点检测
2024年02月11日
浏览(6)
Python天气数据处理、数据清洗
文章目录前言一、获取原始数据二、数据处理 1.代码 2.处理结果总结在工作的时候，需要做一个天气情况的报表，一开始没学习爬虫的时候，需要手动到天气网站上去截取天气数据做到表格里，复制粘贴下来的数据需要做一些处理，考虑用Python简化这些步骤。
2024年02月01日
浏览(7)
数据清洗和预处理
预计更新一、爬虫技术概述 1.1 什么是爬虫技术 1.2 爬虫技术的应用领域 1.3 爬虫技术的工作原理二、网络协议和HTTP协议 2.1 网络协议概述 2.2 HTTP协议介绍 2.3 HTTP请求和响应三、 Python基础 3.1 Python语言概述 3.2 Python的基本数据类型 3.3 Python的流程控制语句 3.4 Python的函数和模
2024年02月07日
浏览(11)
【MySQL】JSON 格式字段处理
MySQL 5.7 版本后已支持 JSON 格式，这虽是 MySQL 的一小步，但可以说是程序开发的一大步，再也不用将 JSON 内容塞到 VARCHAR 类型字段了，程序设计也会变得更加灵活。网上大多只针对 JSONObject 对象类型，本文也将详解 JSONArray 数组类型。 JSON （JavaScript Object Notation）是一种轻量
2024年02月12日
浏览(10)