BertTokenizer 使用方法

这篇具有很好参考价值的文章主要介绍了BertTokenizer 使用方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

python 导入与初始化 BertTokenizer

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained(pretrained_model_name_or_path='bert-base-chinese')

首先定义一些数据

sents = [
    '选择珠江花园的原因就是方便。',
    '笔记本的键盘确实爽。',
    '房间太小。其他的都一般。',
    '今天才知道这书还有第6卷,真有点郁闷.',
    '机器背面似乎被撕了张什么标签,残胶还在。',
]

Tokenizer的几种使用方法(目前遇到的比较常用的、有新的后续补充)

附上hugging face 中,BertTokenizer 的说明文档

tokenizer.tokenize

只是将句子拆分为token,并不映射为对应的id

tokenizer.tokenize(sents[0])
############################################
['选', '择', '珠', '江', '花', '园', '的', '原', '因', '就', '是', '方', '便', '。']

tokenizer.convert_tokens_to_ids

将token映射为其对应的id

tokenizer.convert_tokens_to_ids(['选', '择', '珠', '江', '花', '园', '的', '原', '因', '就', '是', '方', '便', '。'])
############################################
[6848, 2885, 4403, 3736, 5709, 1736, 4638, 1333, 1728, 2218, 3221, 3175, 912, 511]

tokenizer.encode

这个函数只返回编码的结果(input_ids)

tokenizer.encode(sents[0])
############################################
[101, 6848, 2885, 4403, 3736, 5709, 1736, 4638, 1333, 1728, 2218, 3221, 3175, 912, 511, 102]

tokenizer.encode_plus

这种方法能够返回更多的编码信息,(更多编码信息后面说明)

tokenizer.encode_plus(sents[0])
#############################################
{
	'input_ids': [101, 6848, 2885, 4403, 3736, 5709, 1736, 4638, 1333, 1728, 2218, 3221, 3175, 912, 511, 102], 	
	'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
	'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}

tokenizer.batch_encode_plus

以 batch 的形式去编码句子,返回的信息基本和 encode_plus 是一样的。

tokenizer.batch_encode_plus([sents[0], sents[1]])
###########################################################
{
	'input_ids': [
		[101, 6848, 2885, 4403, 3736, 5709, 1736, 4638, 1333, 1728, 2218, 3221, 3175, 912, 511, 102], 
		[101, 5011, 6381, 3315, 4638, 7241, 4669, 4802, 2141, 4272, 511, 102]
	], 
	'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 
	'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]
}

编码过程中一些主要参数说明

多的不说 直接上例子

out = tokenizer.encode_plus(
    text=sents[0],
    text_pair=sents[1],

    #当句子长度大于max_length时,截断
    truncation=True,

    #一律补零到max_length长度
    padding='max_length',
    max_length=30,
    add_special_tokens=True,

    #可取值tf,pt,np,默认为返回list
    return_tensors=None,

    #返回token_type_ids
    return_token_type_ids=True,

    #返回attention_mask
    return_attention_mask=True,   

    #返回special_tokens_mask 特殊符号标识
    return_special_tokens_mask=True,

    #返回offset_mapping 标识每个词的起止位置,这个参数只能BertTokenizerFast使用
    #return_offsets_mapping=True,

    #返回length 标识长度
    return_length=True,
)

for k, v in out.items():
    print(k, ':', v)

运行结果如下:文章来源地址https://www.toymoban.com/news/detail-423510.html

input_ids : [101, 6848, 2885, 4403, 3736, 5709, 1736, 4638, 1333, 1728, 2218, 3221, 3175, 912, 511, 102, 5011, 6381, 3315, 4638, 7241, 4669, 4802, 2141, 4272, 511, 102, 0, 0, 0]
token_type_ids : [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]
special_tokens_mask : [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]
attention_mask : [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]
length : 30

到了这里,关于BertTokenizer 使用方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • word因导入mathtype不能使用复制粘贴快捷键的解决方法

    1. 我们安装完mathtype后,有时会有两个mathtype显示,其中一个是属于office文件夹下的,另一个是win文件夹下的。如图: 2. 如果word中的复制粘贴快捷键(CTRL+C和CTRL+V)不能用,通常是因为office路径下包含MathType Commands 2016.dotm或者其他年份的Commands 201X.dotm文件导致的。 此时,系统

    2024年02月15日
    浏览(65)
  • Latex | 使用MATLAB生成.eps矢量图并导入Latex中的方法

    用Latex时写paper时,要导入MATLAB生成的图进去 (1)在MATLAB生成图片的窗口中,导出.eps矢量图 (2)把图上传到overleaf的目录 (3)在文中添加相应代码 (1)MATLAB生成图像后,生成点击“文件”-“导出设置(R)” (2)参数我这里是选择了默认,再点击右侧栏的“导出” (3)

    2024年02月15日
    浏览(43)
  • eDiary-白日梦电子记事本基本使用说明【记事本导出和导入方法、本地数据迁移方法、记录工作日报、日历代办等】

    因为公司大佬分享资料,需要用到白日梦这个电子记事本,所以才了解到这个软件,体量小,功能高级,是个好软件。 官方地址:白日梦 导出与导入均不要使用文件-导出和导入,不好使。 右键需要导出的文档-高级-导出-文件 跟着提示下一步就行了 我这以导入文件夹资料为

    2024年02月03日
    浏览(136)
  • 使用Ruoyi的方法(数据库的创建、YML文件的修改、前端的导入和启动、云服务器简介、NGINX配置部署前端)

    本文章转载于公众号:王清江唷,仅用于学习和讨论,如有侵权请联系 QQ交流群:298405437 本人QQ:4206359 当我们下载好了Ruoyi-Vue之后,我们得到一个文件夹,如下: 内部又有若干文件,如下: 这里面不仅包括了后端程序(基于SpringBoot的Java程序),也包括前端程序(基于Vue的程

    2024年02月03日
    浏览(82)
  • chatgpt赋能python:Python中的矩阵合并方法:介绍和使用方法

    矩阵合并是Python编程中常用的操作之一,特别是针对数据分析、机器学习和深度学习等领域。Python提供了多种方法来合并矩阵,本文将介绍这些方法并分享如何在实际应用中使用它们。 最基础的矩阵合并方法是使用numpy库的concatenate方法。这个方法接受两个或多个矩阵作为参

    2024年02月14日
    浏览(59)
  • Python组合模式介绍、使用方法

    概念: 组合模式(Composite Pattern)是一种结构型设计模式,它通过将对象组合成树状结构来表示“整体/部分”层次结构,让客户端可以以相同的方式处理单个对象和组合对象。 功能: 统一对待组合对象和叶子对象 方便添加/删除节点 简化客户端代码 优点: 可以更方便地添加

    2024年02月15日
    浏览(46)
  • python urllib库使用方法

      urllib库是 Python的一个第三方库,它提供了丰富的功能和强大的性能。Python版本为2.11,提供了在不同平台上运行的选项,其中包括用于桌面和移动设备的应用程序。与 pycharm和 libc等库不同, urllib不是为了构建桌面应用程序而设计的,但是它可以用于移动设备上的应用程序。

    2023年04月09日
    浏览(49)
  • Python策略模式介绍、使用方法

    Python策略模式(Strategy Pattern)是一种软件设计模式,用于通过将算法封装为独立的对象,而使得它们可以在运行时动态地相互替换。该模式使得算法的变化独立于使用它们的客户端,从而达到代码的可扩展性、灵活性和可维护性。 功能: 1.将不同算法进行抽象和封装,使得

    2024年02月15日
    浏览(65)
  • Python:列表的详细使用方法

    本篇文章将对列表的使用方法进行详尽说明(本人第一次写文章,若有不当之处,还请指正) 开发环境:Python3.8 1.1、列表的两种表示方法:  列表里可以存储不同的数据类型 1.2、生成各个各样的列表 运行结果:   1.3、查询列表中的元素(索引、切片): 索引: 运行结果:

    2023年04月09日
    浏览(59)
  • python使用hTTP方法

    Python中可以使用`requests`库来发送HTTP请求,其中包括GET、POST、PUT、DELETE等方法。下面是一个使用`requests`库发送HTTP请求的示例: ```python import requests # 发送GET请求 response = requests.get(\\\'Example Domain\\\') # 发送POST请求 data = {\\\'key1\\\': \\\'value1\\\', \\\'key2\\\': \\\'value2\\\'} response = requests.post(\\\'Example Domain\\\',

    2024年02月11日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包