BERT tokenizer 增加全角标点符号

7月前作者：颹蕭蕭分类：Toy博客阅读(36) 违法举报

这篇具有很好参考价值的文章主要介绍了BERT tokenizer 增加全角标点符号。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

bert 的词表，哪怕是 bert-base-chinese，对中文全角标点的支持不是很好

from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说：“你是厕所大灯笼——找‘屎’。”我无语了……")
"""
['小',
 '明',
 '说',
 '：',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时，需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可文章来源地址https://www.toymoban.com/news/detail-858670.html

[PAD]
…
—
“
”
‘
’
[unused7]
[unused8]
[unused9]
[unused10]
...

到了这里，关于BERT tokenizer 增加全角标点符号的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

JS 去除字符串中所有标点符号

直接上代码了

2024年02月06日
浏览(54)
Python使用jieba库分词并去除标点符号

相对于英文文本，中文文本挖掘面临的首要问题就是分词，因为中文的词之间没有空格。在Python中可以使用jieba库来进行中文分词。但是在中文中，标点符号出现的频率也是很高的，在使用jieba库对带有标点符号的汉语句子进行分词时，标点符号出现在分词结果中时，对于后

2024年02月04日
浏览(73)
word@通配符@高级搜索查找@替换@中英文标点符号替换

Find text - Microsoft Support 通配符在搜索中使用通配符 - Microsoft 支持 Examples of wildcard characters - Microsoft Support Power User Tips and Tricks - Word, Excel, Dreamweaver (ntu.edu.sg) Using wildcards - Microsoft Word 365 (officetooltips.com) 批量选中引用序号@上标调整利用上述方法,可以一次性将正文中的citations

2024年02月10日
浏览(49)
从0开始学Java：运算符（Operator）与标点符号（Separators）

运算符：是一种特殊的符号，用以表示数据的运算、赋值和比较等。表达式：用运算符连接起来的式子在Java中，一共有38个运算符。按照功能划分：分类运算符算术运算符 + 、 - 、 * 、 / 、 % 、 ++ 、 -- 赋值运算符 = 、 += 、 -= 、 *= 、 /= 、 %= 等关系运算符、 = 、、

2024年02月08日
浏览(48)
IntelliJ IDEA（WebStorm、PyCharm、DataGrip等）设置中英文等宽字体，英文为中文的一半（包括标点符号）

2024年04月12日
浏览(55)
用html+javascript打造公文一键排版系统13：增加半角字符和全角字符的相互转换功能

今天用了公文一键排版系统对几个PDF文件格式的材料进行文字识别后再重新排版，处理效果还是相当不错的，节约了不少的时间。但是也发现了三个需要改进的地方：（一）发现了两个bug： 1.二级标题排版格式中css的text-indent属性的单位忘记从em改为pt，结果排版时二级标

2024年02月13日
浏览(37)
[NLP] BERT模型参数量

BERT_base模型的110M的参数具体是如何组成的呢，我们一起来计算一下：刚好也能更深入地了解一下Transformer Encoder模型的架构细节。借助transformers模块查看一下模型的架构：得到的模型参数为：其中，BERT模型的参数主要由三部分组成： Embedding层参数 Transformer Encoder层参数 L

2024年02月11日
浏览(48)
【NLP】BERT和原理揭示

BERT（来自transformer的双向编码器表示）是Google AI Language研究人员最近发表的一篇论文。它通过在各种NL

2024年02月15日
浏览(41)
NLP——ELMO；BERT；Transformers

ELMo（Embeddings from Language Models）是一个在2018年由Allen AI研究所开发的新型深度语义词嵌入（word embedding）。 ELMo词嵌入是基于上下文的，这意味着对于任何给定的词，它的表示都会根据它出现的上下文而变化。这是一个重要的进步，因为传统的词嵌入，如Word2Vec或GloVe，为每个

2024年02月09日
浏览(52)
NLP之Bert实现文本分类

首先，概述一下代码的主要目的和流程。主要目的：此代码的主要目的是使用BERT模型进行序列分类。具体来说，它似乎是在处理某种情感分析任务，因为代码中读取了标签和文本，并试图用BERT模型来进行分类（假设为正面或负面情感，因为 num_labels=2 ）。整体流程：导入

2024年02月05日
浏览(43)