BERT tokenizer 增加全角标点符号

这篇具有很好参考价值的文章主要介绍了BERT tokenizer 增加全角标点符号。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:“你是厕所大灯笼——找‘屎’。”我无语了……")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可文章来源地址https://www.toymoban.com/news/detail-858670.html

[PAD]
…
—
“
”
‘
’
[unused7]
[unused8]
[unused9]
[unused10]
...

到了这里,关于BERT tokenizer 增加全角标点符号的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • JS 去除字符串中所有标点符号

    直接上代码了

    2024年02月06日
    浏览(54)
  • Python使用jieba库分词并去除标点符号

    相对于英文文本,中文文本挖掘面临的首要问题就是分词,因为中文的词之间没有空格。在Python中可以使用jieba库来进行中文分词。 但是在中文中,标点符号出现的频率也是很高的,在使用jieba库对带有标点符号的汉语句子进行分词时,标点符号出现在分词结果中时,对于后

    2024年02月04日
    浏览(73)
  • word@通配符@高级搜索查找@替换@中英文标点符号替换

    Find text - Microsoft Support 通配符 在搜索中使用通配符 - Microsoft 支持 Examples of wildcard characters - Microsoft Support Power User Tips and Tricks - Word, Excel, Dreamweaver (ntu.edu.sg) Using wildcards - Microsoft Word 365 (officetooltips.com) 批量选中引用序号@上标调整 利用上述方法,可以一次性将正文中的citations

    2024年02月10日
    浏览(49)
  • 从0开始学Java:运算符(Operator)与标点符号(Separators)

    运算符: 是一种特殊的符号,用以表示数据的运算、赋值和比较等。 表达式: 用运算符连接起来的式子 在Java中,一共有38个运算符。 按照功能划分: 分类 运算符 算术运算符 + 、 - 、 * 、 / 、 % 、 ++ 、 -- 赋值运算符 = 、 += 、 -= 、 *= 、 /= 、 %= 等 关系运算符 、 = 、 、

    2024年02月08日
    浏览(48)
  • 用html+javascript打造公文一键排版系统13:增加半角字符和全角字符的相互转换功能

      今天用了公文一键排版系统对几个PDF文件格式的材料进行文字识别后再重新排版,处理效果还是相当不错的,节约了不少的时间。 但是也发现了三个需要改进的地方: (一)发现了两个bug: 1.二级标题排版格式中css的text-indent属性的单位忘记从em改为pt,结果排版时二级标

    2024年02月13日
    浏览(37)
  • [NLP] BERT模型参数量

    BERT_base模型的110M的参数具体是如何组成的呢,我们一起来计算一下: 刚好也能更深入地了解一下Transformer Encoder模型的架构细节。 借助transformers模块查看一下模型的架构: 得到的模型参数为: 其中,BERT模型的参数主要由三部分组成: Embedding层参数 Transformer Encoder层参数 L

    2024年02月11日
    浏览(48)
  • 【NLP】BERT和原理揭示

            BERT(来自transformer的双向编码器表示)是Google AI Language研究人员最近发表的一篇论文。它通过在各种NL

    2024年02月15日
    浏览(41)
  • NLP——ELMO;BERT;Transformers

    ELMo(Embeddings from Language Models)是一个在2018年由Allen AI研究所开发的新型深度语义词嵌入(word embedding)。 ELMo词嵌入是基于上下文的,这意味着对于任何给定的词,它的表示都会根据它出现的上下文而变化。 这是一个重要的进步, 因为传统的词嵌入,如Word2Vec或GloVe,为每个

    2024年02月09日
    浏览(52)
  • NLP之Bert实现文本分类

    首先,概述一下代码的主要目的和流程。 主要目的 : 此代码的主要目的是使用BERT模型进行序列分类。具体来说,它似乎是在处理某种情感分析任务,因为代码中读取了标签和文本,并试图用BERT模型来进行分类(假设为正面或负面情感,因为 num_labels=2 )。 整体流程 : 导入

    2024年02月05日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包