问题
最近遇到使用transformers的AutoTokenizer的时候,修改vocab.txt中的[unused1]依然无法识别相应的new token。
实例:
我将[unused1]修改为了[TRI],句子中的[TRI]并没有被整体识别,而是识别为了[,T,RI,]。这明显是有问题的。
解决
若去掉[TRI]的方括号,问题就消失了。
所以可以认定,Bert对带有方括号的token统一按special token处理,所以要使用文章来源:https://www.toymoban.com/news/detail-706562.html
tokenizer.add_special_tokens({})
来添加此类token。文章来源地址https://www.toymoban.com/news/detail-706562.html
到了这里,关于预训练Bert添加new token的问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!