NLP masked_tokens[]、token_masks[]是什么?

这篇具有很好参考价值的文章主要介绍了NLP masked_tokens[]、token_masks[]是什么?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、masked_tokens[]、token_masks[]介绍 

masked_tokenstoken_masks两个列表用于存储mask处理后的token(分词)结果和对应的mask标志。

  • masked_tokens列表存储经过mask处理后的分词结果。

  • token_masks列表存储与每个分词结果对应的mask标志。

2、示例说明:

例如一个 masked_tokens[0]是:

['C', 'N', '[C@H]', '(', 'c', '1', 'c', 'c', '(', 'Br', ')', 'c', 'c', 'c', '1', 'F', ')', '<MASK>', '(', '<MASK>', '<MASK>', '<MASK>', 'C', '1']

token_masks[0]是:

[False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False, True, True, True, False, False]

它们的长度都是28 

3、代码示例:

下面代码就是先对句子进行了token处理,然后进行了mask处理:

# 通过正则匹配对第一个句子(sents1)进行分词,得到tokens。
tokens = self._regex_match(sents1)
# 对tokens进行mask处理
m_tokens, token_masks = self._mask_tokens(tokens, empty_mask=mask)

4、mask的类型

span mask

    def _mask_span(self, ts):
        curr_token = 0
        masked = []
        token_mask = []

        mask_bools = [True, False]
        weights = [self.mask_prob, 1 - self.mask_prob]
        sampled_mask = random.choices(mask_bools, weights=weights, k=len(ts))

        while curr_token < len(ts):
            # If mask, sample from a poisson dist to get length of mask
            if sampled_mask[curr_token]:
                mask_len = torch.poisson(torch.tensor(self.span_lambda)).long().item()
                masked.append(self.mask_token)
                token_mask.append(True)
                curr_token += mask_len

            # Otherwise don't mask
            else:
                masked.append(ts[curr_token])
                token_mask.append(False)
                curr_token += 1

        return masked, token_mask

随机对某些位置进行mask,从泊松区取样得到mask的长度,mask前后序列的长度可能会发生变化

replace mask

    def _mask_replace(self, ts):
        mask_bools = [True, False]
        weights = [self.mask_prob, 1 - self.mask_prob]
        token_mask = random.choices(mask_bools, weights=weights, k=len(ts))
        masked = [self._mask_token(ts[i]) if m else ts[i] for i, m in enumerate(token_mask)]
        return masked, token_mask

根据权重Weight随机对某些位置进行mask,mask前后序列的长度不会发生变化

权重Weight:例如,如果设定 self.mask_prob = 0.7,则掩码标记 True 的权重为 0.7,掩码标记 False 的权重为 0.3文章来源地址https://www.toymoban.com/news/detail-603177.html

到了这里,关于NLP masked_tokens[]、token_masks[]是什么?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于NLP自然语言以token单位的chatgpt计费方式和收费标准

    基于NLP自然语言以token单位的chatgpt计费方式和收费标准 最佳回答: ChatGPT3.5收费的单位,是“$0.002 per 1k tokens”,每1000个tokens需要花费0.002美元。 ChatGPT4.0收费的单位,是“$0.003-0.006 1k tokens”,每1000个tokens需要花费0.002-0.006美元。 这个token是什么意思呢? 在自然语言处理(NL

    2024年02月07日
    浏览(39)
  • 什么是 tokens,ChatGPT里面的Tokens如何计数?

    Tokens 可以被认为是词语的片段。在 API 处理提示之前,输入会被分解成 tokens。这些 tokens 并不会精确地在单词的开始或结束处切分 - tokens 可以包含尾随的空格甚至子词。以下是一些帮助理解 tokens 长度的经验法则: 1 token ~= 英文中的4个字符 1 token ~= ¾个单词 100 tokens ~= 75个单

    2024年02月09日
    浏览(34)
  • ChatGPT APi中Token是什么?如何计算Token使用量?

    我们经常听到该ChatGPT账号的Token上限是多少?每次提问消耗的token多少?如何计算我的账户消费情况?今天给大家做个简单的介绍。 在构建和使用基于OpenAI的聊天机器人或者其他AI应用时,了解如何计算使用的token数量是至关重要的。每次与OpenAI API交互时,我们都在使用一定

    2024年02月19日
    浏览(34)
  • Mask2Former来了!用于通用图像分割的 Masked-attention Mask Transformer

    原理https://blog.csdn.net/bikahuli/article/details/121991697 源码解析 论文地址:http://arxiv.org/abs/2112.01527 项目地址:https://bowenc0221.github.io/mask2former Mask2Former的整体架构由三个组件组成: 主干特征提取器:主干特征提取器从输入图像中提取低分辨率特征。在Mask2Former中,主干特征提取器通

    2024年02月02日
    浏览(43)
  • 什么是 Security Tokens?

    要是你现在访问 YouTube 并搜索 Security Tokens(证券型代币,下文对该词语不再进行翻译)。 可能会得到如下结果: 为什么 Security Tokens 是未来? Security Tokens 会是下一个重大事件吗? 所以,如今看来 Security Tokens 的背后似乎有许多炒作。在这篇指南里,我们将学习有关 Securit

    2024年02月10日
    浏览(29)
  • 生成随机mask以及根据mask对两幅图片进行合并

    对图像处理的一些操作还是需要掌握的嘿嘿 这里代码参考MAT的一份代码: https://github.com/fenglinglwb/MAT/blob/main/datasets/mask_generator_256.py 封装一下生成mask函数 调用一下 这里以celeba-256为例子 调用一下 000255.jpg 001133.jpg 000255_001133.jpg

    2024年02月14日
    浏览(45)
  • 为什么要使用Token

            我们知道,http协议是一种无状态的协议,这就意味着当用户向我们的应用提供了用户名和密码进行用户认证,那么在下一次登录的时候,用户还要再进行验证,因为根据http协议,浏览器并不知道是谁发出的请求,所以为了能够让浏览器识别出是哪个用户发出的请求

    2024年02月09日
    浏览(38)
  • 大模型中的token是什么?

    定义 大模型的\\\"token\\\"是指在自然语言处理(NLP)任务中,模型所使用的输入数据的最小单元。这些token可以是单词、子词或字符等,具体取决于模型的设计和训练方式。 大模型的token可以是单词级别的,也可以是子词级别的,甚至是字符级别的,具体取决于模型的设计和训练方

    2024年02月22日
    浏览(30)
  • 什么是JWT(JSON Web Token)?

    JWT(JSON Web Token)是一种开放标准(RFC 7519),用于在网络应用间传递信息的安全传输方式。它通过数字签名来验证信息的合法性,并且具有自包含性,即它包含了足够的信息以供验证和识别。 JWT通常由三部分组成:头部(Header)、载荷(Payload)和签名(Signature)。 1. 头部(

    2024年02月12日
    浏览(47)
  • UG\NX二次开发 结构体UF_UI_mask_s、UF_UI_mask_t、UF_UI_mask_p_t解释

    文章作者:里海 来源网站:里海NX二次开发3000例专栏 感谢\\\"小余努力变优秀 \\\"订阅本专栏,非常感谢。 在开发中我们会遇到一些函数例如 UF_UI_select_single UF_UI_select_by_class 会用到这些结构体 在 uf_ui_types.h 头文件中有这样的说明:

    2024年02月04日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包