什么是 tokens,ChatGPT里面的Tokens如何计数?

这篇具有很好参考价值的文章主要介绍了什么是 tokens,ChatGPT里面的Tokens如何计数?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

什么是 tokens,ChatGPT里面的Tokens如何计数?

什么是 tokens?

Tokens 可以被认为是词语的片段。在 API 处理提示之前,输入会被分解成 tokens。这些 tokens 并不会精确地在单词的开始或结束处切分 - tokens 可以包含尾随的空格甚至子词。以下是一些帮助理解 tokens 长度的经验法则:

1 token ~= 英文中的4个字符

1 token ~= ¾个单词

100 tokens ~= 75个单词

或者

1-2个句子 ~= 30个tokens

1段落 ~= 100个tokens

1,500个单词 ~= 2048个tokens

为了获取更多关于tokens如何叠加的上下文,可以考虑以下例子:

  • 韦恩·格雷茨基的名言 “You miss 100% of the shots you don’t take” 包含11个tokens。

什么是 tokens,ChatGPT里面的Tokens如何计数?

单词如何被分割成 tokens 也取决于语言。例如,‘Cómo estás’(西班牙语中的’你好吗’)包含5个 tokens(对应10个字符)。较高的 token 到字符比率可能使得对英语以外的语言实现 API 更加昂贵

什么是 tokens,ChatGPT里面的Tokens如何计数?

  • 我名字拼音+空格+wetchat+我的微信号"liyuechun wetchat liyc1215" 包含13个tokens。

飞书、钉钉、企微GPT能力嫁接和AIGC企业培训,联系我:liyc1215

什么是 tokens,ChatGPT里面的Tokens如何计数?

  • ”黎跃春“三个字包含8个tokens
    什么是 tokens,ChatGPT里面的Tokens如何计数?

  • "付金亮"三个字包含6个tokens
    什么是 tokens,ChatGPT里面的Tokens如何计数?

如果你想进一步探索分词,你可以使用我们的交互式 Tokenizer 工具,它可以让你计算 token 的数量,并查看文本如何被分割成 tokens。或者,如果你想通过编程方式进行分词,可以使用 Tiktoken,这是一个专为 OpenAI 模型设计的快速 BPE 分词器。你也可以尝试探索其他库,例如 Python 的 transformers 包,或者 node.js 的 gpt-3-encoder 包。

Token 限制

根据使用的模型不同,请求中的prompt和completion之间最多可以使用4097个tokens。如果你的prompt是4000个tokens,那么你的completion最多可以是97个tokens。

这个限制目前是一个技术限制,但通常有许多创新的方法可以在这个限制内解决问题,例如压缩你的prompt,将文本分解成较小的部分等。

Token 定价

API 提供多种不同价格点的模型类型。每种模型都有一系列的能力,其中davinci是最强大的,ada是最快的。对这些不同模型的请求定价不同。你可以在这里找到关于token定价的详细信息。

探索 tokens

API会根据语料库数据中的上下文来处理单词。GPT-3接受prompt,将输入转换成一系列的tokens,处理prompt,并将预测的tokens转换回我们在响应中看到的单词。

在我们看来可能是两个相同的单词,可能会根据它们在文本中的结构生成不同的tokens。考虑一下API如何根据文本中的上下文为单词’red’生成token值:

什么是 tokens,ChatGPT里面的Tokens如何计数?

在上面的第一个例子中,‘ red’的token "2266"包含一个尾随的空格。

什么是 tokens,ChatGPT里面的Tokens如何计数?

带有前导空格并以大写字母开头的‘ Red’的token "2297"与以小写字母开头的‘ red’的token "2266"不同。

什么是 tokens,ChatGPT里面的Tokens如何计数?

当 ‘Red’ 在句子开头时,生成的token不包含前导空格。token "7738"与前两个单词的例子不同。

观察:

token越可能/频繁,分配给它的token号就越低:

  • 在所有3个句子中为句号生成的token是相同的(“13”)。这是因为,在语境上,句号在语料库数据中的使用相当类似。

  • 根据’red’在句子中的位置,生成的token会有所不同:

    • 在句子中间的小写:‘ red’ - (token: “2266”)

    • 在句子中间的大写:‘ Red’ - (token: “2297”)

    • 在句子开头的大写:‘Red’ - (token: “7738”)

既然我们知道tokens可以包含尾随的空格字符,那么记住以空格字符结束的prompts可能会导致输出质量较低是有帮助的。这是因为API已经在它的tokens字典中包含了尾随的空格。

使用 logit_bias 参数

可以在 logit_bias 参数中为特定的 tokens 设置偏差,以修改指定 tokens 出现在补全中的可能性。比如,我们正在构建一个对用户鸡蛋过敏问题敏感的 AI 烘焙助手。

当我们使用提示 ‘The ingredients for banana bread are’ 运行 API 时,回应将以26.8%的概率将 ‘eggs’ 包含为第二种原料。

什么是 tokens,ChatGPT里面的Tokens如何计数?

注意:要在 Playground 中查看补全概率,请从 Show Probabilities 下拉菜单中选择 Full Spectrum。

由于我们的 AI 烘焙助手对鸡蛋过敏问题很敏感,我们可以利用我们对 tokens 的了解,在 logit_bias 参数中设置偏差,以阻止模型生成包含任何 ‘egg’ 变体的响应。

首先,使用这个分词器工具来确定我们需要为哪些 tokens 设置偏差。

什么是 tokens,ChatGPT里面的Tokens如何计数?

Tokens:

  • 尾随空格的单数形式:‘ egg’ - “5935”

  • 尾随空格的复数形式:‘ eggs’ - “9653”

  • 为‘Egg’或‘Eggs’生成的子词token - ‘gg’:“1130”

logit_bias 参数接受的偏差值范围是 -100 到 +100,极值结果导致相关 token 的禁止(-100)或独占选择(100)。

将 logit 偏差加到 prompt 中将修改 ‘egg’(及其变体)包含在我们的香蕉面包提示的响应中的可能性。上述提示生成了一个不包含任何鸡蛋的响应!

虽然我们不能保证它会生成最好的无鸡蛋香蕉面包配方,但 AI 烘焙助手满足了对用户鸡蛋过敏问题的考虑需求。

总结

  1. 使用英文对话比较划算,其他语言包括中文计算Token时比较昂贵
  2. 英文字母大概四个字母平均下来等于一个token
  3. 中文汉字,大概一个汉字平均下来两个token
  4. 我昨天用GPT写了7篇高考作文,总字数为10397,Tokens 为21,008个。

什么是 tokens,ChatGPT里面的Tokens如何计数?

计算了一下:如果使用GPT3.5的API访问的话,整个输入和输出总共:21,008 个token,GPT3.5 的单价为$0.002/1000tokens,那么这7篇作文的整个对话花费折算成人民币的价格为:21008/1000*(0.002*7) = 0.294112元人民币,GPT4是GPT3.5的60倍价格,如果使用GPT4的话,此次消费为:0.294112 * 60 = 17.64672元。

最后总结: 目前使用GPT3.5的价格还是很亲民划算的,等待未来算力足够的时候,我相信GPT4.0也不会贵。

原文链接:https://blog.yredu.xyz/archives/5119文章来源地址https://www.toymoban.com/news/detail-487721.html

到了这里,关于什么是 tokens,ChatGPT里面的Tokens如何计数?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChatGPT APi中Token是什么?如何计算Token使用量?

    我们经常听到该ChatGPT账号的Token上限是多少?每次提问消耗的token多少?如何计算我的账户消费情况?今天给大家做个简单的介绍。 在构建和使用基于OpenAI的聊天机器人或者其他AI应用时,了解如何计算使用的token数量是至关重要的。每次与OpenAI API交互时,我们都在使用一定

    2024年02月19日
    浏览(34)
  • Github 令牌(Personal access tokens )申请及使用

    申请方式: 以下是申请GitHub访问令牌(Access Token)的步骤: 登录到您的GitHub帐户。 点击右上角的头像,然后选择 \\\"Settings\\\"(设置)。 2. 在左侧导航栏中,选择 \\\"Developer settings\\\"(开发者设置)。 3. 在 \\\"Developer settings\\\" 页面上,选择 \\\"Personal access tokens\\\"(个人访问令牌)。 4. 在

    2024年02月05日
    浏览(55)
  • 1分钟教会你创建自己的 Chia Asset Tokens (CATs)

    1.背景知识: 2.创建教程(适合有编程基础的同学) 1)第一步确认 python3 版本,确保您安装了 3.7 和 3.9 之间的 Python 版本。 2)安装chia-blockchian 3)安装CAT admin tool 3.1) 确认安装:cats --help cdv --help: 如果执行命令如上图显示,表示安装成功了! 4)确保钱包里有足够的xch(如果没

    2023年04月08日
    浏览(32)
  • 免费200万Tokens 用科大讯飞API调用星火大模型服务

    简介 自ChatGPT火了之后,国内的大模型发展如雨后春笋。其中的佼佼者之一就是科大讯飞研发的星火大模型,现在大模型已经更新到V3nbsp;版本,而且对开发者也是相当友好, 注册就送200万tokens ,讯飞1tokensnbsp;约等于nbsp;1.5nbsp;个中文汉字 或者nbsp;0.8nbsp;个英文单词。所以200万to

    2024年01月20日
    浏览(53)
  • 深入解析 JWT(JSON Web Tokens):原理、应用场景与安全实践

    JWT(JSON Web Tokens)是一种开放标准(RFC 7519),用于在各方之间安全地传输信息作为 JSON 对象。由于其小巧和自包含的特性,它在 Web 应用程序和服务之间尤其流行用于身份验证和信息交换。JWT 的主要优点和特性包括: 自包含(Self-contained): JWT 本身包含了所有必要的信息。

    2024年02月04日
    浏览(49)
  • 你知道ChatGPT里面的G、P、T分别代表什么吗?

    生成式AI, 在学习归纳数据分布的基础上,创造数据中不存在的新内容。可以生成文本、图片、代码、语音合成、视频和3D模型。 比尔盖茨:ChatGPT是1980年以来最具革命性的科技进步。 身处这个AI变革的时代,唯有躬身入局,脚步跟上。 GPT,Generative Pre-trained Transformer,生成式

    2024年02月02日
    浏览(31)
  • 解决Android Studio Unexpected tokens (use ; to separate expressions on the same line)

    @[TOC](Unexpected tokens (use ; to separate expressions on the same line)) 这个是在jitpack里面 找到的依赖 点击后面就可以导入自己需要的依赖了。

    2024年02月04日
    浏览(37)
  • 踩坑:Invalid character found in method name. HTTP method names must be tokens

            在进行本地小程序与服务端请求时,由于加了签名认证,访问接口时报错 Spring boot端 小程序端    将 https: 更换成 http: 示例: https: //localhost:8080  改为   http ://localhost:8080       ssl证书到期了 Tomcat的header缓冲区大小不够 参考链接           3.修改端口号 server.xml中加上

    2024年02月07日
    浏览(50)
  • 报错:Invalid character found in method name. HTTP method names must be tokens

    是我在使用postman去调用后台接口时,引发的错误。因为之前还是好好的,这个接口就有问题。那必然是这个接口一些参数设置啥的出了问题。 关于网上有提到的解决方法: Tomcat的header缓冲区大小不够,只需要在server.xml中增加maxHttpHeaderSize字段即可 注意你的接口访问地址是

    2024年02月15日
    浏览(47)
  • MLC-LLM 部署RWKV World系列模型实战(3B模型Mac M2解码可达26tokens/s)

    我的 ChatRWKV 学习笔记和使用指南 这篇文章是学习RWKV的第一步,然后学习了一下之后决定自己应该做一些什么。所以就在RWKV社区看到了这个将RWKV World系列模型通过MLC-LLM部署在各种硬件平台的需求,然后我就开始了解MLC-LLM的编译部署流程和RWKV World模型相比于MLC-LLM已经支持的

    2024年02月10日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包