OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken-Toy模板网

这篇具有很好参考价值的文章主要介绍了OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

经过 Tokenize 之后，一串文本就变成了一串整数组成的向量。OpenAI 的 Tiktoken 是更高级的 Tokenizer ，编码效率更高、支持更大的词汇表、计算性能也更高。 OpenAI在其官方GitHub上公开了一个开源Python库：tiktoken，这个库主要是用力做字节编码对的。字节编码对（Byte Pair Encoder，BPE）是一种子词处理的方法。其主要的目的是为了压缩文本数据。主要是将数据中最常连续出现的字节（bytes）替换成数据中没有出现的字节的方法。该算法首先由Philip Gage在1994年提出。

下图是tiktoken中公开的OpenAI所有大模型所使用的词表。

OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken

可以看到，ChatGPT和GPT-4所使用的是同一个，名为“cl100k_base”的词表。而text-davinci-003和text-davinci-002所使用的是名为”p50k_base“的词表。

OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken

OpenAI 官方开源了Python版本， .NET社区移植了https://github.com/dmitry-brazhenko/SharpToken，它提供了使用基于 GPT 的编码对令牌进行编码和解码的功能。此库是为 .NET 6 和 .NET Standard 2.1 构建的，使其与各种框架兼容。

下面是一个示例函数，用于对传递到 gpt-3.5-turbo-0381 或gpt-4-314 的消息的tokens进行计数。请注意，从消息中计算tokens的确切方式可能会因模型而异。将函数中的计数视为一个估计值：

public int CountMessagesTokens(string Model ,string Messages)
   {
       int tokensPerMessage;
       if (Model.StartsWith("gpt-3.5-turbo"))
       {
           tokensPerMessage = 5;
       }
       else if (Model.StartsWith("gpt-4"))
       {
           tokensPerMessage = 4;
       }
       else
       {
           tokensPerMessage = 5;
       }

      var encoding = GptEncoding.GetEncoding("cl100k_base");
       int totalTokens = 0;
       foreach (var msg in Messages)
       {
           totalTokens += tokensPerMessage;
           totalTokens += encoding.Encode(msg.Content).Count;
       }
       totalTokens += 3;

return totalTokens;
}文章来源地址https://www.toymoban.com/news/detail-422982.html

到了这里，关于OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！