最好用的中文分词库cppjieba_ok【可直接编译使用用版】

这篇具有很好参考价值的文章主要介绍了最好用的中文分词库cppjieba_ok【可直接编译使用用版】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

最好用的中文分词库cppjieba_ok【可直接编译使用用版】

中文分词技术在自然语言处理领域中扮演着非常重要的角色,其中cppjieba是一个高效、开源的中文分词库,它提供了多种分词算法和分词模式,并且能够支持多线程,能够大大提升分词效率。
本文将介绍cppjieba的使用方法和技术原理。
cppjieba库介绍,中文分词,github,人工智能,c++,nlp

一、cppjieba的安装

cppjieba是一个C++库,可以在Linux、Windows、Mac OS等多个平台上使用,安装cppjieba也非常简单。

依赖:

  • g++ (version >= 4.1 is recommended) or clang++;
  • cmake (version >= 2.6 is recommended);

可以先从github上克隆cppjieba的代码仓库,然后进入cppjieba的源码目录,执行命令进行编译:

1.1 按照原作者方法:

在shell中:

git clone –depth=10 –branch=master git://github.com/yanyiwu/cppjieba.gitcd cppjieba
mkdir build
cd build
cmake ..
make

但是这里是有坑的,编译会报错:缺少limonp库。

这时可以在原作者主页的开源库里找到limonp,
再shell 中 cd 切换到 /cppjieba/include,
下载:git clone https://github.com/yanyiwu/limonp.git

1.2 可以直接使用以下我整理好的方法:

在shell中:

git clone https://github.com/sweetorange2022/jiebacpp_ok.git
cd cppjieba
mkdir build
cd build
cmake ..
make -j4;

编译完成后,即可在编译目录中找到生成的动态库和静态库文件。

二、cppjieba的使用方法

2.1 cppjieba的基本使用方法

cppjieba提供了非常简单的API,使得使用者能够快速地进行中文分词:

cpp


#include "cppjieba/Jieba.hpp"

int main(int argc, char** argv) {
    cppjieba::Jieba jieba("../dict/jieba.dict.utf8",
                          "../dict/hmm_model.utf8",
                          "../dict/user.dict.utf8",
                          "../dict/idf.utf8",
                          "../dict/stop_words.utf8");

    std::string text = "今天天气不错,我们一起出去玩吧!";
    std::vector<std::string> words;
    jieba.Cut(text, words, true);

    for (auto& word : words) {
        std::cout << word << "/";
    }

    return 0;
}

result:
今天/天气/不错/,/我们/一起/出去/玩吧/!/

在这个例子中,首先创建了一个cppjieba::Jieba对象,用于进行分词。
然后,指定了分词所需的词典文件路径、模型文件路径、用户自定义词典路径、IDF值文件路径以及停用词文件路径。
接着,使用Jieba对象的Cut()函数对一个输入字符串进行分词,最后将分词结果输出到标准输出流中。

2.2 分词算法和分词模式:

除了基本的分词方法外,cppjieba还提供了多种分词算法和分词模式。

2.2.1 分词算法:

Jieba算法(cut_all = false):根据词典和模型进行精确切分。

全模式算法(cut_all = true):将所有可能的词语都列出来,速度很快,但准确率较低。

HMM算法(use_hmm = true):基于隐马尔可夫模型进行切分,对未登录词的识别能力较强

2.2.2 分词模式:

搜索模式(mode = cppjieba::Search):用于搜索引擎分词,适合于对文本进行深度分析,但速度较慢。

默认模式(mode = cppjieba::Default):在精度和速度上做了一个平衡,适用于大多数分词场景。

MP模式(mode = cppjieba::MP):适用于对速度要求很高的场景,但精度会有一定的下降。

2.3 多线程分词:

cppjieba还提供了多线程分词的功能,能够更快地进行分词。以下是使用多线程分词的例子:

cpp


#include "cppjieba/Jieba.hpp"
#include <thread>

int main(int argc, char** argv) {
    cppjieba::Jieba jieba("../dict/jieba.dict.utf8",
                          "../dict/hmm_model.utf8",
                          "../dict/user.dict.utf8",
                          "../dict/idf.utf8",
                          "../dict/stop_words.utf8");

    std::string text = "今天天气不错,我们一起出去玩吧!";
    std::vector<std::string> words;

    std::vector<std::thread> threads;
    const int thread_count = 4;
    for (int i = 0; i < thread_count; i++) {
        threads.emplace_back([&jieba, &text, &words]() {
            std::vector<std::string> sub_words;
            jieba.Cut(text, sub_words, true);
            std::lock_guard<std::mutex> lock(words_mutex);
            words.insert(words.end(), sub_words.begin(), sub_words.end());
        });
    }

    for (auto& thread : threads) {
        thread.join();
    }

    for (auto& word : words) {
        std::cout << word << "/";
    }

    return 0;
}

在这个例子中,首先创建了一个cppjieba::Jieba对象,然后指定了分词所需的文件路径。
接着,将要进行分词的文本分成多个部分,并使用多个线程进行分词。
最后,将所有的分词结果合并到一个结果集合中,并输出到标准输出流中。

2.4 cppjieba的分词流程:

加载词典文件:cppjieba使用jieba.dict.utf8和hmm_model.utf8文件构建前缀词典和HMM模型。这些文件包含了词语、词性、词频等信息。

构建前缀词典:将词典中的所有词语按照字典序排列,并将它们拆分成多个前缀。对于每个前缀,记录下对应的词语、词性和词频等信息。

分词:对于输入的文本,先进行基于HMM的分词,得到一个初步的分词结果。然后使用前缀词典进行匹配,得到所有可能的分词结果。最后,对这些结果进行歧义消解,找出最优的分词结果。

输出分词结果:将分词结果输出到标准输出流中,或者存储到文件中。

三、cppjieba的技术原理

cppjieba使用的分词算法是基于前缀词典和有向无环图的,主要包含:文章来源地址https://www.toymoban.com/news/detail-774921.html

  1. 前缀词典构建:将词典中的所有词语按照字典序排列,并将它们拆分成多个前缀。对于每个前缀,记录下对应的词语、词性和词频等信息。
  2. DAG构建:将待分词的文本字符串构建成一个有向无环图(DAG),其中每个节点代表一个可能的词语,边表示词语之间的前后关系。DAG的构建可以通过动态规划算法实现。
  3. 最大概率路径计算:使用Viterbi算法计算出DAG中的最大概率路径,即分词结果。
  4. 未登录词分词:对于DAG中没有被词典覆盖的节点(即未登录词),根据节点周围的字符信息进行分词。
  5. 歧义消解:根据语言学和统计学的方法,对分词结果进行歧义消解,找出最优的分词结果。

总结

  • cppjieba是一个快速、准确、易用的中文分词库,它基于前缀词典和有向无环图的算法,能够有效地对中文文本进行高效的分词。
  • cppjieba支持多种分词模式和多线程分词,并且具有很好的可定制性和扩展性。
  • 如果你需要在自然语言处理中使用中文分词功能,cppjieba是一个非常不错的选择。

到了这里,关于最好用的中文分词库cppjieba_ok【可直接编译使用用版】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 最好用的七大顶级 API 接口测试工具

    本文首发:最好用的七大顶级 API 接口测试工具 - 卡拉云 【完整版】 现在 API 接口已经成为软件开发重要的组成部分,由于 API 并没有 GUI 图形界面,无法直观的对接口进行测试,所以对于前后端开发来说,找到一套趁手的工具对 API 接口进行测试,了解开发的程序是否符合预

    2024年02月05日
    浏览(46)
  • 超级丝滑!2023年最好用的十大Mac软件

    与Windows相比,Mac上的软件,不仅不稀缺,并且大多数都更加精致,还没有乱七八糟烦人的弹窗骚扰!所以,本期就为大家盘点一下2023年Mac上超好用的10款软件神器! https://www.downie.cn/ 支持平台:Mac 主要功能:下载视频 非常好用的视频下载软件,支持多达1000多个网站,包括

    2024年02月05日
    浏览(33)
  • ChatGPT最好用的连接-自动写文案-代码算法最佳选择

    根据近些天各种平台ChatGPT试用测试,功能基本都大同小异,主要使用场景是机器对话,文案,代码。 ChatGPT与编程语言的结合可以在局部文案和算法方面提供帮助,但无法完全替代人工处理。具体而言,ChatGPT在以下方面有所帮助: 局部文案生成 :ChatGPT可以根据给定的要求和

    2024年02月01日
    浏览(36)
  • 国内最好用的AI工具,都是免费滴,有画图哦

    人不走空                                                                          目录         🌈个人主页:人不走空       💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨   一、 百度文心一言 二、 阿里通义 三、 讯飞星火 四、 腾讯混元助

    2024年02月21日
    浏览(40)
  • 原地起飞!VS Code 最好用的 10 款 AI 插件

    你好,我是 EarlGrey,喜欢翻译点东西,偶尔写写代码。 点击下方卡片关注我,一起向上进击,提升自我。 后台回复“ 电子书 ”,送你一份我收藏的电子书合集。 开发人员的工具箱每年都在增加。最近,AI 工具受到热捧,质量和数量都在不断提高。 今天,我将为大家

    2024年02月03日
    浏览(39)
  • 6个最好用的网盘资源搜索引擎,大汇总!

    分享 6 个 专业网盘搜索引擎 ,支持百度网盘、阿里云盘、蓝奏云盘、夸克网盘、天翼云盘、迅雷云盘等。 全都是免费网站,简单好用,必须点赞收藏! # 1. 无为盘搜 - 网盘搜索引擎界新星! 地址:https://wuweipansou.top 支持网盘:聚合搜索,阿里、百度、夸克、天翼 查看方式

    2024年02月08日
    浏览(175)
  • Logback是最好用的日志框架吗?Logback快速入门

    日志技术可以将系统执行的信息选择性的记录到指定的位置(控制台、文件中、数据库中)。随时以开关的形式控制是否记录日志,无需修改源代码,就可以取消或者记录信息。并且牛人或者第三方公司已经做好的日志记录实现代码,开发者可以直接拿来使用。 常见的日志框架

    2024年02月07日
    浏览(36)
  • Playwright vs Selenium:最好用的自动化测试框架?

    目录 引言 文心一言:Playwright 极简教程 ChatGPT : Playwright极简教程 Playwright 特性说明 安装 编写测试 运行测试 固定装置(Fixtures) 总结 很长时间以来,Selenium是QA工程师寻求测试自动化解决方案的首选测试框架。它能够测试任何浏览器(这在IE浏览器的统治时期尤其重要)和任

    2023年04月17日
    浏览(32)
  • 一文搞懂!最好用的七大顶级 API 接口测试工具

    现在 API 接口已经成为软件开发重要的组成部分,由于 API 并没有 GUI 图形界面,无法直观的对接口进行测试,所以对于前后端开发来说,找到一套趁手的工具对 API 接口进行测试,了解开发的程序是否符合预期十分重要。 面对批量的 API,手动测试变得非常低效,自动化 API 接

    2024年02月15日
    浏览(35)
  • PyCharm安装GitHub Copilot(最好用的AI编程插件之一)

    GitHub Copilot 是由 GitHub 和 OpenAI 共同开发的一款人工智能辅助编程工具。它是一个基于机器学习的代码编写插件,旨在为开发人员提供即时的代码建议和自动补全功能。 GitHub Copilot 使用了大规模的开源代码库进行训练,并利用自然语言处理和深度学习技术来理解开发人员在编

    2024年02月04日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包