Jieba分词统计词频及自定义分词词典

这篇具有很好参考价值的文章主要介绍了Jieba分词统计词频及自定义分词词典。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Jieba分词统计词频及自定义分词词典

1、统计词频

统计词频的测试文本如下:

布鲁克林篮网队(Brooklyn Nets),是一支属于美国的纽约州纽约市布鲁克林区为基地的男子职业篮球队,属于NBA,于1967年组队并在1976年加入NBA联盟,是美国男篮职业联赛东部联盟大西洋赛区的一部分。
布鲁克林篮网队原为新泽西篮网队,球队在1976年加入NBA联盟后,未夺得总冠军,但分别在2001-02和2002-03赛季获得东部联盟的头名。在2004年球队被转让给布鲁斯·拉特纳,2012-13赛季,篮网队正式由新泽
西迁往纽约市的布鲁克林区,继2006-07年赛季后,闯入NBA季后赛。2019年随着夏季转会期凯里·欧文、凯文·杜兰特等明星球员的加盟,以及交易过的詹姆斯·哈登,布鲁克林篮网队一跃成为东部极具竞争力的一支球队。
2021年8月4日消息,帕蒂·米尔斯与布鲁克林篮网队完成签约。北京时间9月11日,篮网队官方宣布,球队正式签下自由球员前锋保罗-米尔萨普

编写代码

import jieba
from collections import Counter

content = open(r'test.txt', encoding='utf-8').read()

con_words = [x for x in jieba.cut(content) if len(x) >= 2]

result = Counter(content).most_common(10)

print(result)

运行代码查看统计结果

Jieba分词统计词频及自定义分词词典,自然语言处理,Jieba,python

2、自定义分词词典

2.1 创建词典

首先我们创建一个user_dict.txt文本文件,在文件中添加我们需要的词典,如下所示:

欧阳建国 5
创新办 1
欢聚时代 5
云计算 5

2.2 编写代码

接着我们编写代码进行词典的测试,测试的文本如下:

欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家

首先我们不导入自定义的分词词典,看看分词结果如何:

代码如下:

import jieba

txt = '欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家'

print(','.join(jieba.cut(txt)))

分词结果

欧阳,建国,是,创新,办,主任,也,是,欢聚,时代,公司,云,计算,方面,的,专家

接着我们导入分词词典,查看分词结果:

代码

import jieba

txt = '欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家'

# 使用用户字典的分词
jieba.load_userdict('user_dict.txt')

print(','.join(jieba.cut(txt)))

分词结果

欧阳建国,是,创新办,主任,也,是,欢聚时代,公司,云计算,方面,的,专家

很明显的可以看出,加入自定义的分词词典之后,所得到的分词结果更符合实际情况。文章来源地址https://www.toymoban.com/news/detail-544536.html

到了这里,关于Jieba分词统计词频及自定义分词词典的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 字典类型操作、jieba库使用及文本词频统计

    字典的定义 理解“映射” 映射是一种键(索引)和值(数据)的对应 字典类型是“映射”的体现 键值对:键是数据索引的扩展 字典是键值对的集合,键值对之间无序 采用大括号{}和dict()创建,键值对用冒号: 表示 {键1:值1,键2:值3} 可以通过键拿到值 我们在之前的的集合中说声明

    2024年02月01日
    浏览(32)
  • 东南亚语种分词和词频统计

    项目有一个需求,需要对16万缅甸语新闻做词频统计。首先是分词工具的选择和使用,然后是词频统计。 工具有voyant-tools、myanmar-tokenizer以及我使用的es的icu_analyzer。 结果是voyant-tools基于java,看不懂怎么用,听闻和myanmar-tokenizer一样会把词分得很细。icu_analyzer可以分得粗,音

    2024年02月09日
    浏览(41)
  • python处理Excel Pandas xlwings numpy, jupyter,docx,jieba 词频统计 flash

    顺序不变,是可以的 如果李四和王五两行换一下,就不对了, 结果 pandas的nlargest(n,“排序的列”),只能求最大N个值 同比 df[‘昨日’] = df[“销售金额”].shift() shift() 会把销售金额放入昨日 python 在网页上显示Excel Excel 修改数据,网页只有刷新就可以了。 python 制作网页查询

    2024年02月10日
    浏览(35)
  • Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理

    Jieba(结巴)是一个中文分词第三方库,它可以帮助我们将一段中文文本分成一个个独立的词语。Jieba具有以下特点: 简单易用:Jieba提供了简洁的API接口,易于使用和扩展。可以快速地实现中文分词功能。 高效准确:Jieba采用了基于前缀词典和动态规划算法的分词方法,能够

    2024年02月05日
    浏览(22)
  • NLP基础—jieba分词

    支持四种分词模式 精确模式 试图将句子最精确地切开,适合文本分析; 全模式 把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 paddle模式 利用Paddl

    2024年04月17日
    浏览(32)
  • python之jieba分词库使用

    一. 介绍 A. 什么是jieba库 jieba库是一款开源的中文分词工具,能够将中文文本切分成词语。 B. jieba库的特点和优势 支持四种分词模式:精确模式、全模式、搜索引擎模式和paddle模式。 提供自定义词典功能,可以添加、删除词语。 支持提取和词性标注。 提供Tokenize接口

    2024年02月16日
    浏览(25)
  • 分词工具与方法:jieba、spaCy等

    分词是自然语言处理中的一项重要任务,将一段文本划分成一系列有意义的词语或单词,是很多文本处理任务的基础,如文本分类、情感分析、机器翻译等。在中文分词中,jieba是一个常用的分词工具,而在英文分词中,spaCy是一个较为流行的选择。本文将介绍jieba和spaCy的使

    2024年02月15日
    浏览(30)
  • Python中文分词库——jieba的用法

    jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个单词,这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库,需要通过安装来使用它。 jieba库提供了三种分词模式,但实际上要达到

    2023年04月25日
    浏览(37)
  • 数据分析之jieba分词使用详解

    在所有人类语言中,一句话、一段文本、一篇文章都是有一个个的词组成的。词是包含独立意义的最小文本单元,将长文本拆分成单个独立的词汇的过程叫做分词。分词之后,文本原本的语义将被拆分到在更加精细化的各个独立词汇中,词汇的结构比长文本简单,对于计算机

    2024年02月11日
    浏览(36)
  • 安装elasticsearch、kibana、IK分词器、扩展IK词典

    后面还会安装 kibana ,这个会提供可视化界面方面学习。 需要注意的是 elasticsearch 和 kibana 版本一定要一样!!! 否则就像这样 1、创建网络 因为我们还需要部署kibana容器,因此需要让es和kibana容器互联。这里先创建一个网络: 2、镜像安装 pull 安装 因为镜像文件比较大,将

    2024年02月02日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包