Jieba分词统计词频及自定义分词词典
1、统计词频
统计词频的测试文本如下:
布鲁克林篮网队(Brooklyn Nets),是一支属于美国的纽约州纽约市布鲁克林区为基地的男子职业篮球队,属于NBA,于1967年组队并在1976年加入NBA联盟,是美国男篮职业联赛东部联盟大西洋赛区的一部分。
布鲁克林篮网队原为新泽西篮网队,球队在1976年加入NBA联盟后,未夺得总冠军,但分别在2001-02和2002-03赛季获得东部联盟的头名。在2004年球队被转让给布鲁斯·拉特纳,2012-13赛季,篮网队正式由新泽
西迁往纽约市的布鲁克林区,继2006-07年赛季后,闯入NBA季后赛。2019年随着夏季转会期凯里·欧文、凯文·杜兰特等明星球员的加盟,以及交易过的詹姆斯·哈登,布鲁克林篮网队一跃成为东部极具竞争力的一支球队。
2021年8月4日消息,帕蒂·米尔斯与布鲁克林篮网队完成签约。北京时间9月11日,篮网队官方宣布,球队正式签下自由球员前锋保罗-米尔萨普
编写代码
import jieba
from collections import Counter
content = open(r'test.txt', encoding='utf-8').read()
con_words = [x for x in jieba.cut(content) if len(x) >= 2]
result = Counter(content).most_common(10)
print(result)
运行代码查看统计结果
2、自定义分词词典
2.1 创建词典
首先我们创建一个user_dict.txt
文本文件,在文件中添加我们需要的词典,如下所示:
欧阳建国 5
创新办 1
欢聚时代 5
云计算 5
2.2 编写代码
接着我们编写代码进行词典的测试,测试的文本如下:
欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家
首先我们不导入
自定义的分词词典,看看分词结果如何:
代码如下:
import jieba
txt = '欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家'
print(','.join(jieba.cut(txt)))
分词结果
欧阳,建国,是,创新,办,主任,也,是,欢聚,时代,公司,云,计算,方面,的,专家
接着我们导入
分词词典,查看分词结果:
代码
import jieba
txt = '欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家'
# 使用用户字典的分词
jieba.load_userdict('user_dict.txt')
print(','.join(jieba.cut(txt)))
分词结果文章来源:https://www.toymoban.com/news/detail-544536.html
欧阳建国,是,创新办,主任,也,是,欢聚时代,公司,云计算,方面,的,专家
很明显的可以看出,加入自定义的分词词典之后,所得到的分词结果更符合实际情况。文章来源地址https://www.toymoban.com/news/detail-544536.html
到了这里,关于Jieba分词统计词频及自定义分词词典的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!