python使用jieba分词,词频统计,基本使用

这篇具有很好参考价值的文章主要介绍了python使用jieba分词,词频统计,基本使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

python采用第三方库进行中文分词,本文章只是记录文章。

1.需要下载第三方库jieba:

                cmd: pip install jieba

2.为了方便测试,在同级目录下,准备一个txt格式文件,文件名随意,这里我也是随便取的:

                文件路径可以是绝对路径,也可以是相对路径,看你的文件是放在什么位置

                使用相应路径

     文件内容python使用jieba分词,词频统计,基本使用

3.代码:

# 引入jieba分词库
import jieba

# 定义一个函数,用于接受一个路径
def read(path):
    # open打开系统文件,encoding='utf8'更好的支持中文 as取别名为f
    with open(path,'r',encoding='utf8') as f:
        lists = ''  #定义一个空变量,用于存储词汇
        for i in f:
            i = i.strip()  #去除空格符号
            lists += i
        return lists

file_path = 'nr.txt'
cut_file = jieba_lcut(file_path)
print(cut_file)

到这里,就可以进行基本的分词读取了, 如果仅仅使用jieba_lcut(arguments)的形式默认为精确模式,其他模式分别为:

                全模式(返回词汇数量更多):jieba_lcut(arguments,cut_all=True)

                搜索引擎模式(与全模式大同小异):jieba.lcut_for_search(arguments)

另外,向词典中添加新词:jieba.add_word(word)

 4.进行词频统计

需要注意这串代码:  dict[item] = dict.get(item,0) + 1

a.该部分运行逻辑是:如果字典里没有数据,则以当前遍历对象item作为健,等号后面为值

b.等号后面逻辑为:以item为索引获取字典对象,没有该数据则创建值,值为0,如果有该字典对象,返回该字典对象值,并+1

                dict.get(item) 返回的是键值对的值

# 该部分用于统计词频
def index(word):
    dict = {}
    for item in word:
        # 该部分运行逻辑是:如果字典里没有数据,则以当前遍历对象item作为健,等号后面为值
        # 等号后面逻辑为:以item为索引获取字典对象,没有该数据则创建值,赋值为0,如果有该字典对象,返回该字典对象值并+1
        dict[item] = dict.get(item,0) + 1
    return dict

5:完整代码如下

# 引入jieba分词库
import jieba

# 定义一个函数,用于接受一个路径
def read(path):
    # open打开系统文件,encoding='utf8'更好的支持中文 as取别名为f
    with open(path,'r',encoding='utf8') as f:
        lists = ''  #定义一个空变量,用于存储词汇
        for i in f:
            i = i.strip()  #去除空格符号
            lists += i
        return lists

# 该部分用于统计词频
def index(word):
    dict = {}
    for item in word:
        # 该部分运行逻辑是:如果字典里没有数据,则以当前遍历对象item作为健,等号后面为值
        # 等号后面逻辑为:以item为索引获取字典对象,没有该数据则创建值,赋值为0,如果有该字典对象,返回该字典对象值并+1
        dict[item] = dict.get(item,0) + 1
    return dict

# 调用函数
file = read('nr.txt')
x = jieba.lcut(file)
y = index(x)
print(y)

运行效果如下

python使用jieba分词,词频统计,基本使用

 文章来源地址https://www.toymoban.com/news/detail-471468.html

到了这里,关于python使用jieba分词,词频统计,基本使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python之jieba分词库使用

    一. 介绍 A. 什么是jieba库 jieba库是一款开源的中文分词工具,能够将中文文本切分成词语。 B. jieba库的特点和优势 支持四种分词模式:精确模式、全模式、搜索引擎模式和paddle模式。 提供自定义词典功能,可以添加、删除词语。 支持提取和词性标注。 提供Tokenize接口

    2024年02月16日
    浏览(39)
  • 使用python进行字频统计和词频统计

    读取给定的语料库,根据制表符’t’划分其文本与标签,将获得的文本仅保留汉字部分,并按字划分,保存在列表中,至少使用一种方法,统计所有汉字的出现次数,并按照从高到低的顺序排序;至少使用一种方法,统计所有字频,按照从高到低的顺序排序;至少使用一种

    2024年02月06日
    浏览(41)
  • python 基础教程:使用jieba库对文本进行分词

    Python的jieba库是一个中文分词工具,它可以将一段中文文本分割成一个一个的词语,方便后续的自然语言处理任务,如文本分类、情感分析等。jieba库使用了基于前缀词典的分词方法,能够处理中文的各种复杂情况,如歧义词、新词等。它还提供了多种分词模式,如精确模式、

    2024年02月05日
    浏览(45)
  • Python使用jieba库分词并去除标点符号

    相对于英文文本,中文文本挖掘面临的首要问题就是分词,因为中文的词之间没有空格。在Python中可以使用jieba库来进行中文分词。 但是在中文中,标点符号出现的频率也是很高的,在使用jieba库对带有标点符号的汉语句子进行分词时,标点符号出现在分词结果中时,对于后

    2024年02月04日
    浏览(75)
  • python 基础知识:使用jieba库对文本进行分词

    前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 一、jieba库是什么? Python的jieba库是一个中文分词工具,它可以将一段中文文本分割成一个一个的词语,方便后续的自然语言处理任务,如文本分类、情感分析等。 jieba库使用了基于前缀词典的分词方法,能够处理中文的各种复

    2024年02月10日
    浏览(49)
  • 文本分析-使用Python做词频统计分析

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 前言 前面我们已经介绍了文本分析中的中文分词和去除停用词,这篇文章将详细介绍分词后

    2024年02月10日
    浏览(46)
  • 使用python统计《三国演义》人物词频,看看罗贯中笔下谁的出场次数最多

    “滚滚长江东逝水,浪花淘尽英雄”。近来读《三国演义》,忽然想看看到底哪位英雄在书中提到的最多,于是就想用分词算法实现一下。 网上也确实有相关的案例,作为参考,自己又重写并优化了一遍。 思路 下载《三国演义》txt文档 使用jieba分词算法对文档进行分词处理

    2024年02月06日
    浏览(42)
  • Python中文分词库——jieba的用法

    jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个单词,这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库,需要通过安装来使用它。 jieba库提供了三种分词模式,但实际上要达到

    2023年04月25日
    浏览(52)
  • Python文本分析之中文分词(jieba库)

    (1)全自动安装 (2)半自动安装 首先登入https://pypi.org/project/jieba/下载安装包 最后解压安装包: python setup py install (3)手动安装 首先登入https://pypi.org/project/jieba/下载安装包 最后把jieba目录放置在site-packages目录内 语法: jieba.cut(sentence, cut_all=False, HMM=True, use_paddle=False) 功能

    2024年02月07日
    浏览(55)
  • 通过Python的jieba库对文本进行分词

    大家好,我是空空star,本篇给大家分享一下通过Python的jieba库对文本进行分词。 Python的jieba库是一个中文分词工具,它可以将一段中文文本分割成一个一个的词语,方便后续的自然语言处理任务,如文本分类、情感分析等。jieba库使用了基于前缀词典的分词方法,能够处理中

    2024年02月05日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包