Python jieba库的使用

这篇具有很好参考价值的文章主要介绍了Python jieba库的使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。

精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

搜索引擎模式:在精确模式的基础上,对长词再次进行切分

一、jieba库的安装

因为 jieba 是一个第三方库,所有需要我们在本地进行安装。

Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功

在 pyCharm 中安装:打开 settings,搜索 Project Interpreter,在右边的窗口选择 + 号,点击后在搜索框搜索 jieba,点击安装即可文章来源地址https://www.toymoban.com/news/detail-857976.html

二、jieba三种模式的使用
# -*- coding: utf-8 -*-
import jieba

seg_str = “好好学习,天天向上。”

print(“/”.join(jieba.lcut(seg_str))) # 精简模式,返回一个列表类型的结果
print(“/”.join(jieba.lcut(seg_str, cut_all=True))) # 全模式,使用 ‘cut_all=True’ 指定
print(“/”.join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式

  • 分词效果:

    三、jieba 分词简单应用

    需求:使用 jieba 分词对一个文本进行分词,统计次数出现最多的词语,这里以三国演义为例

    # -*- coding: utf-8 -*-
    import jieba
    

txt = open(“三国演义.txt”, “r”, encoding=‘utf-8’).read()
words = jieba.lcut(txt) # 使用精确模式对文本进行分词
counts = {} # 通过键值对的形式存储词语及其出现的次数

for word in words:
if len(word) == 1: # 单个词语不计算在内
continue
else:
counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序

for i in range(3):
word, count = items[i]
print(“{0:<5}{1:>5}”.format(word, count))

    统计结果:

    你可以随便找一个文本文档,也可以到 https://github.com/coderjas/python-quick 下载上面例子中的文档。

    四、扩展:英文单词统计

    上面的例子统计实现了中文文档中出现最多的词语,接着我们就来统计一下一个英文文档中出现次数最多的单词。原理同上

    # -*- coding: utf-8 -*-
    

    def get_text():
    txt = open(“1.txt”, “r”, encoding=‘UTF-8’).read()
    txt = txt.lower()
    for ch in ‘!"#$%&()*+,-./:;<=>?@[\]^_‘{|}~’:
    txt = txt.replace(ch, " ") # 将文本中特殊字符替换为空格
    return txt

    file_txt = get_text()
    words = file_txt.split() # 对字符串进行分割,获得单词列表
    counts = {}

    for word in words:
    if len(word) == 1:
    continue
    else:
    counts[word] = counts.get(word, 0) + 1

    items = list(counts.items())
    items.sort(key=lambda x: x[1], reverse=True)

    for i in range(5):
    word, count = items[i]
    print(“{0:<5}->{1:>5}”.format(word, count))

    pythonjieba库怎么用,Python技能,python,开发语言

    统计结果:

    jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。

    精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

    全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

    搜索引擎模式:在精确模式的基础上,对长词再次进行切分

    一、jieba库的安装

    因为 jieba 是一个第三方库,所有需要我们在本地进行安装。

    Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功

    在 pyCharm 中安装:打开 settings,搜索 Project Interpreter,在右边的窗口选择 + 号,点击后在搜索框搜索 jieba,点击安装即可

    二、jieba三种模式的使用
    # -*- coding: utf-8 -*-
    import jieba
    

    到了这里,关于Python jieba库的使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

    领支付宝红包 赞助服务器费用

    相关文章

    • python 基础教程:使用jieba库对文本进行分词

      Python的jieba库是一个中文分词工具,它可以将一段中文文本分割成一个一个的词语,方便后续的自然语言处理任务,如文本分类、情感分析等。jieba库使用了基于前缀词典的分词方法,能够处理中文的各种复杂情况,如歧义词、新词等。它还提供了多种分词模式,如精确模式、

      2024年02月05日
      浏览(42)
    • Python使用jieba库分词并去除标点符号

      相对于英文文本,中文文本挖掘面临的首要问题就是分词,因为中文的词之间没有空格。在Python中可以使用jieba库来进行中文分词。 但是在中文中,标点符号出现的频率也是很高的,在使用jieba库对带有标点符号的汉语句子进行分词时,标点符号出现在分词结果中时,对于后

      2024年02月04日
      浏览(72)
    • python 基础知识:使用jieba库对文本进行分词

      前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 一、jieba库是什么? Python的jieba库是一个中文分词工具,它可以将一段中文文本分割成一个一个的词语,方便后续的自然语言处理任务,如文本分类、情感分析等。 jieba库使用了基于前缀词典的分词方法,能够处理中文的各种复

      2024年02月10日
      浏览(47)
    • jieba库的安装和应用

      目录         一、jieba库         二、 jieba库的安装          三、jieba三种模式的使用         四、jieba 分词简单应用         五、扩展:英文单词统计         jieba库 是一款优秀的 Python 第三方中文分词库 ,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式

      2023年04月20日
      浏览(28)
    • [C++项目] Boost文档 站内搜索引擎(3): 建立文档及其关键字的正排 倒排索引、jieba库的安装与使用...

      之前的两篇文章: 第一篇文章介绍了本项目的背景, 获取了 Boost 库文档 🫦[C++项目] Boost文档 站内搜索引擎(1): 项目背景介绍、相关技术栈、相关概念介绍… 第二篇文章 分析实现了 parser 模块. 此模块的作用是 对所有文档 html 文件, 进行清理并汇总 🫦[C++项目] Boost文档 站内搜

      2024年02月07日
      浏览(54)
    • [Python] datetime 库的使用

      🎶博客主页: 程序喵正在路上 的博客主页 🦋欢迎关注🖱点赞👍收藏🌟留言🐾 🦄本文由 程序喵正在路上 原创,CSDN首发! 💖系列专栏:Python学习 🌠首发时间:2022年5月2日 ✅如果觉得博主的文章还不错的话,希望小伙伴们三连支持一下哦 以不同格式显示日期和时间是

      2023年04月10日
      浏览(33)
    • python--wordcloud库的使用

      目录 1.wordcloud库简介 2.wordcloud的基本使用 3.wordcloud使用实例(在图形中生成词云) 1.词云库简介 wordcloud库是python中的一个第三方库,wordcloud直译过来是“词云” 词云:以词语为基本单位,更加直观和艺术的展示文本。 另外词云库需要先自行安装 安装方法: 命令行安装:c

      2024年02月09日
      浏览(44)
    • python--json库的使用

      json.dumps() 把数据类型转换成json字符串 json.dump() 把数据类型转换成json字符串并存储在文件中 json.loads() 把json字符串转换成数据类型 json.load() 把文件打开从json字符串转换成数据类型dict dumps 和 loads 实现python dcit 和 json 对象的转换 dump 和 load 实现从文件的读写

      2024年02月13日
      浏览(34)
    • python之prettytable库的使用

      prettytable是Python的一个第三方工具库 ,用于创建漂亮的ASCII表格。它支持带有列标题的表格,还支持颜色和自定义格式。使用prettytable可以轻松地将数据可视化为表格,方便阅读和理解。 因为是第三方工具库,所以要先安装,安装命令如下 1. 添加表头 使用 field_names 来添加表

      2024年02月13日
      浏览(30)
    • Python的pickle库的简单使用

      pickle 是 Python 中用于序列化和反序列化对象的标准库。它可以将对象转换为字节流,以便在存储或传输过程中使用,也可以将字节流重新转换回原始对象。 基本使用方法如下: 序列化对象:将对象转换为字节流的过程称为序列化。可以使用 pickle.dump() 函数将对象序列化并写

      2024年02月06日
      浏览(52)

    觉得文章有用就打赏一下文章作者

    支付宝扫一扫打赏

    博客赞助

    微信扫一扫打赏

    请作者喝杯咖啡吧~博客赞助

    支付宝扫一扫领取红包,优惠每天领

    二维码1

    领取红包

    二维码2

    领红包