NLP自然语言处理——关键词提取之 TextRank 算法(五分钟带你深刻领悟TextRank算法的精髓)保姆级教程

这篇具有很好参考价值的文章主要介绍了NLP自然语言处理——关键词提取之 TextRank 算法(五分钟带你深刻领悟TextRank算法的精髓)保姆级教程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

textrank关键词提取,自然语言处理,人工智能,nlp

🔥博客主页:是dream

🚀系列专栏:深度学习环境搭建、环境配置问题解决、自然语言处理、语音信号处理、项目开发

💘每日语录:你要做冲出的黑马🐎 而不是坠落的星星。

🎉感谢大家点赞👍收藏⭐指正✍️

textrank关键词提取,自然语言处理,人工智能,nlp

前言

        关键词提取是将文本中的关键信息、核心概念或重要主题抽取出来的过程。这些关键词可以帮助人们快速理解文本的主题,构建文本摘要,提高搜索引擎的效率,甚至用于文本分类和信息检索等应用领域。因此,关键词提取在文本分析和自然语言处理中具有广泛的应用前景。本文主要包括以下几个内容:

  •  自然语言文本预处理
  •  TextRank算法详解(三个维度:原理、流程图、代码)
  •  好玩的中文关键词词云生成(解决乱码问题)

  本博客将深入探讨自然语言处理中常用的TextRank算法,以多种方式展现TextRank算法的核心思想。

准备工作

  1. 本文的代码是通过python实现的,建议安装一个pycharm,非常方便!
  2. 停用词表:https://pan.baidu.com/s/1OBy5piej31EuuAZbMEzVEw?pwd=peng
  3. 文本文档:百度网盘 请输入提取码
  4. 库函数 jieba、sklearn、matplotlib以及生词词云用到的wordcloud
     

自然语言文本预处理

  一般情况下我们拿到的文本是不规范的,需要我们进行一系列的预处理操作。        

  • 文本数据清洗:去除特殊符号、HTML标签、数字等无关字符。
  • 分词:将文本拆分成单词或词组。
  • 停用词去除:排除常见的停用词,如“的”、“在”等,以减少噪音。

停用词提取

        在前边的准备工作中,你已经获得了停用词表,通过以下代码提取停用词。

# 获取停用词
def load_stopwords(stopwords_file):
    stopwords = set()
    with open(stopwords_file, 'r', encoding='utf-8') as f:
        for line in f:
            stopwords.add(line.strip())
    return stopwords

        在这里提一嘴,在编程中,set 是一种数据结构,它类似于列表(list)或字符串(string),但具有一些不同的特点。

  • 列表(list)是一种有序的数据结构,可以包含多个元素,每个元素可以是不同类型的数据(例如数字、字符串、其他列表等)。列表中的元素可以重复。
  • 字符串(string)是一种有序的字符序列,通常用于表示文本。字符串的每个字符都有一个索引位置。
  • set 是一种无序的集合数据结构,它用于存储不重复的元素。集合中的元素不按顺序排列,并且每个元素在集合中只能出现一次。集合通常用于存储一组唯一的值。

数据清洗

# 加载文档集,对文档集过滤词性和停用词
def filter_documents(data_path, stopwords):
    documents = []
    with open(data_path, 'r', encoding='utf-8') as f:
        for line in f:
            document = []
            words = pseg.cut(line.strip())
            for word, flag in words:
                if flag.startswith('n') and word not in stopwords and len(word) > 1:
                    document.append(word)
            documents.append(document)
    return documents

        通过这一步,我们就得到一个包含精确分词、词性过滤和停用词去除的文本数据。

        预处理完成,接下来就是算法详解和实现。

TextRank算法

        算法思想:TextRank算法是一种用于文本摘要和关键词提取的基于图的算法,它借鉴了PageRank算法的思想,用于自动提取文本中重要的句子或关键词。下面我将详细讲解TextRank算法的思想和工作原理。

1. 文本预处理

        前边我们已经完成了文本预处理的工作。

2. 构建图

        TextRank算法的核心思想是将文本表示为图,其中句子或词语是图中的节点,它们之间的关系是边。构建图的过程包括以下步骤:

        2.1. 节点表示

        每个句子或词语都被表示为图中的一个节点。通常,可以使用词向量(Word Embeddings)来表示词语,这些词向量可以通过预训练的词嵌入模型(如Word2Vec或GloVe)获取。对于句子,可以使用句向量来表示,通常是将句子中所有词语的词向量进行平均或加权平均。

        2.2. 边的构建

        接下来,需要确定节点之间的关系,即边。通常使用某种相似度度量来计算节点之间的相似性,例如余弦相似度。节点之间的相似度可以根据节点的词向量或其他特征来计算。如果相似度超过一个预定的阈值,则在两个节点之间建立一条边。

3. 计算句子或词语的重要性

        一旦构建了图,就可以使用类似PageRank的算法来计算每个节点(句子或词语)的重要性分数。TextRank算法使用迭代的方式计算这些分数,直到收敛为止。以下是计算节点重要性的步骤:

        3.1. 初始化分数

        为每个节点初始化一个初始重要性分数,通常可以设置为相等的值。

        3.2. 迭代计算

        重要性分数的计算通过多轮迭代进行,每一轮都根据与其相连接的节点的重要性来更新节点自身的重要性分数。更新公式如下:

Score(A) = (1 - d) + d * Σ (Score(B) / OutDegree(B))
  • A 是当前节点的重要性分数,需要更新的节点。
  • B 是与节点 A 有边相连的节点。
  • d 是阻尼因子(damping factor),通常取一个介于0和1之间的值,用于平衡迭代过程中的随机浏览和节点之间的相互连接。
  • Score(B) 是节点 B 的当前重要性分数。
  • OutDegree(B) 是节点 B 的出度,表示与节点 B 相连的边的数量。

3.3. 收敛

        迭代计算会一直进行,直到重要性分数收敛,即分数的变化不再显著。

4. 选择重要的句子或词语

        一旦计算出每个节点的重要性分数,就可以根据这些分数来选择最重要的句子或词语作为文本摘要或关键词。通常,可以根据分数排名来选择前N个句子或词语。

流程图实现

textrank关键词提取,自然语言处理,人工智能,nlp

代码实现

# 使用TextRank提取关键词
def extract_keywords_textrank(documents, top_n=10):
    top_keywords_per_document = []
    tr4w = TextRank4Keyword()
    for document in documents:
        text = ' '.join(document)
        tr4w.analyze(text=text, lower=True, window=2)
        keywords = tr4w.get_keywords(top_n, word_min_len=2)
        top_keywords_per_document.append([keyword.word for keyword in keywords])
    return top_keywords_per_document

词云生成

        为了使提取到的关键词更加直观,这里我们词云的形式展现。首先需要确保你的环境已经安装了词云可以通过以下命令安装wordcloud。

        有的同学在生成词语的时候,会出现乱码的问题,为了避免乱码建议下载中文字体,这里我直接分享给大家。(提取码:peng)百度网盘 请输入提取码 (baidu.com)

def generate_wordcloud(keywords, title):
    """
    生成词云图并显示

    参数:
    keywords (list): 包含关键词的列表。
    title (str): 词云图的标题。

    返回:
    None
    """
    # 将关键词列表转化为字符串
    keywords_str = ' '.join(keywords)

    # 指定中文字体文件路径(根据实际情况替换为合适的路径)
    font_path = r'D:\my_homework\NLP_homework\NLP_test1\SimHei.ttf'  # 替换为包含中文字符的字体文件路径

    # 创建词云对象并指定字体
    wordcloud = WordCloud(width=800, height=400, background_color='white', font_path=font_path).generate(keywords_str)

    # 显示词云图
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title(f'wordcloud - {title}')
    plt.show()

效果展示:

textrank关键词提取,自然语言处理,人工智能,nlp

结语:

        总的来说,TextRank算法是一种有效的自动化关键词提取方法,它不需要依赖领域知识或语法规则,只需要基于文本本身的统计信息就能得到关键词,因此在各种自然语言处理任务中都具有广泛的应用前景。文章来源地址https://www.toymoban.com/news/detail-766489.html

本人目前正在学习自然语言处理(NLP)、语音信号识别、计算机视觉等相关知识,关注我,后续,我将分享更多人工智能tips!最后附上整段代码!

import jieba
import jieba.posseg as pseg
from sklearn.feature_extraction.text import TfidfVectorizer
from textrank4zh import TextRank4Keyword

import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 获取停用词
def load_stopwords(stopwords_file):
    stopwords = set()
    with open(stopwords_file, 'r', encoding='utf-8') as f:
        for line in f:
            stopwords.add(line.strip())
    return stopwords

# 加载文档集,对文档集过滤词性和停用词
def filter_documents(data_path, stopwords):
    documents = []
    with open(data_path, 'r', encoding='utf-8') as f:
        for line in f:
            document = []
            words = pseg.cut(line.strip())
            for word, flag in words:
                if flag.startswith('n') and word not in stopwords and len(word) > 1:
                    document.append(word)
            documents.append(document)
    return documents

def generate_wordcloud(keywords, title):
    """
    生成词云图并显示

    参数:
    keywords (list): 包含关键词的列表。
    title (str): 词云图的标题。

    返回:
    None
    """
    # 将关键词列表转化为字符串
    keywords_str = ' '.join(keywords)

    # 指定中文字体文件路径(根据实际情况替换为合适的路径)
    font_path = r'D:\my_homework\NLP_homework\NLP_test1\SimHei.ttf'  # 替换为包含中文字符的字体文件路径

    # 创建词云对象并指定字体
    wordcloud = WordCloud(width=800, height=400, background_color='white', font_path=font_path).generate(keywords_str)

    # 显示词云图
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title(f'wordcloud - {title}')
    plt.show()

# 使用TextRank提取关键词
def extract_keywords_textrank(documents, top_n=10):
    top_keywords_per_document = []
    tr4w = TextRank4Keyword()
    for document in documents:
        text = ' '.join(document)
        tr4w.analyze(text=text, lower=True, window=2)
        keywords = tr4w.get_keywords(top_n, word_min_len=2)
        top_keywords_per_document.append([keyword.word for keyword in keywords])
    return top_keywords_per_document

if __name__ == "__main__":
    stopwords_file = r'D:\my_homework\NLP_homework\NLP_test1\stopword.txt'  # 停用词文件路径
    data_path = r'D:\my_homework\NLP_homework\NLP_test1\corpus4keyword.txt'  # 文档集文件路径

    stopwords = load_stopwords(stopwords_file)
    documents = filter_documents(data_path, stopwords)

    print('停用词表的大小为:', len(stopwords))
    print('文档的数量为', len(documents))

   

    top_keywords1 = extract_keywords_textrank(documents)

    # 打印每个文档的前10个关键词
    for doc_id, keywords in enumerate(top_keywords1):
        print(f'文档 {doc_id + 1} 的前10个关键词: {", ".join(keywords)}')

    document_keywords = top_keywords1[19]  # 假设第20个文档的索引是19
    generate_wordcloud(document_keywords, 'wordcloud')

到了这里,关于NLP自然语言处理——关键词提取之 TextRank 算法(五分钟带你深刻领悟TextRank算法的精髓)保姆级教程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • NLP(自然语言处理)

     一、NLP是什么 自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究

    2024年02月02日
    浏览(72)
  • 自然语言处理(NLP)

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月08日
    浏览(52)
  • 自然语言处理NLP介绍——NLP简介

    2024年02月15日
    浏览(74)
  • 自然语言处理(NLP)技术

            自然语言处理技术是一种人工智能技术,它的目标是使计算机能够理解、分析、处理和生成自然语言(人类使用的语言)。NLP技术包括文本分类、情感分析、机器翻译、语音识别、语音合成、信息检索、信息抽取、问答系统等。NLP技术的应用非常广泛,例如智能客

    2024年02月14日
    浏览(59)
  • 聊聊自然语言处理NLP

    自然语言处理(NLP)的正式定义:是一个使用计算机科学、人工智能(AI)和形式语言学概念来分析自然语言的研究领域。不太正式的定义表明:它是一组工具,用于从自然语言源(如web页面和文本文档)获取有意义和有用的信息。 NLP工具的实现一般是基于机器学习与深度学习、其它

    2024年02月14日
    浏览(68)
  • NLP自然语言处理介绍

    自然语言处理(NLP,Natural Language Processing)是一门涉及计算机与人类语言之间交互的学科。它的目标是使计算机能够理解和生成人类语言,从而更好地处理和解析大量的文本数据。NLP不仅是人工智能领域中一个重要的分支,也是当今社会应用广泛的领域之一。 在NLP中,一个基

    2024年01月21日
    浏览(67)
  • 自然语言处理2-NLP

    目录 自然语言处理2-NLP 如何把词转换为向量 如何让向量具有语义信息 在CBOW中 在Skip-gram中 skip-gram比CBOW效果更好 CBOW和Skip-gram的算法实现 Skip-gram的理想实现 Skip-gram的实际实现 在自然语言处理任务中, 词向量(Word Embedding)是表示自然语言里单词的一种方法 ,即把每个词都表

    2024年02月11日
    浏览(69)
  • 自然语言处理NLP:一文了解NLP自然语言处理技术,NLP在生活中的应用,图导加深了解,NLP语料库,NLP开源工具

    目录 1.自然语言处理NLP 1.1 NLP中英对照(双份) 1.2 相关文章  2.NLP语料库

    2024年02月09日
    浏览(64)
  • 自然语言处理(NLP) —— 心理语言学

            认知科学和心理语言学是两个密切相关的领域,它们研究 认知过程和语言使用是如何相互作用的。         在历史上,这两个领域的发展经历了几个重要的阶段: 1.1.1 19世纪晚期(内省法)         Wundt 和其他德国心理学家使用一种叫做 内省法 的研究方

    2024年02月21日
    浏览(67)
  • 自然语言处理(NLP)是什么?

    您有没有和聊天机器人互动过?或者您是否向虚拟助手,例如 Siri、Alexa 或您车上的车载娱乐系统发出过某些请求?您使用过在线翻译吗?我们大多数人都曾与这些人工智能 (AI) 互动过,我们也从未停止过思考如何便捷地表达我们的需求并获得适当的回应。如果我和Siri说:“

    2024年02月10日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包