NLP——操作步骤讲义与实践链接

这篇具有很好参考价值的文章主要介绍了NLP——操作步骤讲义与实践链接。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据集与语料

  • 语料是NLP的生命之源,所有NLP问题都是从语料中学到数据分布的规律
  • 语料的分类:单语料,平行语料,复杂结构
    NLP——操作步骤讲义与实践链接,自然语言处理,人工智能
  • 语料的例子:Penn Treebank, Daily Dialog, WMT-1x翻译数据集,中文闲聊数据集,中国古诗数据集
  • 语料来源:公开数据集,爬虫,社交工具埋点,数据库,上述数据集如何获取?这里 (吐槽一下,B站的这个视频讲得很一般,浪费好几个小时时间,收获甚微,作为科普快速拉一下可以)

句子理解

用计算机处理一个句子,主要包含以下几个方面:分词词性识别命名实体识别依存句法分析

分词

分词与NLP的关系

  • 分词是中文语言特有的需求,是中文NLP的基础,没有中文分词,我们对于语言很难量化,进而很难运用数学的知识去解决问题。而对于拉丁语系是不需要分词的,因为它们有空格天然的隔开

  • 中分分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词操作的输入是句子,输出是词序列,如NLP——操作步骤讲义与实践链接,自然语言处理,人工智能

  • 关于分词,可参阅B站上一个视频动手学中文分词,(这个视频还不错,理论部分讲得不是很细,但代码部分很细,通过debug帮助理解算法)该系列课程讲解了三种分词算法及其实现、中文分词工具Jieba分词的用法,最后实现了一个简单的在线分词工具,内嵌了自研的三种算法以及调用Jieba分词工具,原视频给的百度链接无效,我跟做的Flask项目online_fenci资源:链接:百度网盘 提取码:ci07 。由于缺少原视频中css, js等样式文件,所有页面画风有点。。。丑,只能将就看。

词性识别

词性识别的输入是一个句子,输出是识别出的词性,例如,对于特朗普昨天在推特上攻击拜登这句话,在对其进行分词后,紧接着做词性识别,得出与词序列一一对应的词性序列,如:特朗普-名词人名(nh), 昨天-名词时间(nt),在-介词(p)
NLP——操作步骤讲义与实践链接,自然语言处理,人工智能
NLP——操作步骤讲义与实践链接,自然语言处理,人工智能

命名实体识别

依存句法分析

NLP——操作步骤讲义与实践链接,自然语言处理,人工智能

预处理

  • tokenize:把词向量化,例如,把一个词“apple”向量化成一个长度512的向量,以便用计算机能够处理的方式进行计算处理
  • 命名实体识别:把词中的实体找出来
    一些预处理工具:
    预处理的工具包括:
  • NLTK:官网地址,基本的英文操作都支持
  • SnowNLP:https://github.com/isnowfy/snowlp,中文NLP处理工具,可以进行一些基本操作,如情感分析(积极or消极),简繁转换,分词,标注,计算指标等
  • Pyrouge:测评文本摘要好坏
  • LTP: https://ltp.ai/, https://github.com/HIT-SCIR.ltp, 哈工大做的开源工具
  • Gensim: 实现Tf-ldf, LSA, LDA, Word2vec等技能
  • TF-IDF,统计词频,词的文档频率,制作词云

词向量模型——word2vec

词向量的通俗理解,如果用CBOWSkip-gram模型训练词向量,参阅这里
两种构建词向量的模式:CBOW模型与Skip-gram模型

Skip-gram模型

Skip-gram模型构建训练数据的方法如图,对于Thou shalt not make a machine in the likeness of a human mind这句话,用一个长度为5(一般为奇数)的滑窗在句中扫过,将input_word前2个词与后2个词作为output_word(或者叫target_word),构建出的数据集如下所示。
NLP——操作步骤讲义与实践链接,自然语言处理,人工智能文章来源地址https://www.toymoban.com/news/detail-651567.html

到了这里,关于NLP——操作步骤讲义与实践链接的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 自然语言处理-NLP

    目录 自然语言处理-NLP 致命密码:一场关于语言的较量 自然语言处理的发展历程 兴起时期 符号主义时期 连接主义时期 深度学习时期 自然语言处理技术面临的挑战 语言学角度 同义词问题 情感倾向问题 歧义性问题 对话/篇章等长文本处理问题 探索自然语言理解的本质问题

    2024年02月11日
    浏览(82)
  • NLP(自然语言处理)

     一、NLP是什么 自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究

    2024年02月02日
    浏览(72)
  • 自然语言处理(NLP)

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月08日
    浏览(52)
  • 自然语言处理NLP:一文了解NLP自然语言处理技术,NLP在生活中的应用,图导加深了解,NLP语料库,NLP开源工具

    目录 1.自然语言处理NLP 1.1 NLP中英对照(双份) 1.2 相关文章  2.NLP语料库

    2024年02月09日
    浏览(64)
  • 自然语言处理(NLP) —— 心理语言学

            认知科学和心理语言学是两个密切相关的领域,它们研究 认知过程和语言使用是如何相互作用的。         在历史上,这两个领域的发展经历了几个重要的阶段: 1.1.1 19世纪晚期(内省法)         Wundt 和其他德国心理学家使用一种叫做 内省法 的研究方

    2024年02月21日
    浏览(68)
  • 自然语言处理(NLP)技术

            自然语言处理技术是一种人工智能技术,它的目标是使计算机能够理解、分析、处理和生成自然语言(人类使用的语言)。NLP技术包括文本分类、情感分析、机器翻译、语音识别、语音合成、信息检索、信息抽取、问答系统等。NLP技术的应用非常广泛,例如智能客

    2024年02月14日
    浏览(59)
  • 聊聊自然语言处理NLP

    自然语言处理(NLP)的正式定义:是一个使用计算机科学、人工智能(AI)和形式语言学概念来分析自然语言的研究领域。不太正式的定义表明:它是一组工具,用于从自然语言源(如web页面和文本文档)获取有意义和有用的信息。 NLP工具的实现一般是基于机器学习与深度学习、其它

    2024年02月14日
    浏览(68)
  • NLP自然语言处理介绍

    自然语言处理(NLP,Natural Language Processing)是一门涉及计算机与人类语言之间交互的学科。它的目标是使计算机能够理解和生成人类语言,从而更好地处理和解析大量的文本数据。NLP不仅是人工智能领域中一个重要的分支,也是当今社会应用广泛的领域之一。 在NLP中,一个基

    2024年01月21日
    浏览(67)
  • 自然语言处理2-NLP

    目录 自然语言处理2-NLP 如何把词转换为向量 如何让向量具有语义信息 在CBOW中 在Skip-gram中 skip-gram比CBOW效果更好 CBOW和Skip-gram的算法实现 Skip-gram的理想实现 Skip-gram的实际实现 在自然语言处理任务中, 词向量(Word Embedding)是表示自然语言里单词的一种方法 ,即把每个词都表

    2024年02月11日
    浏览(69)
  • 自然语言处理(NLP)是什么?

    您有没有和聊天机器人互动过?或者您是否向虚拟助手,例如 Siri、Alexa 或您车上的车载娱乐系统发出过某些请求?您使用过在线翻译吗?我们大多数人都曾与这些人工智能 (AI) 互动过,我们也从未停止过思考如何便捷地表达我们的需求并获得适当的回应。如果我和Siri说:“

    2024年02月10日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包