【NLP】自然语言处理的语料库与词库

这篇具有很好参考价值的文章主要介绍了【NLP】自然语言处理的语料库与词库。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎

📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​

📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】

【NLP】自然语言处理的语料库与词库

 🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

如果你对这个系列感兴趣的话,可以关注订阅哟👋

文章目录 

语料库

词库及词法工具文章来源地址https://www.toymoban.com/news/detail-402236.html


语料库

资源名(Name) 描述(Description) 链接
人名语料库 wainshine/Chinese-Names-Corpus
Chinese-Word-Vectors 各种中文词向量 github repo
中文聊天语料 该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料 link
中文谣言数据 该数据文件中,每一行为一条json格式的谣言数据 github
中文问答数据集 链接 提取码 2dva
微信公众号语料 3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文 github
中文自然语言处理 语料、数据集 github
任务型对话英文数据集 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 github
语音识别语料生成工具 从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库 github
LitBankNLP数据集 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 github
中文ULMFiT 情感分析 文本分类 语料及模型 github
省市区镇行政区划数据带拼音标注 github
教育行业新闻 自动文摘 语料库 github
中文自然语言处理数据集 github
百度知道问答语料库 超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘 github
维基大规模平行文本语料 85种语言、1620种语言对、135M对照句 github
古诗词库 github repo
更全的古诗词库
低内存加载维基百科数据 用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s github
对联数据 700,000 couplets, 超过70万对对联 github
《配色辞典》数据集 github
42GB的JD客服对话数据(CSDD) github
70万对联数据 link
用户名黑名单列表 github
依存句法分析语料 4万句高质量标注数据 Homepage
人民日报语料处理工具集 github
虚假新闻数据集 fake news corpus github
诗歌质量评价/细粒度情感诗歌语料库 github
中文自然语言处理相关的开放任务 数据集以及当前最佳结果 github
中文缩写数据集 github
中文任务基准测评 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜 github
中文谣言数据库 github
CLUEDatasetSearch 中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集 github
多文档摘要数据集 github
让人人都变得“彬彬有礼”礼貌迁移任务 在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集 paper and code
粤语/英语会话双语语料库 github
中文NLP数据集列表 github
类人名/地名/组织机构名的命名体识别数据集 github
中文语言理解测评基准 包括代表性的数据集&基准模型&语料库&排行榜 github
OpenCLaP多领域开源中文预训练语言模型仓库 民事文书、刑事文书、百度百科 github
中文全词覆盖BERT及两份阅读理解数据 DRCD数据集:由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。
CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。
github
Dakshina数据集 十二种南亚语言的拉丁/本地文字平行数据集合 github
OPUS-100 以英文为中心的多语(100种)平行语料 github
中文阅读理解数据集 github
中文自然语言处理向量合集 github
中文语言理解测评基准 包括代表性的数据集、基准(预训练)模型、语料库、排行榜 github
NLP数据集/基准任务大列表 github
LitBankNLP数据集 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 github
70万对联数据 github
文言文(古文)-现代文平行语料 短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并 github
COLDDateset,中文冒犯性语言检测数据集 涵盖了种族、性别和地区等话题内容,数据待论文发表后放出 paper

词库及词法工具

资源名(Name) 描述(Description) 链接
textfilter 中英文敏感词过滤 observerss/textfilter
人名抽取功能 中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典 cocoNLP
中文缩写库 全国人大: 全国 人民 代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vn github
汉语拆字词典 漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥 kfcd/chaizi
词汇情感值 山泉水:0.400704566541
充沛: 0.37006739587
rainarch/SentiBridge
中文词库、停用词、敏感词 dongxiexidian/Chinese
python-pinyin 汉字转拼音 mozillazg/python-pinyin
zhtools 中文繁简体互转 skydark/nstools
英文模拟中文发音引擎 say wo i ni #说:我爱你 tinyfool/ChineseWithEnglish
chinese_dictionary 同义词库、反义词库、否定词库 guotong1988/chinese_dictionary
wordninja 无空格英文串分割、抽取单词 wordninja
汽车品牌、汽车零件相关词汇 data
THU整理的词库 IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库 link
罪名法务名词及分类模型 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 github
分词语料库+代码 百度网盘链接 - 提取码 pea6
基于Bi-LSTM + CRF的中文分词+词性标注 keras实现 link
基于Universal Transformer + CRF 的中文分词和词性标注 link
快速神经网络分词包 java version
chinese-xinhua 中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字 github
SpaCy 中文模型 包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。 github
中文字符数据 github
Synonyms中文近义词工具包 github
HarvestText 领域自适应文本挖掘工具(新词发现-情感分析-实体链接等) github
word2word 方便易用的多语言词-词对集62种语言/3,564个多语言对 github
多音字词典数据及代码 github
汉字、词语、成语查询接口 github
103976个英语单词库包 (sql版,csv版,Excel版) github
英文脏话大列表 github
词语拼音数据 github
186种语言的数字叫法库 github
世界各国大规模人名库 github
汉字字符特征提取器 (featurizer) 提取汉字的特征(发音特征、字形特征)用做深度学习的特征 github
char_featurizer - 汉字字符特征提取工具 github
中日韩分词库mecab的Python接口库 github
g2pC基于上下文的汉语读音自动标记模块 github
ssc, Sound Shape Code 音形码 - 基于“音形码”的中文字符串相似度计算方法 version 1
version 2
blog/introduction
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧 github
Tokenizer快速、可定制的文本词条化库 github
Tokenizers 注重性能与多功能性的最先进分词器 github
通过同义词替换实现文本“变脸” github
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库 github
繁简体转换 github
粤语NLP工具 github
领域词典库 涵盖68个领域、共计916万词的专业词典知识库 github

到了这里,关于【NLP】自然语言处理的语料库与词库的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 自然语言处理-NLP

    目录 自然语言处理-NLP 致命密码:一场关于语言的较量 自然语言处理的发展历程 兴起时期 符号主义时期 连接主义时期 深度学习时期 自然语言处理技术面临的挑战 语言学角度 同义词问题 情感倾向问题 歧义性问题 对话/篇章等长文本处理问题 探索自然语言理解的本质问题

    2024年02月11日
    浏览(78)
  • NLP(自然语言处理)

     一、NLP是什么 自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究

    2024年02月02日
    浏览(66)
  • 自然语言处理(NLP)

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月08日
    浏览(50)
  • 自然语言处理NLP介绍——NLP简介

    2024年02月15日
    浏览(71)
  • 聊聊自然语言处理NLP

    自然语言处理(NLP)的正式定义:是一个使用计算机科学、人工智能(AI)和形式语言学概念来分析自然语言的研究领域。不太正式的定义表明:它是一组工具,用于从自然语言源(如web页面和文本文档)获取有意义和有用的信息。 NLP工具的实现一般是基于机器学习与深度学习、其它

    2024年02月14日
    浏览(66)
  • NLP自然语言处理介绍

    自然语言处理(NLP,Natural Language Processing)是一门涉及计算机与人类语言之间交互的学科。它的目标是使计算机能够理解和生成人类语言,从而更好地处理和解析大量的文本数据。NLP不仅是人工智能领域中一个重要的分支,也是当今社会应用广泛的领域之一。 在NLP中,一个基

    2024年01月21日
    浏览(64)
  • 自然语言处理2-NLP

    目录 自然语言处理2-NLP 如何把词转换为向量 如何让向量具有语义信息 在CBOW中 在Skip-gram中 skip-gram比CBOW效果更好 CBOW和Skip-gram的算法实现 Skip-gram的理想实现 Skip-gram的实际实现 在自然语言处理任务中, 词向量(Word Embedding)是表示自然语言里单词的一种方法 ,即把每个词都表

    2024年02月11日
    浏览(66)
  • 自然语言处理(NLP)技术

            自然语言处理技术是一种人工智能技术,它的目标是使计算机能够理解、分析、处理和生成自然语言(人类使用的语言)。NLP技术包括文本分类、情感分析、机器翻译、语音识别、语音合成、信息检索、信息抽取、问答系统等。NLP技术的应用非常广泛,例如智能客

    2024年02月14日
    浏览(55)
  • 自然语言处理(NLP) —— 心理语言学

            认知科学和心理语言学是两个密切相关的领域,它们研究 认知过程和语言使用是如何相互作用的。         在历史上,这两个领域的发展经历了几个重要的阶段: 1.1.1 19世纪晚期(内省法)         Wundt 和其他德国心理学家使用一种叫做 内省法 的研究方

    2024年02月21日
    浏览(62)
  • 自然语言处理(NLP)是什么?

    您有没有和聊天机器人互动过?或者您是否向虚拟助手,例如 Siri、Alexa 或您车上的车载娱乐系统发出过某些请求?您使用过在线翻译吗?我们大多数人都曾与这些人工智能 (AI) 互动过,我们也从未停止过思考如何便捷地表达我们的需求并获得适当的回应。如果我和Siri说:“

    2024年02月10日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包