7个顶级开源数据集来训练自然语言处理（NLP）和文本模型

1年前作者：ygtu2018分类：Toy博客阅读(10)违法举报

这篇具有很好参考价值的文章主要介绍了7个顶级开源数据集来训练自然语言处理（NLP）和文本模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

推荐：使用 NSDT场景编辑器快速助你搭建可二次编辑的3D应用场景

NLP现在是一个令人兴奋的领域，特别是在像AutoNLP这样的用例中，但很难掌握。开始使用NLP的主要问题是缺乏适当的指导和该领域的过度广度。很容易迷失在各种论文和代码中，试图吸收所有内容。

要意识到的是，当涉及到NLP时，你无法真正学习所有东西，因为它是一个广阔的领域，但你可以尝试取得渐进式的进步。当你坚持不懈时，你可能会发现你知道的比房间里的其他人都多。就像其他所有事情一样，这里的主要事情是采取这些渐进的步骤。

您需要采取的第一步是在数据集上训练您的 NLP 模型。创建自己的数据集是一项繁重的工作，在刚开始时实际上是不必要的。

每天都有无数的开源数据集发布，专注于单词、文本、语音、句子、俚语以及您能想到的任何其他内容。请记住，开源数据集并非没有问题。不幸的是，在抓取任何旧数据集进行测试时，您必须处理偏见、不完整的数据和一系列其他问题。

但是，网上有几个地方在策划数据集方面做得很好，可以更轻松地找到您要查找的内容：

Papers With Code - 近 5，000 个机器学习数据集被分类且易于查找。
Hugging Face - 一个很好的网站，用于查找专注于音频、文本、语音和其他专门针对 NLP 的数据集的数据集。

话虽如此，以下列表是我们推荐的一些最佳开源数据集来开始学习 NLP，或者您可以尝试各种模型并按照以下步骤操作。

1. Quora Question Insincerity Dataset

这个数据集非常有趣。在Kaggle上的NLP挑战赛中，我们提供了一个分类数据集，您必须根据问题内容预测问题是否有毒。使这个数据集变得无价的另一件事是各种Kaggle用户的伟大内核。

在同一个数据集上有许多不同的帖子，如果你想从NLP开始，这可能会有很大帮助。

文章，深度学习的文本预处理方法，包含适用于深度学习模型的预处理技术，我们在其中讨论增加嵌入覆盖率。
在第二篇文章“文本分类的常规方法”中，我们尝试带您了解一些基本的常规模型，如TFIDF，Countvectorizer，哈希等，这些模型已用于文本分类，并尝试访问其性能以创建基线。
您可以在注意力、CNN 和文本分类文章中深入研究深度学习模型，该文章侧重于解决文本分类问题的不同体系结构。
这里有一个关于使用BERT和ULMFit的迁移学习。

2. Stanford Question Answering Dataset (SQuAD)

斯坦福问答数据集（SQuAD）是源自维基百科文章的问答对的集合。

简而言之，在这个数据集中，我们得到了一个问题和一个文本，其中问题的答案在于。然后的任务是找出文本中答案所在的跨度。此任务通常称为问答任务。

如果您想更深入地研究，请查看通过Hugging Face理解BERT文章，其中分享了如何使用此数据集和BERT模型使用拥抱面孔库预测问题的答案。

3. UCI ML Drug Review Dataset

7个顶级开源数据集来训练自然语言处理（NLP）和文本模型,分类,数据挖掘,人工智能

药物审查使用NLP预测疾病状况，照片由Michał Parzuchowski在Unsplash上拍摄。

你能根据药物审查预测疾病状况吗？UCI ML 药物评论数据集提供特定药物和相关条件的患者评论，以及反映整体患者满意度的 10 星患者评分系统。

该数据集可用于多类分类，如使用深度学习进行端到端多类文本分类中所述，还可以尝试使用各种数字特征以及文本来使用此数据集来解决多类问题。

4. Yelp Reviews Dataset

你喜欢食物，并希望创建一个好的评论网站吗？

这个Yelp数据集让你有Yelp餐厅评论以及其他信息，如JSON格式的类别、营业时间和关门时间。可以尝试解决的问题之一是创建一个系统将菜肴分类。或者将其用于命名实体识别（NER）以在评论中找出菜肴。你能找到或创建一个关于Yelp如何获得餐厅评论亮点的系统吗？

这也是理解Yelp业务和搜索的良好数据集。天空是您希望如何使用此数据集的限制。

7个顶级开源数据集来训练自然语言处理（NLP）和文本模型,分类,数据挖掘,人工智能

5. IMDB Movie Dataset

IMDB电影信息的NLP开源数据集，照片由Marques Kaspbrak在Unsplash上拍摄。

寻找下一部要看的电影？此数据集包含来自 IMDB 的 50k 电影的电影描述、平均评分、票数、类型和演员信息。

同样，这个数据集可以以多种方式使用，而不仅仅是从NLP的角度来看。使用此数据集的最常见方法是构建推荐引擎、类型分类和查找类似的电影。

6. 20 Newsgroups

18 个新闻组数据集包含大约 000，<> 个关于 <> 个主题的新闻组帖子。主题多种多样，范围从体育、无神论、政治等。

这是一个多类分类数据集，但您也可以使用此数据集来学习主题建模，如 Python 中使用 Gensim-LDA 进行主题建模中所述。

7.IWSLT (International Workshop on Spoken Language Translation) Dataset

这个机器翻译数据集是用于翻译任务的事实标准，包含德语、英语、意大利语、荷兰语和罗马尼亚语的 TED 和 TEDx 演讲的翻译。这意味着您将能够在任意一对这些语言之间训练翻译人员。

另一个好处是可以使用torchtext.datasets通过PyTorch访问它。

如果您想更深入地了解如何使用此数据集来创建自己的转换器，我们将介绍BERT变压器及其工作原理，您还可以了解有关如何使用BERT从头开始创建转换器的更多信息。您可以了解有关NLP的更多信息并解决各种任务，并且还提供了一些可以使用这些数据集解决问题的途径。

原文链接：7个顶级开源数据集来训练自然语言处理（NLP）和文本模型 (mvrlink.com)文章来源地址https://www.toymoban.com/news/detail-641775.html

到了这里，关于7个顶级开源数据集来训练自然语言处理（NLP）和文本模型的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【自然语言处理】:实验4布置，预训练语言模型实现与应用
清华大学驭风计划因为篇幅原因实验答案分开上传，自然语言处理专栏持续更新中，期待的小伙伴敬请关注有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~ 案例简介 2018年，Google提出了预训练语言模型BERT，该模型在各种NLP任务上都取得了很好的效果。与
2024年02月19日
浏览(31)
【自然语言处理】:实验4答案，预训练语言模型实现与应用
代码和报告均为本人自己实现（实验满分），只展示主要任务实验结果，如果需要详细的实验报告或者代码可以私聊博主，接实验技术指导1对1 运行模型，测试模型在有 100% / 50% / 10% training data（通过随机 sample 原 training set 一部分的数据，10%代表低资源的设定）的情况下模型
2024年02月22日
浏览(31)
自然语言处理 Paddle NLP - 预训练语言模型及应用
基础自然语言处理（NLP）自然语言处理PaddleNLP-词向量应用展示自然语言处理（NLP）-前预训练时代的自监督学习自然语言处理PaddleNLP-预训练语言模型及应用自然语言处理PaddleNLP-文本语义相似度计算（ERNIE-Gram）自然语言处理PaddleNLP-词法分析技术及其应用自然语言处理Pa
2024年02月08日
浏览(7)
自然语言处理实战9-大语言模型的训练与文本生成过程
大家好，我是微学AI，今天给大家介绍一下自然语言处理实战项目9-大语言模型的训练与文本生成过程，详细步骤介绍。大语言模型的训练是通过深度学习技术实现的。首先，需要准备一个庞大的文本数据集作为训练样本，这些文本可以是网页、书籍、新闻等大量的非结构化文
2024年02月07日
浏览(7)
自然语言处理从入门到应用——动态词向量预训练：双向语言模型
分类目录：《自然语言处理从入门到应用》总目录对于给定的一段输入文本 w 1 w 2 ⋯ w n w_1w_2cdots w_n w 1 w 2 ⋯ w n ，双向语言模型从前向（从左到右）和后向（从右到左）两个方向同时建立语言模型。这样做的好处在于，对于文本中任一时刻的词 w t w_t w t ，可以
2024年02月10日
浏览(12)
基于Bert+Attention+LSTM智能校园知识图谱问答推荐系统——NLP自然语言处理算法应用(含Python全部工程源码及训练模型)+数据集
这个项目充分利用了Google的Bert模型，这是一种基于Attention的大规模语料预训练模型，以及LSTM命名实体识别网络。项目的目标是设计一套通用的问答系统处理逻辑，以实现智能问答任务。首先，我们采用了Bert模型，这是一种在自然语言处理领域非常强大的预训练模型。它具备
2024年02月09日
浏览(15)
自然语言处理从入门到应用——预训练模型总览：预训练模型的拓展
分类目录：《自然语言处理从入门到应用》总目录相关文章： · 预训练模型总览：从宏观视角了解预训练模型 · 预训练模型总览：词嵌入的两大范式 · 预训练模型总览：两大任务类型 · 预训练模型总览：预训练模型的拓展 · 预训练模型总览：迁移学习与微调 · 预训练模型
2024年02月11日
浏览(8)
2023年！自然语言处理（NLP）10 大预训练模型
来源: AINLPer 公众号（每日干货分享！！）编辑: ShuYini 校稿: ShuYini 时间: 2022-10-23 语言模型是构建NLP应用程序的关键。现在人们普遍相信基于预训练模型来构建NLP语言模型是切实有效的方法。随着疫情阴霾的散去，相信NLP技术会继续渗透到众多行业中。在此过程中，肯定有很
2024年02月16日
浏览(10)
Chat2DB-开源AI智能数据库客户端工具能够将自然语言转换为SQL
Chat2DB 是一款有开源免费的多数据库客户端工具，支持windows、mac本地安装，也支持服务器端部署，web网页访问。和传统的数据库客户端软件Navicat、DBeaver 相比Chat2DB集成了AIGC的能力，能够将自然语言转换为SQL，也可以将SQL转换为自然语言，可以给出研发人员SQL的优化建议，极
2024年02月15日
浏览(12)
自然语言处理（NLP） - 前预训练时代的自监督学习
基础自然语言处理（NLP）自然语言处理PaddleNLP-词向量应用展示自然语言处理（NLP）-前预训练时代的自监督学习自然语言处理PaddleNLP-预训练语言模型及应用自然语言处理PaddleNLP-文本语义相似度计算（ERNIE-Gram）自然语言处理PaddleNLP-词法分析技术及其应用自然语言处理Pa
2024年02月08日
浏览(4)