TTS | 语音合成常见数据集及数据格式详情-Toy模板网

这篇具有很好参考价值的文章主要介绍了TTS | 语音合成常见数据集及数据格式详情。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文主要详细介绍了语音中最常见的数据集（包含各个语种），及其格式等~

1.外语数据集

1.1.LJSpeech 单人

1.2.JSUT

1.3.RUSLAN

1.4.RyanSpeech

1.5.VocBench

1.6.Arabic Speech Corpus

1.7.Silent Speech EMG

1.8.Hi-Fi Multi-Speaker English TTS Dataset

1.9.KSS 单人

1.10.VCTK 多人

1.11.LibriTTS 多人

2.多任务数据集

2.1.ESD dataset

3.语音情绪识别数据集

3.1.IEMOCAP (The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database)

参考文献

REFERENCES

1.外语数据集

1.1.LJSpeech 单人

网址： The LJ Speech Dataset (keithito.com)

数据集描述：

数据集大小：2.6GB

这是一个公共领域的语音数据集，由 13，100 个简短的音频剪辑组成一位演讲者阅读 7 本非小说类书籍的段落。为每个剪辑提供转录。剪辑的长度从 1 到 10 秒不等，总长度约为 24小时。

LGSpeech文件格式

数据集描述：

元数据在成绩单.csv中提供。此文件由一条记录组成每行，由竖线字符（0x7c）分隔。这些字段是：

ID：这是对应.wav文件的名称

转录：读者说出的单词（UTF-8）

规范化转录：使用数字、序数和货币单位进行转录扩展为完整单词（UTF-8）。

每个音频文件都是一个单通道 16 位 PCM WAV，采样率为 22050 Hz。


总剪辑数    13,100
总字数    225,715
总字符数    1,308,678
总持续时间    23:55:17
平均剪辑持续时间    6.57 秒
最小剪辑持续时间    1.11 秒
最大剪辑持续时间    10.10 秒
每个剪辑的平均字数    17.23
不同的单词    13,821

命令快速下载：wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2

下载后文件压缩包： LJSpeech-1.1.tar.bz2

linux解压命令


tar -jxvf LJSpeech-1.1.tar.bz2

解压缩后，生成LJSpeech-1.1文件夹：.wav及csv文件

wavs格式如下

metadata格式如下(text文件)

1.2.JSUT

网址：Shinnosuke Takamichi (高道慎之介) - JSUT (google.com)

数据集描述：

数据集大小：2.7GB

该语料库由日语文本（转录）和阅读式音频组成。音频数据以48kHz采样并记录在消声室。录制了一位以日语为母语的女性的声音。此语料库包含 10 小时的语音，由以下数据组成：

基本5000 ...涵盖所有日常使用字符（jouyou汉字）。

ut释义512 ...将句子的一部分替换为其释义。

拟声词300 ...包括日语的拟声词（拟声词）。

后缀26 ...日语的反后缀

借词128 ...日语的外来词（例如，ググる [“谷歌”作为动词]）

声优100 ...对声优语料库的副演讲（专业女性演讲者的免费语料库）

旅行1000 ...旅行域语料库

先例130 ...先例句

重复500 ...重复口语（100句*5次）

1.3.RUSLAN

网址：RUSLAN: Russian Spoken Language Corpus For Speech Synthesis

数据集描述：

RUSLAN 是用于文本到语音转换任务的俄语口语语料库。RUSLAN 包含 22，200 个带有文本注释的音频样本——一个人超过 31 小时的高质量演讲——就单个发言者的语音持续时间而言，是最大的带注释的俄语语料库之一。

1.4.RyanSpeech

网址：Mohammad H. Mahoor, PhD

数据集描述：

RyanSpeech是用于研究自动文本到语音（TTS）系统的新语音语料库。公开可用的TTS语料库通常嘈杂，由多个说话者录制，或者没有高质量的男性语音数据。为了满足语音识别领域对高质量、公开可用的男性语音语料库的需求，我们设计并创建了 RyanSpeech。我们从现实世界的对话环境中衍生出RyanSpeech的文本材料，这些材料包含超过10个小时的专业男性配音演员的演讲，录制频率为44.1 kHz。这种语料库创建的设计和管道使RyanSpeech成为在实际应用中开发TTS系统的理想选择。为了为未来的研究、协议和基准提供基线，我们在 RyanSpeech 上训练了 4 个最先进的语音模型和一个声码器。结果显示，在我们的最佳模型中，平均意见得分（MOS）为3.36。我们已公开提供经过训练的模型以供下载。

1.5.VocBench

网址：https://github.com/facebookresearch/vocoder-benchmark

数据集描述：

VocBench是一个为最先进的神经声码器的性能提供基准的框架。VocBench采用系统的研究方法，在一个共享的环境中评估不同的神经声码器，使它们之间能够进行公平的比较。

1.6.Arabic Speech Corpus

网址：http://en.arabicspeechcorpus.com/

数据集描述：

数据集大小：1.5GB

该语音语料库是南安普敦大学Nawar Halabi博士工作的一部分。语料库是使用专业录音室用南黎凡特阿拉伯语（大马士革口音）录制的。使用此语料库合成语音作为输出，产生了高质量、自然的声音。

1.7.Silent Speech EMG

网址：Silent Speech EMG | Zenodo

数据集描述：

无声和发声语音期间的面部肌电图记录。

这些数据在EMNLP 2020（https://arxiv.org/abs/2010.02960）的出版物“无声语音的数字发声”中进行了描述。

可以在 GitHub - dgaddy/silent_speech: Code for voicing silent speech from EMG. Official repository for the papers "Digital Voicing of Silent Speech" at EMNLP 2020 and "An Improved Model for Voicing Silent Speech" at ACL 2021. Also includes code for converting silent speech to text. 中找到用于处理此数据的代码。

每个数据样本有 5 个数据文件：{i}_emg.npy - 一个保存的大小为（T， 8）的 numpy 数组，带有原始 EMG 信号;{i}_audio.flac - 原始录音;{i}_audio_clean.flac - 降低背景噪音的音频;{i}_info.json - 包含额外信息的 JSON，例如读取的文本提示;{i}_button.npy - 包含设备按钮状态的 numpy 数组，通常未使用。请注意，某些样本并不代表实际数据点，而是用作参考肌电图或音频信号。这些示例在相关信息文件中标有“sentence_index：-1”。

https://arxiv.org/pdf/2010.02960.pdf

1.8.Hi-Fi Multi-Speaker English TTS Dataset

网址：Hi-Fi Multi-Speaker English TTS Dataset

数据集描述：

该数据集是基于LibriVox的公共有声读物和古腾堡计划的文本。

Hi-Fi TTS数据集包含来自10个发言人的约291.6小时的语音，每个发言人至少有17小时的44.1kHz采样。

"Hi-Fi Multi-Speaker English TTS Dataset" Bakhturina, E., Lavrukhin, V., Ginsburg, B. and Zhang, Y., 2021: arxiv.org/abs/2104.01497.

1.9.KSS 单人

网址：Korean Single Speaker Speech Dataset | Kaggle

数据集描述：

Korean Single speaker Speech Dataset（KSS），韩国女性语音合成数据集

1.10.VCTK 多人

论文：

Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten. in CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit

下载地址：CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)

TTS | 语音合成常见数据集及数据格式详情

文件格式：

TTS | 语音合成常见数据集及数据格式详情

数据集描述：

VCTK 数据集包括 110 名具有不同口音的英语母语人士所说的语音数据。每个演讲者朗读大约400个句子，其中大部分是从报纸加上彩虹通道和识别说话者口音的引出段落中挑选出来的。彩虹段落和引出段落对于所有演讲者都是相同的。报纸文本摘自《先驱报》（格拉斯哥），经《先驱报》和时代集团许可。每个说话者阅读一组不同的报纸句子，每组都是使用贪婪算法选择的。

1.11.LibriTTS 多人

论文：LibriTTS： A Corpus Derived from LibriSpeech for Text-to-Speech

论文地址：https://arxiv.org/pdf/1904.02882.pdf

数据下载：openslr.org

LibriTTS 是一个多说话者的英语语料库，由 Heiga Zen 在 Google Speech 和 Google Brain 团队成员的协助下编写，以 585kHz 采样率阅读约 24 小时的英语语音。 LibriTTS 语料库专为 TTS 研究而设计。它源自 LibriSpeech 语料库的原始材料（来自 LibriVox 的 mp3 音频文件和来自 Project Gutenberg 的文本文件）。下面列出了与 LibriSpeech 语料库的主要区别：

音频文件以 24kHz 采样率。
演讲在句子中断时分开。
包括原始文本和规范化文本。
可以提取上下文信息（例如，相邻句子）。
具有明显背景噪音的话语被排除在外。

TTS | 语音合成常见数据集及数据格式详情

2.多任务数据集

多任务数据集表示数据集可在多任务下使用，例如语音合成，语音识别，情绪声音克隆，语音情绪识别等等

2.1.ESD dataset

官网：Emotional Voice Conversion: Theory, Databases and ESD (hltsingapore.github.io)

TTS | 语音合成常见数据集及数据格式详情

[2]数据包含了中文和英文，共20个演讲者，每个演讲者都包含5个情绪，每个情绪包含350个语音文件，

通过google 云端硬盘下载（下载地址）

TTS | 语音合成常见数据集及数据格式详情

文本文件，包含语音文件名称，语音文本，情绪标签。

3.语音情绪识别数据集

3.1.IEMOCAP (The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database)

IEMOCAP（交互式情感二元运动捕捉 (IEMOCAP) 数据库）

多模态情绪识别IEMOCAP IEMOCAP 数据集包含 151 个录制对话的视频，每个会话有 2 个演讲者，整个数据集中共有 302 个视频。每个片段都标注了 9 种情绪（愤怒、兴奋、恐惧、悲伤、惊讶、沮丧、快乐、失望和中性）以及效价、唤醒和支配。数据集记录了 5 个会话，有 5 对说话者。

参考文献

REFERENCES

[1]C. Veaux, J. Yamagishi and S. King, "The voice bank corpus: Design, collection and data analysis of a large regional accent speech database," https://doi.org/10.1109/ICSDA.2013.6709856.

[2] Kun Zhou, Berrak Sisman, Rui Liu, and Haizhou Li, “Seen and unseen emotional style transfer for voice conversion with a new emotional speech dataset,” in ICASSP. IEEE, 2021, pp. 920–924.文章来源地址https://www.toymoban.com/news/detail-447096.html

到了这里，关于TTS | 语音合成常见数据集及数据格式详情的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！