TTS | 语音合成常见数据集及数据格式详情

这篇具有很好参考价值的文章主要介绍了TTS | 语音合成常见数据集及数据格式详情。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文主要详细介绍了语音中最常见的数据集(包含各个语种),及其格式等~

目录

1.外语数据集

1.1.LJSpeech 单人

1.2.JSUT

1.3.RUSLAN

1.4.RyanSpeech

1.5.VocBench

1.6.Arabic Speech Corpus

1.7.Silent Speech EMG

1.8.Hi-Fi Multi-Speaker English TTS Dataset

1.9.KSS 单人

1.10.VCTK 多人

1.11.LibriTTS 多人

2.多任务数据集

2.1.ESD dataset

3.语音情绪识别数据集

3.1.IEMOCAP (The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database)

参考文献

REFERENCES

1.外语数据集

1.1.LJSpeech 单人

网址 : The LJ Speech Dataset (keithito.com)

数据集描述:

数据集大小:2.6GB

这是一个公共领域的语音数据集,由 13,100 个简短的音频剪辑组成 一位演讲者阅读 7 本非小说类书籍的段落。为每个剪辑提供转录。 剪辑的长度从 1 到 10 秒不等,总长度约为 24小时。

LGSpeech文件格式

数据集描述:

元数据在成绩单.csv中提供。此文件由一条记录组成 每行,由竖线字符 (0x7c) 分隔。这些字段是:

  1. ID:这是对应.wav文件的名称

  1. 转录:读者说出的单词 (UTF-8)

  1. 规范化转录:使用数字、序数和货币单位进行转录 扩展为完整单词 (UTF-8)。

每个音频文件都是一个单通道 16 位 PCM WAV,采样率为 22050 Hz。


总剪辑数    13,100
总字数    225,715
总字符数    1,308,678
总持续时间    23:55:17
平均剪辑持续时间    6.57 秒
最小剪辑持续时间    1.11 秒
最大剪辑持续时间    10.10 秒
每个剪辑的平均字数    17.23
不同的单词    13,821

 命令快速下载:wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2

下载后文件压缩包 : LJSpeech-1.1.tar.bz2

linux解压命令


tar -jxvf LJSpeech-1.1.tar.bz2

解压缩后,生成LJSpeech-1.1文件夹:.wav及csv文件

TTS | 语音合成常见数据集及数据格式详情

wavs格式如下

TTS | 语音合成常见数据集及数据格式详情

metadata格式如下(text文件)

TTS | 语音合成常见数据集及数据格式详情

1.2.JSUT

网址 :Shinnosuke Takamichi (高道 慎之介) - JSUT (google.com)

数据集描述:

数据集大小:2.7GB

该语料库由日语文本(转录)和阅读式音频组成。音频数据以48kHz采样并记录在消声室。录制了一位以日语为母语的女性的声音。此语料库包含 10 小时的语音,由以下数据组成:

  • 基本5000 ...涵盖所有日常使用字符(jouyou汉字)。

  • ut释义512 ...将句子的一部分替换为其释义。

  • 拟声词300 ...包括日语的拟声词(拟声词)。

  • 后缀26 ...日语的反后缀

  • 借词128 ...日语的外来词(例如,ググる [“谷歌”作为动词])

  • 声优100 ...对声优语料库的副演讲(专业女性演讲者的免费语料库)

  • 旅行1000 ...旅行域语料库

  • 先例130 ...先例句

  • 重复500 ...重复口语(100句*5次)

1.3.RUSLAN

网址 :RUSLAN: Russian Spoken Language Corpus For Speech Synthesis

数据集描述:

RUSLAN 是用于文本到语音转换任务的俄语口语语料库。RUSLAN 包含 22,200 个带有文本注释的音频样本——一个人超过 31 小时的高质量演讲——就单个发言者的语音持续时间而言,是最大的带注释的俄语语料库之一。

1.4.RyanSpeech

网址 :Mohammad H. Mahoor, PhD

数据集描述:

RyanSpeech是用于研究自动文本到语音(TTS)系统的新语音语料库。公开可用的TTS语料库通常嘈杂,由多个说话者录制,或者没有高质量的男性语音数据。为了满足语音识别领域对高质量、公开可用的男性语音语料库的需求,我们设计并创建了 RyanSpeech。我们从现实世界的对话环境中衍生出RyanSpeech的文本材料,这些材料包含超过10个小时的专业男性配音演员的演讲,录制频率为44.1 kHz。这种语料库创建的设计和管道使RyanSpeech成为在实际应用中开发TTS系统的理想选择。为了为未来的研究、协议和基准提供基线,我们在 RyanSpeech 上训练了 4 个最先进的语音模型和一个声码器。结果显示,在我们的最佳模型中,平均意见得分(MOS)为3.36。我们已公开提供经过训练的模型以供下载。

1.5.VocBench

网址 :https://github.com/facebookresearch/vocoder-benchmark

数据集描述:

VocBench是一个为最先进的神经声码器的性能提供基准的框架。VocBench采用系统的研究方法,在一个共享的环境中评估不同的神经声码器,使它们之间能够进行公平的比较。

1.6.Arabic Speech Corpus

网址 :http://en.arabicspeechcorpus.com/

数据集描述:

数据集大小:1.5GB

该语音语料库是南安普敦大学Nawar Halabi博士工作的一部分。语料库是使用专业录音室用南黎凡特阿拉伯语(大马士革口音)录制的。使用此语料库合成语音作为输出,产生了高质量、自然的声音。

1.7.Silent Speech EMG

网址 :Silent Speech EMG | Zenodo

数据集描述:

无声和发声语音期间的面部肌电图记录。

这些数据在EMNLP 2020(https://arxiv.org/abs/2010.02960)的出版物“无声语音的数字发声”中进行了描述。

可以在 GitHub - dgaddy/silent_speech: Code for voicing silent speech from EMG. Official repository for the papers "Digital Voicing of Silent Speech" at EMNLP 2020 and "An Improved Model for Voicing Silent Speech" at ACL 2021. Also includes code for converting silent speech to text. 中找到用于处理此数据的代码。

每个数据样本有 5 个数据文件:{i}_emg.npy - 一个保存的大小为 (T, 8) 的 numpy 数组,带有原始 EMG 信号;{i}_audio.flac - 原始录音;{i}_audio_clean.flac - 降低背景噪音的音频;{i}_info.json - 包含额外信息的 JSON,例如读取的文本提示;{i}_button.npy - 包含设备按钮状态的 numpy 数组,通常未使用。请注意,某些样本并不代表实际数据点,而是用作参考肌电图或音频信号。这些示例在相关信息文件中标有“sentence_index:-1”。

https://arxiv.org/pdf/2010.02960.pdf

1.8.Hi-Fi Multi-Speaker English TTS Dataset

网址 :Hi-Fi Multi-Speaker English TTS Dataset

数据集描述:

该数据集是基于LibriVox的公共有声读物和古腾堡计划的文本。

Hi-Fi TTS数据集包含来自10个发言人的约291.6小时的语音,每个发言人至少有17小时的44.1kHz采样。

"Hi-Fi Multi-Speaker English TTS Dataset" Bakhturina, E., Lavrukhin, V., Ginsburg, B. and Zhang, Y., 2021: arxiv.org/abs/2104.01497.

1.9.KSS 单人

网址 :Korean Single Speaker Speech Dataset | Kaggle

数据集描述:

Korean Single speaker Speech Dataset(KSS),韩国女性语音合成数据集

1.10.VCTK 多人

论文

 Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten. in CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit

下载地址:CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)

TTS | 语音合成常见数据集及数据格式详情

 文件格式:

TTS | 语音合成常见数据集及数据格式详情

 数据集描述:

VCTK 数据集包括 110 名具有不同口音的英语母语人士所说的语音数据。每个演讲者朗读大约400个句子,其中大部分是从报纸加上彩虹通道和识别说话者口音的引出段落中挑选出来的。彩虹段落和引出段落对于所有演讲者都是相同的。报纸文本摘自《先驱报》(格拉斯哥),经《先驱报》和时代集团许可。每个说话者阅读一组不同的报纸句子,每组都是使用贪婪算法选择的。

1.11.LibriTTS 多人

论文:LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech

论文地址:https://arxiv.org/pdf/1904.02882.pdf

数据下载:openslr.org

LibriTTS 是一个多说话者的英语语料库,由 Heiga Zen 在 Google Speech 和 Google Brain 团队成员的协助下编写,以 585kHz 采样率阅读约 24 小时的英语语音。 LibriTTS 语料库专为 TTS 研究而设计。它源自 LibriSpeech 语料库的原始材料(来自 LibriVox 的 mp3 音频文件和来自 Project Gutenberg 的文本文件)。 下面列出了与 LibriSpeech 语料库的主要区别:

  1. 音频文件以 24kHz 采样率。
  2. 演讲在句子中断时分开。
  3. 包括原始文本和规范化文本。
  4. 可以提取上下文信息(例如,相邻句子)。
  5. 具有明显背景噪音的话语被排除在外。

TTS | 语音合成常见数据集及数据格式详情

TTS | 语音合成常见数据集及数据格式详情

2.多任务数据集

多任务数据集表示数据集可在多任务下使用,例如语音合成,语音识别,情绪声音克隆,语音情绪识别等等

2.1.ESD dataset

官网:Emotional Voice Conversion: Theory, Databases and ESD (hltsingapore.github.io)

TTS | 语音合成常见数据集及数据格式详情

 [2]数据包含了中文和英文,共20个演讲者,每个演讲者都包含5个情绪,每个情绪包含350个语音文件,

通过google 云端硬盘下载(下载地址)

TTS | 语音合成常见数据集及数据格式详情

文本文件,包含语音文件名称,语音文本,情绪标签。

3.语音情绪识别数据集

3.1.IEMOCAP (The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database)

IEMOCAP(交互式情感二元运动捕捉 (IEMOCAP) 数据库)

多模态情绪识别IEMOCAP IEMOCAP 数据集包含 151 个录制对话的视频,每个会话有 2 个演讲者,整个数据集中共有 302 个视频。每个片段都标注了 9 种情绪(愤怒、兴奋、恐惧、悲伤、惊讶、沮丧、快乐、失望和中性)以及效价、唤醒和支配。数据集记录了 5 个会话,有 5 对说话者。

参考文献

REFERENCES

[1]C. Veaux, J. Yamagishi and S. King, "The voice bank corpus: Design, collection and data analysis of a large regional accent speech database," https://doi.org/10.1109/ICSDA.2013.6709856.

[2] Kun Zhou, Berrak Sisman, Rui Liu, and Haizhou Li, “Seen and unseen emotional style transfer for voice conversion with a new emotional speech dataset,” in ICASSP. IEEE, 2021, pp. 920–924.文章来源地址https://www.toymoban.com/news/detail-447096.html

到了这里,关于TTS | 语音合成常见数据集及数据格式详情的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 微软语音合成(tts)服务申请和调用

    https://azure.microsoft.com/zh-cn/free/ 这里有个视频教程,根据此完成申请流程: https://www.bilibili.com/video/BV15a4y1W7re?vd_source=bf07f28d37849885d215dc3aea189eba 申请完成后,就可以到这里申请资源: https://portal.azure.com/#home 点击资源组,里面就有部署好的服务了 点击这里,可以获取 subscription

    2024年02月11日
    浏览(48)
  • Unity C# 之 Azure 微软SSML语音合成TTS流式获取音频数据以及表情嘴型 Animation 的简单整理

    目录 Unity C# 之 Azure 微软SSML语音合成TTS流式获取音频数据以及表情嘴型 Animation 的简单整理 一、简单介绍 二、实现原理 三、注意事项 四、实现步骤 五、关键代码 Unity 工具类,自己整理的一些游戏开发可能用到的模块,单独独立使用,方便游戏开发。 本节介绍,这里在使用

    2024年02月12日
    浏览(54)
  • 语音合成工具Coqui TTS安装及体验

    先介绍两种免费的语音合成工具 官网 http://balabolka.site/balabolka.htm 是一种基于微软Speech API (SAPI)的免费语音合成工具,只是简单的发音合成,效果比较生硬 官网 https://coqui.ai/ 是基于深度学习的语音合成软件,效果较好 Windows下安装Coqui TTS 安装环境 要求python运行环境:https://

    2024年02月15日
    浏览(46)
  • 微软语音合成助手 TTS-VUE 文字转语音工具

    我们在刷短视频的时候经常会听到一些AI合成声音,它们有各种音色、语调,甚至不同的情绪,听起来与人声无异 其实这些大都是利用微软Azure的文字转语音技术来实现的 虽然国内也有很多配音工具,但体验下来还是微软的效果最好,语气最为自然 不过Azure的文字转语音功能

    2024年02月02日
    浏览(43)
  • Python使用PaddleSpeech实现语音识别(ASR)、语音合成(TTS)

    目录 安装 语音识别 补全标点 语音合成 参考 PaddleSpeech是百度飞桨开发的语音工具 注意,PaddleSpeech不支持过高版本的Python,因为在高版本的Python中,飞桨不再提供paddle.fluid API。这里面我用的是Python3.7 需要通过3个pip命令安装PaddleSpeech: 在使用的时候,urllib3库可能会报错,因

    2024年04月25日
    浏览(40)
  • TTS合成技术中的语音合成和人工智能和自然语言生成

    TTS合成技术中的语音合成和人工智能和自然语言生成是当前人工智能技术应用中的重要领域。本文旨在介绍TTS合成技术中的语音合成、人工智能和自然语言生成的概念和技术原理,并给出实现步骤和优化建议,旨在帮助读者更好地理解这个领域的技术细节和发展趋势。 TTS合成

    2024年02月07日
    浏览(54)
  • 【TTS】uni-app语音播报app开发 / MT-TTS安卓原生自带语音合成插件(免费无限次)

    TTS 是 Text To Speech 的缩写,即“ 从文本到语音 ”,是人机对话的一部分,让机器能够说话。TTS是语音合成应用的一种。 在程序开发中,有很多TTS的插件,比如百度,讯飞,等等,但是大部分产品都不是完全免费无限制次数调用的且需在线使用 本篇文章介绍一种免费快捷且可

    2023年04月15日
    浏览(145)
  • uniapp开发小程序接入阿里云TTS语音合成(RESTful API)

    流程 首先小程序后台配置白名单 1.1 路径:开发-开发管理-开发设置-服务器域名-request合法域名 1.2 request合法域名参数:       https://nls-meta.cn-shanghai.aliyuncs.com       https://nls-gateway-cn-shanghai.aliyuncs.com 引入alitts.js 页面使用 3.1 只需替换AccessKeyID、AccessKeySecret 、appkey三个参数

    2024年02月06日
    浏览(47)
  • [Unity+OpenAI TTS] 集成openAI官方提供的语音合成服务,构建海王暖男数字人

            最近openAI官方发布了很多新功能,其中就包括了最新发布的TTS语音合成服务的api接口。说到这个语音合成接口,大家可能会比较陌生,但是说到chatgpt官方应用上的聊天机器人,那个台湾腔的海王暖男的声音,可能就有印象了吧。那么从官方文档中,可以发现,openA

    2024年02月04日
    浏览(44)
  • mmdetection训练自己的COCO数据集及常见问题

    训练自己的VOC数据集及常见问题见下文: mmdetection训练自己的VOC数据集及常见问题_不瘦8斤的妥球球饼的博客-CSDN博客_mmdetection训练voc 目录 一、环境安装 二、训练测试步骤 三、常见问题 batch size设置 学习率和epoch的修改 训练过程loss为nan的问题 GPU out of memory 保存最佳权重文件

    2024年02月06日
    浏览(64)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包