ASR项目实战-数据

1年前作者：jackieathome分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了ASR项目实战-数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

使用机器学习方法来训练模型，使用训练得到的模型来预测语音数据，进而得到识别的结果文本，这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。

对数据的要求

训练集

相关要求，如下：

地域，需要覆盖使用人群所在的地域，且数据的比例适中。
口音，需要覆盖典型的口音。
年龄，从18~60，覆盖各年龄段，且数据的比例适中。
- 很多国家对未成年人有非常严格的保护措施，因此收集未成年人的数据比较困难。
- 未成年男性的声音和青年女性的声音，从生理角度存在一定的相似度，这给质量控制增加了复杂度和相应的工作量。
性别，男、女，比例适中。对于特定的语种，这个要求很难达成，比如某些严格执行教规的国家，很难采集到女性的声音。
录音条件。
- 一般要求静音，近场，10秒以内的短句，前、后静音不超出1秒。
- 假如业务场景要求模型具备一定的搞噪能力，则需要增加对应场景的数据。
母语人群提供的数据，其比例不低于某限定值。

测试集

相关要求，如下：

数据的特征，接近应用场景。
数据量适中，可以支撑功能和性能测试。

获取数据的方法

训练集

可行的方法有：

采集开源训练数据集。这类数据通常用于研究，因此数据质量相对可控，唯一的问题在于数量较少，直白的说，用来写论文也许够用，但在工业强度下应用，则远远不满足要求。
采购商业数据。数据公司可以通过如下方式收集数据：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用转包的方式，将任务包交给当地有资质的公司来收集数据。
- 采用众包的方式，收集语音数据。
自行采集数据。类似数据公司的操作方式，可以有如下方式：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用众包的方式，收集语音数据。

难点在于：

交付周期长。收集数据的操作，从提出诉求到最终收到数据，中间耗时良久，进度基本不可控。
质量不可控。语音数据没有比较好的手段可以实现自动化检查，因此需要花费相当的人力来整理、清洗数据，剔除质量差或者不满足要求的数据。

测试集

可行的方法有：

客户提供带有标注的测试集。
客户提供测试集的获取方法，交付团队按照要求采集数据用于测试。
客户提供测试集的标准，交付团队按照要求自行准备数据。

注意：测试集用于验证模型的有效性，为保证公平性和有效性，测试集中的数据，绝对不允许作为训练集来使用。文章来源地址https://www.toymoban.com/news/detail-763025.html

参考资料

如何正确使用机器学习中的训练集、验证集和测试集？

到了这里，关于ASR项目实战-数据的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

机器学习样本数据划分的典型Python方法
Date Author Version Note 2023.08.16 Dog Tao V1.0 完成文档撰写。 In machine learning and deep learning, the data used to develop a model can be divided into three distinct sets: training data, validation data, and test data. Understanding the differences among them and their distinct roles is crucial for effective model development and evaluation. Trai
2024年02月12日
浏览(11)
机器学习中高维组合特征的处理方法+推荐系统使用矩阵分解为用户推荐的原理解析，《百面机器学习》学习笔记
为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征进行组合，构成高阶组合特征。假设有A B两组特征，C为受到A B两种特征影响的因素，且对特征A来说，其有 A i , i ∈ [ 0 , 1 ] {A^i,iin [0,1]} A i , i ∈ [ 0 , 1 ] 两种特征取值。同时，对于特征B来说，其有 B j , j ∈
2024年02月05日
浏览(11)
【机器学习】数据清洗——基于Pandas库的方法删除重复点
🎈个人主页：豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏：机器学习 🤝希望本文对您有所裨益，如有不足之处，欢迎在评论区提出指正，让我们共同学习、交流进步！引言在机器学习领域，高质量的数据是构建强大模型的基石。而数据清洗作为数据预处理的关键
2024年02月20日
浏览(15)
基于DEAP数据集的四种机器学习方法的情绪分类
在机器学习领域，KNN（K-Nearest Neighbors）、SVM（Support Vector Machine）、决策树（Decision Tree）和随机森林（Random Forest）是常见且广泛应用的算法。 1. KNN（K-Nearest Neighbors，K近邻） KNN算法是一种基本的分类和回归方法。对于分类任务，它基于特征空间中最接近的k个邻居
2024年04月27日
浏览(8)
python数据分析之利用多种机器学习方法实现文本分类、情感预测
大家好，我是带我去滑雪！文本分类是一种机器学习和自然语言处理（NLP）任务，旨在将给定的文本数据分配到预定义的类别或标签中。其目标是为文本数据提供自动分类和标注，使得可以根据其内容或主题进行组织、排序和分析。文本分类在各种应用场景
2024年02月11日
浏览(16)
深度学习--LSTM网络、使用方法、实战情感分类问题
长短期记忆网络（Long Short-Term Memory，简称LSTM），是RNN的一种，为了解决RNN存在长期依赖问题而设计出来的。 LSTM的基本结构： LSTM与RNN的结构相比，在参数更新的过程中，增加了三个门，由左到右分别是遗忘门（也称记忆门）、输入门、输出门。图片来源： https://www.elecfan
2023年04月26日
浏览(10)
ASR项目实战-数据
使用机器学习方法来训练模型，使用训练得到的模型来预测语音数据，进而得到识别的结果文本，这是实现语音识别产品的一般思路。本文着重介绍通用语音识别产品对于数据的诉求。相关要求，如下：地域，需要覆盖使用人群所在的地域，且数据的比例适中。口音，需要
2024年02月04日
浏览(8)
在软件定义网络中使用机器学习的方法进行 DDOS 攻击检测与缓解
申明：未经许可，禁止以任何形式转载，若要引用，请标注链接地址。全文共计9554字，阅读大概需要10分钟更多学习内容，欢迎关注我的个人公众号：不懂开发的程序猿这篇博客是关于我的一个课程论文，通过图片的形式分享 https://www.bilibili.com/video/BV1434y147ZD/?spm_id_from=
2024年02月11日
浏览(14)
【机器学习 | 朴素贝叶斯】朴素贝叶斯算法：概率统计方法之王，简单有效的数据分类利器
🤵‍♂️ 个人主页: @AI_magician 📡主页地址：作者简介：CSDN内容合伙人，全栈领域优质创作者。 👨‍💻景愿：旨在于能和更多的热爱计算机的伙伴一起成长！！🐱‍🏍 🙋‍♂️声明：本人目前大学就读于大二，研究兴趣方向人工智能硬件（虽然硬件还没开始玩，但一直
2024年02月15日
浏览(11)
GPT-4科研实践：数据可视化、统计分析、编程、机器学习数据挖掘、数据预处理、代码优化、科研方法论
查看原文GPT4科研实践技术与AI绘图 GPT对于每个科研人员已经成为不可或缺的辅助工具，不同的研究领域和项目具有不同的需求。例如在科研编程、绘图领域： 1、编程建议和示例代码: 无论你使用的编程语言是Python、R、MATLAB还是其他语言，都可以为你提供相关的代码示例。
2024年02月07日
浏览(44)