ASR项目实战-数据

这篇具有很好参考价值的文章主要介绍了ASR项目实战-数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

使用机器学习方法来训练模型,使用训练得到的模型来预测语音数据,进而得到识别的结果文本,这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。

对数据的要求

训练集

相关要求,如下:

  • 地域,需要覆盖使用人群所在的地域,且数据的比例适中。
  • 口音,需要覆盖典型的口音。
  • 年龄,从18~60,覆盖各年龄段,且数据的比例适中。
    • 很多国家对未成年人有非常严格的保护措施,因此收集未成年人的数据比较困难。
    • 未成年男性的声音和青年女性的声音,从生理角度存在一定的相似度,这给质量控制增加了复杂度和相应的工作量。
  • 性别,男、女,比例适中。对于特定的语种,这个要求很难达成,比如某些严格执行教规的国家,很难采集到女性的声音。
  • 录音条件。
    • 一般要求静音,近场,10秒以内的短句,前、后静音不超出1秒。
    • 假如业务场景要求模型具备一定的搞噪能力,则需要增加对应场景的数据。
  • 母语人群提供的数据,其比例不低于某限定值。

测试集

相关要求,如下:

  • 数据的特征,接近应用场景。
  • 数据量适中,可以支撑功能和性能测试。

获取数据的方法

训练集

可行的方法有:

  • 采集开源训练数据集。这类数据通常用于研究,因此数据质量相对可控,唯一的问题在于数量较少,直白的说,用来写论文也许够用,但在工业强度下应用,则远远不满足要求。
  • 采购商业数据。数据公司可以通过如下方式收集数据:
    • 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
    • 采用转包的方式,将任务包交给当地有资质的公司来收集数据。
    • 采用众包的方式,收集语音数据。
  • 自行采集数据。类似数据公司的操作方式,可以有如下方式:
    • 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
    • 采用众包的方式,收集语音数据。

难点在于:

  • 交付周期长。收集数据的操作,从提出诉求到最终收到数据,中间耗时良久,进度基本不可控。
  • 质量不可控。语音数据没有比较好的手段可以实现自动化检查,因此需要花费相当的人力来整理、清洗数据,剔除质量差或者不满足要求的数据。

测试集

可行的方法有:

  • 客户提供带有标注的测试集。
  • 客户提供测试集的获取方法,交付团队按照要求采集数据用于测试。
  • 客户提供测试集的标准,交付团队按照要求自行准备数据。

注意:测试集用于验证模型的有效性,为保证公平性和有效性,测试集中的数据,绝对不允许作为训练集来使用。文章来源地址https://www.toymoban.com/news/detail-763025.html

参考资料

  • 如何正确使用机器学习中的训练集、验证集和测试集?

到了这里,关于ASR项目实战-数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习样本数据划分的典型Python方法

    Date Author Version Note 2023.08.16 Dog Tao V1.0 完成文档撰写。 In machine learning and deep learning, the data used to develop a model can be divided into three distinct sets: training data, validation data, and test data. Understanding the differences among them and their distinct roles is crucial for effective model development and evaluation. Trai

    2024年02月12日
    浏览(45)
  • 机器学习中高维组合特征的处理方法+推荐系统使用矩阵分解为用户推荐的原理解析,《百面机器学习》学习笔记

    为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征进行组合,构成高阶组合特征。 假设有A B两组特征,C为受到A B两种特征影响的因素,且对特征A来说,其有 A i , i ∈ [ 0 , 1 ] {A^i,iin [0,1]} A i , i ∈ [ 0 , 1 ] 两种特征取值。同时,对于特征B来说,其有 B j , j ∈

    2024年02月05日
    浏览(47)
  • 【机器学习】数据清洗——基于Pandas库的方法删除重复点

    🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 引言 在机器学习领域,高质量的数据是构建强大模型的基石。而数据清洗作为数据预处理的关键

    2024年02月20日
    浏览(41)
  • 基于DEAP数据集的四种机器学习方法的情绪分类

            在机器学习领域,KNN(K-Nearest Neighbors)、SVM(Support Vector Machine)、决策树(Decision Tree)和随机森林(Random Forest)是常见且广泛应用的算法。 1. KNN(K-Nearest Neighbors,K近邻) KNN算法是一种基本的分类和回归方法。对于分类任务,它基于特征空间中最接近的k个邻居

    2024年04月27日
    浏览(48)
  • python数据分析之利用多种机器学习方法实现文本分类、情感预测

           大家好,我是带我去滑雪!        文本分类是一种机器学习和自然语言处理(NLP)任务,旨在将给定的文本数据分配到预定义的类别或标签中。其目标是为文本数据提供自动分类和标注,使得可以根据其内容或主题进行组织、排序和分析。文本分类在各种应用场景

    2024年02月11日
    浏览(33)
  • 深度学习--LSTM网络、使用方法、实战情感分类问题

    长短期记忆网络(Long Short-Term Memory,简称LSTM),是RNN的一种,为了解决RNN存在长期依赖问题而设计出来的。 LSTM的基本结构: LSTM与RNN的结构相比,在参数更新的过程中,增加了三个门,由左到右分别是遗忘门(也称记忆门)、输入门、输出门。 图片来源: https://www.elecfan

    2023年04月26日
    浏览(40)
  • ASR项目实战-数据

    使用机器学习方法来训练模型,使用训练得到的模型来预测语音数据,进而得到识别的结果文本,这是实现语音识别产品的一般思路。 本文着重介绍通用语音识别产品对于数据的诉求。 相关要求,如下: 地域,需要覆盖使用人群所在的地域,且数据的比例适中。 口音,需要

    2024年02月04日
    浏览(42)
  • 在软件定义网络中使用机器学习的方法进行 DDOS 攻击检测与缓解

    申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计9554字,阅读大概需要10分钟 更多学习内容, 欢迎关注我的个人公众号:不懂开发的程序猿 这篇博客是关于我的一个课程论文,通过图片的形式分享 https://www.bilibili.com/video/BV1434y147ZD/?spm_id_from=

    2024年02月11日
    浏览(45)
  • 【机器学习 | 朴素贝叶斯】朴素贝叶斯算法:概率统计方法之王,简单有效的数据分类利器

    🤵‍♂️ 个人主页: @AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍 🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能硬件(虽然硬件还没开始玩,但一直

    2024年02月15日
    浏览(56)
  • GPT-4科研实践:数据可视化、统计分析、编程、机器学习数据挖掘、数据预处理、代码优化、科研方法论

    查看原文GPT4科研实践技术与AI绘图 GPT对于每个科研人员已经成为不可或缺的辅助工具,不同的研究领域和项目具有不同的需求。 例如在科研编程、绘图领域 : 1、编程建议和示例代码:  无论你使用的编程语言是Python、R、MATLAB还是其他语言,都可以为你提供相关的代码示例。

    2024年02月07日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包