ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评

这篇具有很好参考价值的文章主要介绍了ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原创:转载需附链接:
https://blog.csdn.net/qq_37100442/article/details/132057139?spm=1001.2014.3001.5502
        

一、背景

        Mos分评价音质重要指标,最近也有很多机构和公司在研究适合自己的评价体系。目前Mos分主要分为主观评测和客观感知评价。其中客观感知评价由于方便和节省人力,被大众研究。本文章以标准polqa的mos分为可信前提,验证visqol、pesq、mosnet与polqa的一致性,以及visqol的可信度验证;主要用于 编解码、 降噪、回声消除等算法的感知效果进行打分,从而促进算法的迭代和可信度;

二、评价方式综述

       1、主观评价

               1) 优点主观测试是音频评价的黄金准则,最符合人的实际听感。

               2) 缺点主观评测费时费力,测试者太少、测试者不规范等都会带来测试误差;

               3) 常用方法:AB-TEST, MUSHAR

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

        2、客观打分

                1) 缺点:不能够完全符合人的听觉感知,存在听感好打分低的情况;

                2) 优点:方便测试和开发人员,快速验证语音的相对质量,方便日常工作,提升开发                         和测试效率;

                3) 常用方案:有参考(POLQA, PESQ, VISQOL)和无参考(ITU-TP.1201传统方法                          和  MOSNET的AI打分)

二、打分维度和一致性对比

         1、打分维度:

           结论:Visqol支持对时间帧和频率轴的各个频带进行打分(如下图所示),并且支持16khz和48khz;pesq只有最后的评分结果,拿不到时间和频率的细节打分,并且仅支持8kh和16khz打分;Mosnet为无参考打分;

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

2、一致性对比:

         结论:visqol和polqa的一致性更高, pesq颗粒度不够, mosnet(AI无参考模型)表现最差;

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

注:SMD48和SMD49,SMD50和SMD51,SMD271和SMD272这三对音频各对的音源相同,并且每对的后者都针对前者做了过认证优化。

三、visqol可信度测评

        从一些常见维度对语音进行损伤,测试visqol是否符合听感判断。

1、音量的影响:

        结论:音量差异影响不大,但是当降低-18db开始分数降低;

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

​​​​2、混响的影响:

        结论:混响音响较大,加入混响分数就开始降低,但是混响大小影响有规律

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

3、噪音的影响:

      结论:噪音影响很大,加入噪音分数就明显降低,但是不同信噪比变化有规律

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

4、频带缺失的影响

        结论:频带缺失影响打分较大,但是不同的频带模型还是能够匹配降低不同的分值;

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

四、总结

        visqol和polqa有较高的一致性(可能有幸存者偏差,但是拿到的数据是我们过认证的随机音频),visqol也存在和听感不符合的打分,例如加入轻微混响和噪音都会对打分有影响;但是混响和噪音的影响随着RT60和SNR的变化是有规律的,如果在降噪和混响模型的测试,也具相对意义,可以进行研发的自测;

参考文献:

       1、 https://github.com/google/visqol

       2、Objective Measure of Perceptual Audio Quality文章来源地址https://www.toymoban.com/news/detail-676835.html

到了这里,关于ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 小蜗语音工具1.9、文本,小说,字幕生成语音、多角色对话,语音识别、读取音频字幕

    可以把正本小说,生成字幕文件。不限制文件的大小 a、 分割字符 :默认通过**,。!–:?“”** 来把内容分割成一句一句的字幕,可以自定义 b、 删除符号 :默认删除【】=、等符号,删除内容里面的这些特殊符号并且替换为空格,可以自定义 c、 删除文字 : 第(. )章(

    2024年02月10日
    浏览(52)
  • 微软语音合成助手 TTS-VUE 文字转语音工具

    我们在刷短视频的时候经常会听到一些AI合成声音,它们有各种音色、语调,甚至不同的情绪,听起来与人声无异 其实这些大都是利用微软Azure的文字转语音技术来实现的 虽然国内也有很多配音工具,但体验下来还是微软的效果最好,语气最为自然 不过Azure的文字转语音功能

    2024年02月02日
    浏览(43)
  • 【工具网站推荐】文字转语音

    出于某些需求,需要将文字转换成音频格式。以下盘点能实现此需求网站。 https://ondoku3.com/,一个操作界面,自带各国语言的国外网站,输入文字选择语言里面有中文、英文等50多个语言可选,然后选择声库,调整语速语调。还能上传含有文字的图片,做起来很方便。如果只

    2024年02月04日
    浏览(42)
  • ES系列--打分机制

    当你通过搜索相关文档时,可能会出现多个文档,这些文档的顺序是通过一个max_score属性的大小从高到低顺序展现出来的,max_score属性就是我们所说的评分。而这个评分是通过一个文档打分机制计算出来的。 一、总公式 max_score = boost  *  idf  *  tf  其中,查询权重可

    2024年02月16日
    浏览(40)
  • 微软文字转语音工具(在线版)

    微软有一款文字转语音工具叫做「 Microsoft Azure  Text-to-Speech」,它可以将文字转换成类似于人类语音的语音。这个工具可以帮助您将文本转换为语音,以便您可以在不阅读的情况下获取信息,或者将文本转换为语音,以便将其用于其他目的,如制作语音阅读应用程序或创建语

    2024年02月11日
    浏览(44)
  • 【语音识别】WeNet:面向工业落地的E2E语音识别工具

    1、参考资料 wenet-e2e/wenet Mozilla DeepSpeech yeyupiaoling/PaddlePaddle-DeepSpeech 2、快速搭建WeNet平台 参考 WeNet中文文档 下载官方提供的预训练模型,并启动 docker 服务,加载模型,提供 websocket 协议的语音识别服务。 Note : 这里的 $PWD = \\\"/home/wenet/model\\\" 。 一定要保证 预训练模型文件 的存

    2024年02月06日
    浏览(46)
  • 真实免费易用!推荐一款AI文本转语音工具:一点红语音合成

    网上充斥着大量的文本转语音工具,但尝试下来大概分为三大类: 第一类,微软官方文本转语音工具Azure,但当你想使用的时候却会发现,目前注册需要提供支持VISA的信用卡。。 第二类,当你听完各种up主介绍之后感觉某大厂工具功能强大,想要跃跃欲试的时候,才发现接近

    2024年02月07日
    浏览(90)
  • ElasticSearch之score打分机制原理

    Elasticsearch 的得分机制是一个基于词频和逆文档词频的公式,简称为 TF-IDF 公式,所以先来研究下 TF-IDF 原理。 TF-IDF 的英文全称是: Term Frequency - Inverse Document Frequency ,中文名称词频-逆文档频率。 常用于文本挖掘,资讯检索等应用,在 NLP 以及推荐等领域都是一个常用的指标

    2023年04月25日
    浏览(77)
  • 本地部署_语音识别工具_Whisper

    1 简介 Whisper 是 OpenAI 的语音识别系统(几乎是最先进),它是免费的开源模型,可供本地部署。 2 docker https://hub.docker.com/r/onerahmet/openai-whisper-asr-webservice 3 github https://github.com/ahmetoner/whisper-asr-webservice 4 运行 image 大小:11.5G 运行后,即可在9000端口通过swagger调用,我先用手机录

    2024年02月05日
    浏览(40)
  • AI语音合成工具-Lalamu Studio

    近期,Lalamu Studio开启了beta版本测试:Lalamu Studio。该工具整合了TTS和lip sync功能,可以让任意视频中的人物开口说话,并精确模拟口型。 例如,选择一段视频素材,添加由Ai合成的语音,即可完成实时播报和唇形同步。点击上面链接,访问Lalamu Studio。左侧可以合成语音,完成

    2024年01月25日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包