ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评

9月前作者：machine-lv 分类：Toy博客阅读(40) 违法举报

这篇具有很好参考价值的文章主要介绍了ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

原创：转载需附链接：

https://blog.csdn.net/qq_37100442/article/details/132057139?spm=1001.2014.3001.5502

一、背景

Mos分评价音质重要指标，最近也有很多机构和公司在研究适合自己的评价体系。目前Mos分主要分为主观评测和客观感知评价。其中客观感知评价由于方便和节省人力，被大众研究。本文章以标准polqa的mos分为可信前提，验证visqol、pesq、mosnet与polqa的一致性，以及visqol的可信度验证；主要用于编解码、降噪、回声消除等算法的感知效果进行打分，从而促进算法的迭代和可信度；

二、评价方式综述

1、主观评价

1）优点：主观测试是音频评价的黄金准则，最符合人的实际听感。

2）缺点：主观评测费时费力，测试者太少、测试者不规范等都会带来测试误差；

3） 常用方法：AB-TEST， MUSHAR

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

2、客观打分

1）缺点：不能够完全符合人的听觉感知，存在听感好打分低的情况；

2）优点：方便测试和开发人员，快速验证语音的相对质量，方便日常工作，提升开发和测试效率；

3）常用方案：有参考（POLQA, PESQ, VISQOL）和无参考（ITU-TP.1201传统方法和 MOSNET的AI打分）

二、打分维度和一致性对比

1、打分维度：

结论：Visqol支持对时间帧和频率轴的各个频带进行打分（如下图所示），并且支持16khz和48khz；pesq只有最后的评分结果，拿不到时间和频率的细节打分，并且仅支持8kh和16khz打分；Mosnet为无参考打分；

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

2、一致性对比：

结论：visqol和polqa的一致性更高， pesq颗粒度不够， mosnet（AI无参考模型）表现最差；

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

注：SMD48和SMD49，SMD50和SMD51，SMD271和SMD272这三对音频各对的音源相同，并且每对的后者都针对前者做了过认证优化。

三、visqol可信度测评

从一些常见维度对语音进行损伤，测试visqol是否符合听感判断。

1、音量的影响：

结论：音量差异影响不大，但是当降低-18db开始分数降低；

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

2、混响的影响：

结论：混响音响较大，加入混响分数就开始降低，但是混响大小影响有规律

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

3、噪音的影响：

结论：噪音影响很大，加入噪音分数就明显降低，但是不同信噪比变化有规律

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

4、频带缺失的影响

结论：频带缺失影响打分较大，但是不同的频带模型还是能够匹配降低不同的分值；

ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评,音频,音频主观评测,MOS分,Visqol,PESQ

四、总结

visqol和polqa有较高的一致性（可能有幸存者偏差，但是拿到的数据是我们过认证的随机音频），visqol也存在和听感不符合的打分，例如加入轻微混响和噪音都会对打分有影响；但是混响和噪音的影响随着RT60和SNR的变化是有规律的，如果在降噪和混响模型的测试，也具相对意义，可以进行研发的自测；

参考文献：

1、 https://github.com/google/visqol

2、Objective Measure of Perceptual Audio Quality文章来源地址https://www.toymoban.com/news/detail-676835.html

到了这里，关于ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

小蜗语音工具1.9、文本,小说,字幕生成语音、多角色对话，语音识别、读取音频字幕

可以把正本小说，生成字幕文件。不限制文件的大小 a、分割字符：默认通过**，。！–：？“”** 来把内容分割成一句一句的字幕，可以自定义 b、删除符号：默认删除【】=、等符号，删除内容里面的这些特殊符号并且替换为空格，可以自定义 c、删除文字：第(. )章(

2024年02月10日
浏览(54)
微软语音合成助手 TTS-VUE 文字转语音工具

我们在刷短视频的时候经常会听到一些AI合成声音，它们有各种音色、语调，甚至不同的情绪，听起来与人声无异其实这些大都是利用微软Azure的文字转语音技术来实现的虽然国内也有很多配音工具，但体验下来还是微软的效果最好，语气最为自然不过Azure的文字转语音功能

2024年02月02日
浏览(44)
【工具网站推荐】文字转语音

出于某些需求，需要将文字转换成音频格式。以下盘点能实现此需求网站。 https://ondoku3.com/，一个操作界面，自带各国语言的国外网站，输入文字选择语言里面有中文、英文等50多个语言可选，然后选择声库，调整语速语调。还能上传含有文字的图片，做起来很方便。如果只

2024年02月04日
浏览(43)
ES系列--打分机制

当你通过搜索相关文档时，可能会出现多个文档，这些文档的顺序是通过一个max_score属性的大小从高到低顺序展现出来的，max_score属性就是我们所说的评分。而这个评分是通过一个文档打分机制计算出来的。一、总公式 max_score = boost * idf * tf 其中，查询权重可

2024年02月16日
浏览(42)
微软文字转语音工具（在线版）

微软有一款文字转语音工具叫做「 Microsoft Azure Text-to-Speech」，它可以将文字转换成类似于人类语音的语音。这个工具可以帮助您将文本转换为语音，以便您可以在不阅读的情况下获取信息，或者将文本转换为语音，以便将其用于其他目的，如制作语音阅读应用程序或创建语

2024年02月11日
浏览(46)
【语音识别】WeNet：面向工业落地的E2E语音识别工具

1、参考资料 wenet-e2e/wenet Mozilla DeepSpeech yeyupiaoling/PaddlePaddle-DeepSpeech 2、快速搭建WeNet平台参考 WeNet中文文档下载官方提供的预训练模型，并启动 docker 服务，加载模型，提供 websocket 协议的语音识别服务。 Note ：这里的 $PWD = \\\"/home/wenet/model\\\" 。一定要保证预训练模型文件的存

2024年02月06日
浏览(47)
真实免费易用！推荐一款AI文本转语音工具：一点红语音合成

网上充斥着大量的文本转语音工具，但尝试下来大概分为三大类：第一类，微软官方文本转语音工具Azure，但当你想使用的时候却会发现，目前注册需要提供支持VISA的信用卡。。第二类，当你听完各种up主介绍之后感觉某大厂工具功能强大，想要跃跃欲试的时候，才发现接近

2024年02月07日
浏览(92)
ElasticSearch之score打分机制原理

Elasticsearch 的得分机制是一个基于词频和逆文档词频的公式，简称为 TF-IDF 公式，所以先来研究下 TF-IDF 原理。 TF-IDF 的英文全称是： Term Frequency - Inverse Document Frequency ，中文名称词频-逆文档频率。常用于文本挖掘，资讯检索等应用，在 NLP 以及推荐等领域都是一个常用的指标

2023年04月25日
浏览(80)
本地部署_语音识别工具_Whisper

1 简介 Whisper 是 OpenAI 的语音识别系统（几乎是最先进），它是免费的开源模型，可供本地部署。 2 docker https://hub.docker.com/r/onerahmet/openai-whisper-asr-webservice 3 github https://github.com/ahmetoner/whisper-asr-webservice 4 运行 image 大小：11.5G 运行后，即可在9000端口通过swagger调用，我先用手机录

2024年02月05日
浏览(41)
AI语音合成工具-Lalamu Studio

近期，Lalamu Studio开启了beta版本测试：Lalamu Studio。该工具整合了TTS和lip sync功能，可以让任意视频中的人物开口说话，并精确模拟口型。例如，选择一段视频素材，添加由Ai合成的语音，即可完成实时播报和唇形同步。点击上面链接，访问Lalamu Studio。左侧可以合成语音，完成

2024年01月25日
浏览(37)