音频几个相关概念及心理声学模型

这篇具有很好参考价值的文章主要介绍了音频几个相关概念及心理声学模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

系列文章目录

音频格式的介绍文章系列:
音频编解码格式介绍:音频几个相关概念及心理声学模型
https://blog.csdn.net/littlezls/article/details/135499627
音频编解码格式介绍:音频编码格式介绍
https://blog.csdn.net/littlezls/article/details/135862140
音频编解码格式介绍(1) ADPCM:adpcm编解码原理及其代码实现
https://blog.csdn.net/littlezls/article/details/83501580
音频编解码格式介绍(2) MP3 :音频格式之MP3:(1)MP3封装格式简介
https://blog.csdn.net/littlezls/article/details/135705670
音频编解码格式介绍(2) MP3 :音频格式之MP3:(2)MP3编解码原理详解
https://blog.csdn.net/littlezls/article/details/135458169
音频编解码格式介绍(3) AAC :音频格式之AAC:(1)AAC简介
https://blog.csdn.net/littlezls/article/details/135692305
音频编解码格式介绍(3) AAC :音频格式之AAC:(2)AAC封装格式ADIF,ADTS,LATM,extradata及AAC ES存储格式
https://blog.csdn.net/littlezls/article/details/135705383
音频编解码格式介绍(3) AAC :音频格式之AAC:(3)AAC编解码原理详解
https://blog.csdn.net/littlezls/article/details/135777833



前言

本文主要介绍音频几个相关概念及心理声学模型,常见的有损压缩都要用到心理声学模型。
本文网址:https://blog.csdn.net/littlezls/article/details/135499627


1、几个重要的概念

(1)SPL(Sound Pressure Level),

表示声音强度的名词,SPL是评价听觉刺激强度的标准,也就是说,我们对外界声音的感觉强度完全由它决定,其单位为dB。

(2)静音门槛曲线

横轴为f(HZ),纵轴为SPL(dB),若声音强度(SPL)低于该曲线的值表示人听不到声音,如下图所示。从图中可以得出几条结论:

第一,人的听觉频率范围大约在10Hz~20KHz之间

第二,大约在3KHz到4KHz时SPL有最小值,也就是所人在该频率范围内的听觉最敏锐
音频几个相关概念及心理声学模型,多媒体,audio,开发类,音视频

(3)临界频带(Critical Bands)

因为人耳对不同频率的敏感程度不同,MPEG1/Audio将22KHz范围内可感知的频率范围划分为23~26个临界频带,如下图。
音频几个相关概念及心理声学模型,多媒体,audio,开发类,音视频
从表中能得出几条结论:

第一,当当中心频率值在500Hz以内时,不同临界频带的带宽()几乎相同,约100Hz

当中心频率值大于500Hz后,随着f值得上升,临界频带的带宽剧增

第二,从表中也可以看出,人耳对低频的解析度要比高频更好

(4)频域上的遮蔽效应

SPL较大的信号容易掩盖频率相近的SPL较小的信号,叫声音的遮蔽效应。就比如在机场很难听到打电话的声音。
音频几个相关概念及心理声学模型,多媒体,audio,开发类,音视频
如上图所示,Masking Threshold将大约在0.7kHz,1.6kHz和2.3kHz的信号遮蔽了,当然0.7kHz信号的SPL在静音门槛曲线之下,不被遮蔽也是听不到的。

在这里,涉及3个重要的量——SMR、SNR和MNR。

SMR(signal-to-maskratio):指在一个临界频带内,从masker到遮噪门槛值的距离。

SNR(signal-to-noiseratio):指信号经过m位元量化后的信噪比,等于量化前信号方差和量化噪声的方差之比,。

MNR(mask-to-noise):用来测量人耳可以感知的失真参数,

如下图所示,展示了3者之间的关系,其中的灰色区域Critial Band指临界频带,Masking Threshold就是遮噪门槛曲线,图中的SMR指在临界频带内最大的SMR值。
音频几个相关概念及心理声学模型,多媒体,audio,开发类,音视频
值得注意的是,(1)我们上面讨论的SMR、SNR和NMR三者都是基于临界频带的,但遮蔽效应不仅对临界频带有影响,对临近的临界频带也有影响,称为遮噪延展性(2)上图所显示的是一个临界频带内的一条遮噪曲线,实际情况存在多条遮噪曲线,结果是这些曲线的叠加。

(5)时域上的遮噪曲线

音频几个相关概念及心理声学模型,多媒体,audio,开发类,音视频从上图可以看出,在一段很短的时间内(200ms左右),若出现了两个声音,不管出现的先后顺序,SPL大的声音(masker)会遮蔽SPL小的声音(maskee)。

若maskee出现在前,则遮噪曲线如上图的Pre-Masking;若maskee出现在后,则遮噪曲线如上图中的Post-Masking。由图中很容易看出,Post-Masking要比Pre-Masking在时间轴上要长很多。Pre-Masking能遮蔽前回音,这是选择MDCT窗口的一个依据。

2、心理声学

感知音频编码器是利用人类听觉系统的掩蔽效应,在不降低主观感知音频质量的情况下,删除冗余的信息进行存储和传输。也就是说感知音频编码器是“主动积极地”压缩数字音频,从而使高质量、低比特率的音频信号可以在网络及通信系统中传输。
输入的原音频信号在时间域上被划分为帧,并在每一帧内分解为多个频带,称为“子带”,从而将输入的音频信号其划分为“时频段”。当在每个时频段中对信号进行量化以降低比特率时,会引入量化噪声(quantization noise)。当量化噪声被原音频信号掩盖或低于绝对听力阈值(absolute threshold)时,则无法被听见。因此,如果量化噪声由下沿抵达掩蔽阈值,则可以实现最有效的编码。
心理声学模型(Psychoacoustic model)的功能就是分析原音频信号来计算每个时频段的量化噪声的掩蔽阈值。因此,它可以在音频信号无失真的情况下,最有效地为音频信号的数字表达分配比特。由于提高量化步长会增加量化噪声的强度,所以掩蔽阈值较低的时频段需要被精细地量化。掩蔽阈值较高的时频段则可以被粗糙地量化,以降低比特率。

研究声音心理学模型用途有:

(1)研究模型的感知熵Perceptual EntropyPE值决定做MDCT变换时使用长窗框还是短窗框

PE能显示特定信号在理论上的压缩极限。PE的单位是bits/sample,代表每个取样在维持CD音质的情况下,能够压缩到的最低位元数。MP3中定义,当PE>1800时,使用短窗框的MDCT来处理该grannul(MP3每个数据帧包含2个grannul,每个grannul包含18*32个subband采样)的子频带信号。因为当PE>1800表示这段音讯变化比较大,可能产生回音,不适合使用长框。

(2)研究模型的SMR值决定量化编码时的比特数分配

对于第二条,下面的位元分配将给出解释。

(1)位元分配

位元分配目的是使每个频带的MNR达到最大,使音质最佳。过程为:寻找最小的MNR频带,分配位元给该频带以提高MNR,接着重新计算各频带的MNR。重复上述过程,直到位元分配结束。

(2)非均匀量化
其中SMR由声音心理学模型提供,SNR信噪比则是由量化确定的。

下图为量化器的输入输出曲线,量化器的输入为浮点值频率,输出为整形值的频率。

由图知,量化器将输入的浮点值量化后变为整型值,且量化过程为非线性非均匀的。
音频几个相关概念及心理声学模型,多媒体,audio,开发类,音视频

参考资料

[1]:MP3编码分析:https://blog.csdn.net/xiahouzuoxin/article/details/7849249
[2]:心理声学模型在感知音频编码中的应用:https://blog.csdn.net/Jianing_Wang/article/details/105779558文章来源地址https://www.toymoban.com/news/detail-829223.html

到了这里,关于音频几个相关概念及心理声学模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 鸿蒙HarmonyOS开发实战—多媒体开发(音频开发 一)

    HarmonyOS音频模块支持音频业务的开发,提供音频相关的功能,主要包括音频播放、音频采集、音量管理和短音播放等。 基本概念 采样 采样是指将连续时域上的模拟信号按照一定的时间间隔采样,获取到离散时域上离散信号的过程。 采样率 采样率为每秒从连续信号中提取并

    2024年01月24日
    浏览(38)
  • 【python】《多媒体技术与应用》实验报告「数字音频处理」

     《多媒体技术与应用》 实验报告 实验名称 数字视频处理 实验时间 2022/4/25 姓名 班级 计非201 学号 成绩 一.  实验目的 1. 掌握数字音频的读取与打开; 2. 掌握数字音频信号的频谱分析; 3. 验证 PCM 编码算法。 二.实验原理 声音是由物体振动而产生的,声波的三要素是频率

    2023年04月16日
    浏览(40)
  • Qt 多媒体音频模拟按钮发音(音视频启动)

    ## 项目演示 平台 :windows或者ubuntu  要求 :平台需要支持音频播放功能 文件格式 :.wav 可以使用剪映生成,音频部分,我这里是简短的音乐 # Qt 多媒体简介 Qt QSound是Qt框架中的一个类,用于播放音频文件。它可以在Qt应用程序中实现简单的音频播放功能,包括播放、暂停和停

    2024年02月03日
    浏览(39)
  • Android多媒体功能开发(11)——使用AudioRecord类录制音频

    AudioRecord类优点是能录制到缓冲区,能够实现边录边播(AudioRecord + AudioTrack)以及对音频的实时处理(如QQ电话)。缺点是输出是PCM格式的原始采集数据,如果直接保存成音频文件,不能够被播放器播放,所以必须用代码实现数据编码以及压缩。 使用AudioRecord录音的基本步骤是

    2023年04月09日
    浏览(31)
  • (八)穿越多媒体奇境:探索Streamlit的图像、音频与视频魔法

    欢迎各位读者来到“最全Streamlit教程”专栏系列!如果您正在寻找一种简单而强大的方式来创建交互式数据应用程序,那么Streamlit无疑是您的最佳选择。作为该领域的热门框架,Streamlit让数据科学家、开发者和爱好者能够以前所未有的速度构建出引人入胜的数据可视化工具。

    2024年02月13日
    浏览(34)
  • [前端笔记——多媒体与嵌入] 6.HTML 中的图片+视频+音频内容

    可以用 img 元素来把图片放到网页上。它是一个空元素(它不需要包含文本内容或闭合标签),最少只需要一个 src (一般读作其全称 * *source) * *来使其生效。src 属性包含了指向我们想要引入的图片的路径,可以是相对路径或绝对 URL,就像 a 元素的 href 属性一样。 属性是

    2023年04月25日
    浏览(45)
  • HarmonyOS学习路之开发篇—多媒体开发(音频开发 二(1)

    接口说明 接口名 描述 AudioCapturer(AudioCapturerInfo audioCapturerInfo) throws IllegalArgumentException 构造函数,设置录音相关音频参数,使用默认录音设备。 AudioCapturer(AudioCapturerInfo audioCapturerInfo, AudioDeviceDescriptor devInfo) throws IllegalArgumentException 构造函数,设置录音相关音频参数并指定录音

    2024年04月23日
    浏览(34)
  • LuatOS-SOC接口文档(air780E)--audio - 多媒体音频

    常量 类型 解释 audio.PCM number PCM格式,即原始ADC数据 audio.MORE_DATA number audio.on回调函数传入参数的值,表示底层播放完一段数据,可以传入更多数据 audio.DONE number audio.on回调函数传入参数的值,表示底层播放完全部数据了 audio.BUS_DAC number 硬件输出总线,DAC类型 audio.BUS_I2S numb

    2024年02月07日
    浏览(49)
  • 【HTML5】HTML5 多媒体标签 ① ( audio 音频标签 | 音频标签常见属性值设置 | 音频标签默认代码设置 | 音频标签设置多种类型音频文件 )

    传统 HTML 开发中 , 如果想要向网页中嵌入音频和视频 , 需要 使用 Flash 浏览器插件才能实现 ; 在 HTML5 中 , 使用 多媒体标签 , 即可实现向浏览器中插入音视频 , 多媒体标签如下 : 音频标签 : audio 视频标签 : video HTML 5 的 audio 音频标签 , 支持 ogg / mp3 / wav 三种格式的音频 , 不同的

    2024年02月15日
    浏览(40)
  • 【HTML 往日冒险 09】多媒体 插件 音频audio 视频video iframe YouTube iframe bilibili

    HTML 多媒体 Web 上的多媒体指的是音效、音乐、视频和动画 不同的浏览器以不同的方式处理音效、动画和视频 某些元素能够以内联的方式处理,而某些则需要额外的插件 多媒体元素(比如视频和音频)存储于媒体文件中 确定媒体类型的最常用的方法是查看文件扩展名 多媒体

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包