文章来源地址https://www.toymoban.com/news/detail-842365.html
- 🚀 个人简介:CSDN「博客新星」TOP 10 , C/C++ 领域新星创作者
- 💟 作 者:锡兰_CC ❣️
- 📝 专 栏:【音视频基础知识】
- 🌈 若有帮助,还请关注➕点赞➕收藏,不行的话我再努努力💪💪💪
一、音频基础概念
声音的三要素:频率、振幅、波形。
1、频率
声波的频率,也就是声音的音调,人类听觉的频率(音调)范围为 20Hz - 20KHz。
2、振幅
振幅就是声波的响度,通俗的讲就是声音的高低。
3、波形
波形就是声音的音色,童谣的频率和振幅下,声音听起来不同就是因为他们的音色不同。波形决定了其所代表的音色,音色不同是因为它们的介质所产生的波形不同。
二、数字音频基础概念
1、采样
采样是指在连续时间内对模拟信号进行离散化的过程。通过在一段时间内等间隔地获取模拟信号的幅度值,得到一系列采样点。采样率(Sample Rate)决定了每秒钟对模拟信号进行采样的次数,常见的采样率有44.1 kHz、48 kHz等。较高的采样率可以更准确地还原原始声音,但也会增加数据量。
2、量化
量化是将连续的模拟信号幅度值转换为离散的数字数值的过程。在模数转换中,采样得到的每个点的幅度值被映射到最接近的离散数值。量化位数(Bit Depth)决定了每个采样点用多少二进制位来表示,常见的量化位数有16位和24位。较高的量化位数可以提供更高的动态范围和更好的音频质量,但也会增加文件大小。
音频量化过程:模拟信息 ——> 采样 ——> 量化 ——> 编码 ——> 数字信号
3、编码
每一个量化都是一个采样,将这些量化进行存储就叫做编码。编码就是按照一定的格式记录采样和量化后的数字数据,比如顺序存储互殴这压缩存储等等。
通常情况下说的音频裸数据格式就是脉冲编码调制(PCM)数据。描述一段 PCM 数据通常需要量化格式(位深)、采样率、声道数、比特率。
4、采样率
采样率就是每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示,说的简单一点就是每秒在每个声道上采样的个数。采样率越高,还原的声音也就越真实。通常人耳能听到频率范围大约在 20Hz~20kHz 之间的声音,为了保证声音不失真,采样率应在40kHz 以上。
5、采样数
采样数跟采样率和时间有关系,采样率为20Hz,采样时间为 1s,那么采样数就为 20 个。
6、采样位数
采样位数也叫采样大小或者量化深度。音频的采样位数表示每个采样点用多少个比特表示,一般为8、16、32位。
当量化深度为8bit时,每个采样点可以表示256个不同的量化值,当量化深度为16bit时,每个采样点可以表示65536个不同的量化值。
量化深度的大小影响声音的质量,位数越多,量化后的波形越接近原始波形,声音的质量就越高,需要的存储空间就越多。位数越少,呻吟的质量就越低,需要的存储空间越少。
7、通道数
通道数就是声音的通道数量,常见的有单声道和双声道或者立体声道。
8、PCM流
PCM 流是一种常见的音频流格式,它以固定时间间隔和固定位数的二进制样本表示音频信号,广泛应用于数字音频处理和传输中。
三、常见音频格式
1、WAV
WAV:是微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式,被Windows平台及其应用程序广泛支持,压缩率低。
2、MIDI
MIDI:是Musical Instrument Digital Interface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式,规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议,可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件,在MIDI文件中存储的是一些指令。把这些指令发送给声卡,由声卡按照指令将声音合成出来。
3、MP3
MP3:全称是MPEG-1 Audio Layer 3,它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。
4、MP3Pro
MP3Pro:是由瑞典Coding科技公司开发的,其中包含了两大技术:一是来自于Coding科技公司所特有的解码技术,二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下,最大程度地保持压缩前的音质。
5、WMA
WMA :(Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到1:18。此外,WMA还可以通过DRM(Digital Rights Management)保护版权。
6、RealAudio
RealAudio:是由Real Networks公司推出的一种文件格式,最大的特点就是可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据,因此RealAudio主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured)等三种,这些文件的共同性在于随着网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较宽敞的听众获得较好的音质。
7、Audible
Audible:拥有四种不同的格式:Audible1、2、3、4。Audible.com网站主要是在互联网上贩卖有声书籍,并对它们所销售商品、文件通过四种Audible.com 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和 3采用不同级别的语音压缩,而格式4采用更低的采样率和MP3相同的解码方式,所得到语音吐辞更清楚,而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具,这就是Audible Manager,使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件。
8、AAC
AAC:实际上是高级音频编码的缩写。AAC是由Fraunhofer IIS-A、杜比和AT&T共同开发的一种音频格式,它是MPEG-2规范的一部分。AAC所采用的运算法则与MP3的运算法则有所不同,AAC通过结合其他的功能 来提高编码效率。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法(比如MP3等)。它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之,AAC可以在比MP3文件缩小30%的前提下提供更好的音质。
9、Ogg Vorbis
Ogg Vorbis:是一种新的音频压缩格式,类似于MP3等现有的音乐格式。但有一点不同 的是,它是完全免费 、开放和没有专利限制的。Vorbis 是这种音频压缩机制的名字,而Ogg则是一个计划的名字,该计划 意图设计 一个完全开放性的多媒体系统。VORBIS也是有损压缩,但通过使用更加先进的声学模型去减少损失,因此,同样位速率(Bit Rate)编码的OGG与MP3相比听起来更好一些。
10、APE
APE:是一种无损压缩音频格式,在音质不降低的前提下,大小压缩到传统无损格式 WAV 文件的一半。
11、FLAC
FLAC:即是Free Lossless Audio Codec的缩写,是一套著名的自由音频无损压缩编码,其特点是无损压缩。
更多专栏订阅推荐:文章来源:https://www.toymoban.com/news/detail-842365.html
- 👍 【开卷数据结构】
- 💛 【备战蓝桥,冲击省一】
- 💕 从零开始的 c++ 之旅
- 💖 【OpenCV • c++】计算机视觉
到了这里,关于音频基础知识(一) 音频基础概念 | 采样 | 量化 | 编码 | 常见音频格式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!