【Audio音频开发】音频基础知识及PCM技术详解

这篇具有很好参考价值的文章主要介绍了【Audio音频开发】音频基础知识及PCM技术详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

个人主页:董哥聊技术
我是董哥,嵌入式领域新星创作者
创作理念:专注分享高质量嵌入式文章,让大家读有所得!

1、前言

现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于音频文件。那么音频文件如何生成的呢?

音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ

根据奈奎斯特的理论,音频文件的采样率一般在40~50KHZ之间。

奈奎斯特采样定律,又称香农采样定律,即:为了不失真地恢复模拟信号,采样频率应该大于等于模拟信号频谱中最高频率的2倍。

 

2、概念

声音的本质是一种能量波,由振动而产生的能量波,通过传输介质传输出去。

audio pcm,Audio音频开发,Linux驱动开发,音视频,服务器,音频,Audio音频开发,Audio Develop

声音有三个属性

  • 音调:声音频率的高低,表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定,同时也与声音强度有关。
  • 音量:由“振幅”(amplitude)和人离声源的距离决定,振幅越大响度越大
  • 音色:又称声音的品质,波形决定了声音的音色。

波长是决定音调高低;振幅是决定音量高低;波纹是决定音色。

 

3、 PCM介绍

PCM(Pulse Code Modulation),即脉冲编码调制技术。

由于我们人耳听到的声音均为模拟信号,那么我们如何将听到的信息存储起来呢?这就涉及到了PCM技术。

PCM技术就是把声音从模拟信号转化为数字信号的技术,即对声音进行采样、量化的过程,经过PCM处理后的数据,是最原始的音频数据,即未对音频数据进行任何的编码和压缩处理。

 

4、 PCM原理

脉冲编码调制就是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样,再对样值幅度量化,编码的过程。

简化来说:PCM脉冲编码调制,以一个固定的频率对模拟信号进行采样,并将采样的信号按照一定精度进行量化,最终量化后的值被输出,记录到存储介质中。

如下图所示

  • 原始模拟音频数据如下

audio pcm,Audio音频开发,Linux驱动开发,音视频,服务器,音频,Audio音频开发,Audio Develop

  • 按照固定频率进行采样,得到

audio pcm,Audio音频开发,Linux驱动开发,音视频,服务器,音频,Audio音频开发,Audio Develop

  • 最后,对采样后的数据选择合适精度进行量化

audio pcm,Audio音频开发,Linux驱动开发,音视频,服务器,音频,Audio音频开发,Audio Develop

 

5、PCM相关概念

5.1 采样频率

采样频率单位时间内对模拟信号的采样次数,它用赫兹(Hz)来表示。采样频率越高,声音的还原就越真实越自然,当然数据量就越大。采样频率一般共分为22.05KHz44.1KHz48KHz三个等级。

Tip:

  • 5kHz的采样率仅能达到人们讲话的声音质量。

  • 11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一。

  • 22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。

  • 44kHz的采样率是标准的CD音质,可以达到很好的听觉效果。

  • 48KHz:miniDV、数字电视、DVD、电影和专业音频。

 

5.2 采样位数

采样位数(Sample Bits):又称为采样精度,量化级,也相当于每个采样点所能被表示的数据范围。

采样位数通常有8bits16bits两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。

8bits为低品质,16bits为高品质,16bits最为常见。

 

5.3 声道数

声道数(Channels):又称为通道数,指的是:能支持不同发声的音响个数,它是衡量音响设备的重要指标之一。

Tip:

  • 单声道的声道数为1个声道;
  • 双声道的声道数为2个声道;
  • 立体声道的声道数默认为2个声道;
  • 立体声道(4声道)的声道数为4个声道。

 

5.4 音频数据大小计算

知道上面三个概念,我们就能够计算出来一个原始的音频文件所占用空间大小了。
空间大小 ( B y t e ) = 采样频率 ( h z ) ∗ 时长 ( s ) ∗ 采样位数 ( b i t ) ∗ 声道数 / 8 空间大小(Byte)=采样频率(hz) * 时长(s) * 采样位数(bit)*声道数/8 空间大小(Byte)=采样频率(hz)时长(s)采样位数(bit)声道数/8
 

5.5 量化

量化: 量化就是通过四舍五入的方法将采样后的模拟信号转换成一种数字信号的过程。

对于采样来说,就是在时间轴上对信号数字化

对于量化来说,就是在幅度轴上对信号数字化

通过采样时测的的模拟电压值,要进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值。

audio pcm,Audio音频开发,Linux驱动开发,音视频,服务器,音频,Audio音频开发,Audio Develop

 

5.6 其他参数相关

  • 帧(Frame):一个声音的基本数据单元,其长度为采样位数和通道数的乘积

  • 周期(Period Size)音频设备一次处理所需要的帧数,对于音频设备的数据访问以及音频数据的存储,都是以此为单位。硬件缓冲传输单位,即完成这么多采样帧的传输,就会回馈一个中断。

audio pcm,Audio音频开发,Linux驱动开发,音视频,服务器,音频,Audio音频开发,Audio Develop

  • Buffer Bytes: 一个应用Buffer有多少个字节,DMA缓冲区大小。

因为Buffer Size由应用设置,其可大可小,若其太大,则传输的延时太大,所以对此进行分片,提出Period的概念。overrun,录制时,数据都满了,应用来不及取走;underrun,需要数据来播放,应用来不及写入数据

  • Sign :表示样本数据是否是有符号位

  • Byte Ordering:字节序,表明数据是小端(little-endian)存储还是大端(big-endian)存储,通常均为little-endian

  • nteger Or Floating Point :整形或者浮点型,大多数格式的PCM样本数据使用整形表示。

  • **交错模式:**数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录第一帧的左声道样本和右声道样本,再开始第2帧的记录…

  • 非交错模式: 首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。

以FFmpeg中常见的PCM数据格式s16le为例:它描述的是有符号16位小端PCM数据。

s表示有符号,16表示位深,le表示小端存储。

 

6、PCM数据流

对于PCM数据都是一些文本化的描述,那么一段PCM格式的数据流怎么表示的呢?

以8-bit有符号为例,长得像这样:

+---------+-----------+-----------+----
 binary 	| 0010 0000 | 1010 0000 | ...
 decimal	| 32        | -96       | ...
+---------+-----------+-----------+----  

每个分割符"|"分割字节。因为是 8-bit 有符号表示的采样数据,所以采样的范围为-128~128

 

OK,对于PCM数据流的存储而言,上面仅仅只是单声道。对于多声道的PCM数据而言,通常会交错排列,就像这样:

+---------+-----------+-----------+-----------+-----------+----
     FL 	|     FR    |     FL 	  |     FR    |     FL 	  |    
+---------+-----------+-----------+-----------+-----------+----

对于8-bit有符号的PCM数据而言,上图表示第一个字节存放第一个左声道数据(FL),第二个字节放第一个右声道数据(FR),第三个字节放第二个左声道数据(FL)

 

7、编码

一个完整的音频,经过采样和量化后的信号,需要将它转化为数字编码脉冲,这一过程称为编码。

编码简单来说,就是按一定格式记录采样和量化后的数字数据

PCM技术仅仅包含采样和量化,并不包含编码部分,这里仅简单介绍。

7.1 音频编码协议ACC

AAC(Advanced Audio Coding) 高级音频编码,是一种声音数据的文件压缩格式。AAC分为ADIFADTS两种文件格式。

  • ADIF(Audio Data Interchange Format): 音频数据交换格式。这种格式的特征是只有音频数据最前面具有头字节,音频数据流中间没有头字节。因此它的解码只能在头字节处开始进行。故这种格式常用在磁盘文件中。
  • ADTS(Audio Data Transport Stream): 音频数据传输流。这种格式的特征是它每一单元音频数据都有一个header字节,解码可以在这个流中任何位置开始。

 

7.2 压缩

PCM数据是最原始的音频数据,完全无损,所以PCM数据虽然音质优秀但体积庞大,为了解决这个问题先后诞生了一系列的音频格式,这些音频格式运用不同的方法对音频数据进行压缩,其中有无损压缩和有损压缩两种。

  • 无损压缩:将数据压缩之后,通过解码还能还原成与原始数据一模一样的数据为无损压缩。
    • ALAC、APE、FLAC
  • 有损压缩:消除冗余信息,如人耳能听到的声音为20Hz - 20000Hz 以内,所以可以将此范围外的声音去除掉。
    • MP3、AAC、OGG、WMA

 

7.3 其他概念

  • 码率:(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量,代表了压缩质量。

比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等,越高代表着声音音质越好。

MP3中的数据有ID3和音频数据组成,ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。

码率 = 采样率 ∗ 采样位数 ∗ 声道数 码率 = 采样率 * 采样位数 * 声道数 码率=采样率采样位数声道数

例如:

如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道), 码率 = 44.1 * 1000 * 16 * 2 = 1411200bps = 176400Bps,那么录制一分钟的音乐, 大概176400 * 1 * 60 / 1024 / 1024 =10.09MB。

  • 音频帧: 音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。

 

8、参考文章

[1]:https://blog.csdn.net/weixin_41910694/article/details/107644742

[2]:https://blog.csdn.net/qq_22310551/article/details/123905051文章来源地址https://www.toymoban.com/news/detail-778676.html

到了这里,关于【Audio音频开发】音频基础知识及PCM技术详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Unity零基础到进阶 ☀️| 音频源Audio Source组件 详解

    🎬 博客主页:https://xiaoy.blog.csdn.net 🎥 本文由 呆呆敲代码的小Y 原创,首发于 CSDN 🙉 🎄 学习专栏推荐:

    2024年02月13日
    浏览(24)
  • 音频和视频基础知识

    什么是声音: 声音是由物体振动产生的声波,通过介质(如空气、固体或液体)传播,并能被人的听觉器官所感知的波动现象。最初发出振动的物体被称为 声源 。 声音以波的形式传播,是一种机械波,其频率和振幅是描述波的重要属性,频率的大小与音高对应,而振幅影响

    2024年02月01日
    浏览(34)
  • 音频基础知识(一)

    定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数是采样周期或者叫作采样时间,它是采样之间的时间间隔。通俗的讲采样频率是指计算 机每秒钟采集多少个声音样本,是描述声音文件的音质、音调,衡量声卡、声音文件的质

    2024年02月08日
    浏览(33)
  • 音频基础知识

    本节对音频相关知识进行了详细的介绍及讲解。 ①、声音的三要素 声音的三要素: 频率、振幅、波形 频率:声波的频率,即声音的音调,人类听觉的频率(音调) 范围为 20Hz—20KHz 振幅:即声波的响度,通俗的讲就是声音的高低,一般男生的声音振幅(响度) 大于女生。

    2024年02月09日
    浏览(27)
  • 音频功放基础知识

            分为数字功放和模拟功放:数字功放是DAC之前对数字信号进行处理,而模拟功放是DAC之后对模拟信号进行处理,区别在于 数字功放电路的过载能力远远高于模拟功放。 模拟功放电路分为A类、B类或AB类功率放大电路,正常工作时功放管工作在线性区;当过载后,功

    2023年04月09日
    浏览(31)
  • 音频采集的相关基础知识

    https://zhuanlan.zhihu.com/p/652629744 (1)模拟麦克风 ECM麦克风:驻极体电容麦克风(ECM),典型的汽车ECM麦克风是一种将ECM单元与小型放大器电路整合在单个外壳中的装置。放大器提供一个模拟信号,其电压电平允许信号通过数米长的电线进行传输,这也是典型汽车应用的要求。若不放

    2024年01月25日
    浏览(31)
  • 音频数据处理基本知识学习——降噪滤波基础知识

    滤波是一种信号处理方法,它可以通过消除或减弱信号中的某些频率分量,来实现信号的去噪、去除干扰、增强某些频率成分等目的。常见的滤波方法包括低通滤波、高通滤波、带通滤波等。 降噪是一种信号处理方法,它可以通过消除或减弱信号中的噪声成分,来提高信号的

    2024年02月15日
    浏览(40)
  • 音频基础--PCM音频

      PCM 全称 Pulse-Code Modulation,就是脉冲调制编码,是用于将波形表示的模拟音频信号转换为数字1和0表示的数字音频信号,而不压缩也不丢失信息的处理技术。 简单来说就是一种用数字表示采样模拟信号的方法 。   如下是使用Audacity音频处理软件截取1~2s的时间段内音频波

    2023年04月09日
    浏览(27)
  • 自动驾驶技术的基础知识

    自动驾驶技术是现代汽车工业中的一项革命性发展,它正在改变着我们对交通和出行的理解。本文将介绍自动驾驶技术的基础知识,包括其概念、历史发展、分类以及关键技术要素。 自动驾驶是一种先进的交通技术,它允许汽车在没有人类干预的情况下完成驾驶任务。这意味

    2024年02月07日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包