音频和视频基础知识

这篇具有很好参考价值的文章主要介绍了音频和视频基础知识。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

声音

什么是声音：
声音是由物体振动产生的声波，通过介质（如空气、固体或液体）传播，并能被人的听觉器官所感知的波动现象。最初发出振动的物体被称为声源。

声音以波的形式传播，是一种机械波，其频率和振幅是描述波的重要属性，频率的大小与音高对应，而振幅影响声音的音量。声音可以被分解为不同频率和不同强度正弦波的叠加，这种变换过程称为傅立叶变换。音色不同，波形则不同。

自然界产生的声音（如人说话、打雷下雨）是模拟信号，是连续的；而计算机系统处理的声音一般是经过处理的数字信号，是离散的。

——《文心一言》

声波三要素：

要素	解释
频率	代表音阶的高低，频率越高，波长就越短。人类的耳朵听力的频率范围为20Hz~20kHz。
振幅	代表响度；即能量大小的反映，实际生活中，分贝常用于描述响度的大小。
波形	代表音色，波的形状决定了其所代表声音的音色，比如钢琴和小提琴的音色不同就是因为它们的介质所产生的波形不同。

声音的传播介质：
声音的传播介质很广，比如空气、液体和固定等；介质不同，传播的速度也不同，但在真空中无法传播。空气中传播速度340m/s，蒸馏水中传播速度1497m/s，钢铁中传播速度为5200m/s。

回声（echo）：
声音在传播过程中遇到障碍物反弹回来，再次传到耳朵中，就形成了回声。但是若这两种声音传到我们的耳朵里的时差小于80ms，我们无法区分这两种声音。

共鸣：
敲击一个物体时另一个物体也会振动发声，这种现象称为共鸣。共鸣证明了声音传播可以带动另外一个物体振动，也就是声音的传播也是一种能量的传播过程。

数字音频

模拟信号转换成数字信号，需要经过采样、量化、编码三个步骤。

采样：
在时间轴上对信号进行数字化。所谓的44.1kHz就是代表1秒回采样44100次。
音频和视频基础知识,音视频架构,音视频,音频,视频,音视频编码,实时音视频,回声,H265
量化：
在幅度轴上对信号进行数字化。比如用16比特的二进制信号来标识声音的一个采样，而16比特共有65536个可能取值，因此最终模拟信号在幅度上也分为65536层。
音频和视频基础知识,音视频架构,音视频,音频,视频,音视频编码,实时音视频,回声,H265
PCM：
通常所得音频裸数据格式就是脉冲编码调制（Pulse Code Modulation，PCM）数据。

比特率（码率）：
描述一段音频一秒内的大小，称为数据比特率。

音频通道数：
指声道的数量，通常分为单声道和立体声。

音频编码

音频编码：
就是对音频进行压缩，压缩编码的基本指标之一就是压缩比。压缩编码包括有损压缩和无损压缩。压缩编码的原理实际上是压缩掉冗余信号，冗余信号是指不能被人耳感知到的信号，包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等。

常用的音频编码格式：

编码格式	解释
WAV	不进行压缩操作，只是在PCM数据格式的前面加上44字节，分别用来描述PCM的采样率、声道数、数据格式等信息
MP3	有着不错的压缩比，全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III），简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术，将音乐以1:10 甚至 1:12 的压缩率，压缩成容量较小的文件，而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。
AAC	AAC（Advanced Audio Coding）是一种音频压缩格式，旨在提供比MP3更好的音质和更高的压缩比。它是MPEG-4标准的一部分，并且被广泛用于数字音频广播、流媒体和存储媒体中。AAC采用了先进的编码技术，如预测编码、离散余弦变换（DCT）和量化，以及更复杂的心理声学模型，以提供更好的音频质量。与MP3相比，AAC通常能够提供更高的音频质量，尤其是在低比特率下。
OGG	Ogg是一种免费的、开源的、无损的音频压缩格式，其全称是Ogg Vorbis。与MP3和AAC不同，Ogg旨在提供无损的音频质量，而不是有损的压缩。
FLAC	FLAC属于无损失音频文件压缩格式，使用此编码的音频数据几乎没有任何信息损失。FLAC全称Free Lossless Audio Codec，中文名为无损音频压缩编码，该文件占用空间较大，适合存储于计算机，或者大容量手机之中，适合音乐发烧友用户使用。
APE	APE是一种数字无损音频文件压缩格式。我们可以利用Monkey’s Audio这个软件，将庞大的WAV音频文件压缩为APE,，体积虽然变小了，但音质和原来一样。
…	…

视频

三原色：红绿蓝三种色光无法被分解，故称为三原色光，等量的三原色光相加会变成白色。
像素：
像素（Pixel）是数字图像的基本单位，由英文单词“Picture”和“Element”组合而成。每个像素代表图像中的一个最小采样点，具有特定的位置和灰度值或颜色值。在数字图像中，像素通常按照矩阵形式排列，形成一张完整的图像。

数字图像：
数字图像是以数字形式表示的图像，通常由像素组成。每个像素具有特定的位置和灰度值或颜色值，可以表示图像中的不同信息。数字图像通常存储在计算机中，可以进行各种计算和处理。数字图像处理是一种将图像信号数字化后利用计算进行处理的过程。数字图像可以转换为数字信号，并通过各种算法和计算进行处理。常见的数字图像处理操作包括图像增强、滤波、变换、分析、识别和分类等。

图像的数值表示：通常有RGB方式和YUV方式。

YUV和RGB转换：所有渲染到屏幕上的都需要转换为RGB的表示形式。

音频和视频基础知识,音视频架构,音视频,音频,视频,音视频编码,实时音视频,回声,H265
分辨率：
图像分辨率是指单位英寸中所包含的像素点数，其定义更趋近于分辨率本身的定义。图像分辨率则是单位英寸中所包含的像素点数，其定义更趋近于分辨率本身的定义。此外还有屏幕分辨率。

帧率（fps）：
是指每秒显示的帧数，是评估视频流畅度的指标。一般来说，30fps就是可以接受的，60fps则可以明显提升交互感和逼真感，超过75fps后，人的肉眼就不会再有明显提升的感受。

视频编码

视频编码：为了去除视频的冗余信息，实现视频的压缩，需要对视频进行编码，相比较音频数据，视频数据具有极强的相关性，拥有大量的冗余，包括空间冗余、时间冗余和统计冗余等等。

常见的编码方式：文章来源地址https://www.toymoban.com/news/detail-788620.html

标准	解释
H261	H.261是一种视频压缩标准，全称是ITU-T Recommendation H.261（草案），用于视频会议和电视电话。H.261是最早的视频压缩标准，制定于1990年左右。它支持CIF和QCIF两种分辨率。
H262	H.262，也被称为MPEG-2 Part 2（ISO/IEC 13818-2），是一种视频压缩和数据封装标准。它是MPEG-2技术标准的一部分，主要用于数字视频广播（DVB）、DVD视频和高清电视（HDTV）等应用中。
H264	H.264，也被称为MPEG-4 Part 10 AVC（Advanced Video Coding），是一种先进的视频压缩标准。相比于之前的H.261和H.262标准，H.264提供了更高的压缩效率和更好的图像质量，因此在许多应用中得到了广泛采用。
H265	H.265，也被称为高效视频编码（High Efficiency Video Coding，HEVC），是一种用于数字视频压缩的标准。与先前的H.264标准相比，H.265提供了更高的压缩效率和更好的图像质量，特别是在高清和超高清视频方面。
H266	H.266，也被称为Versatile Video Coding (VVC) 或 ITU-T Recommendation J.1100，是继H.265之后的新一代视频压缩标准。H.266的目标是在相同的比特率下提供比H.265更高质量的视频，同时支持更大的分辨率和更高效的压缩技术。
VP8	VP8是一种开源的视频压缩格式，由On2 Technologies公司开发。它是一个高效、灵活和可扩展的视频压缩标准，旨在提供高质量的视频压缩性能。
VP9	VP9是一种开源的视频压缩格式，由Google公司开发。它是VP8的继任者，提供了更高的压缩效率和更好的图像质量。VP9采用了许多先进的视频编码技术，包括空间预测、变换编码、量化、环路滤波等。与VP8相比，VP9在技术上进行了改进和优化，以提高压缩效率和图像质量。
AV1	AV1是一种开源的视频压缩标准，由多家公司和技术组织联合开发。它的目标是提供比现有视频压缩标准更高的压缩效率和更好的图像质量，同时保持较低的计算复杂度。
AVS	AVS（Advanced Video Coding Standard）是中国自主制定的视频压缩标准，旨在提供更高压缩效率和更好图像质量的视频编码技术。与国际上已有的视频编码标准如H.264/AVC和H.265/HEVC相比，AVS具有更好的压缩性能和自主知识产权。
AVS3	AVS3（Advanced Video Coding Standard Version 3）是中国自主制定的第三代视频压缩标准。相比于前两代AVS标准，AVS3在压缩效率和图像质量方面有了更大的提升，同时支持更高的分辨率和帧率
…	…