I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系

这篇具有很好参考价值的文章主要介绍了I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一.视频传输原理
视频是利用人眼视觉暂留的原理,通过播放一系列的图片,使人眼产生运动的感觉。单纯传输视频画面,视频量非常大,对现有的网络和存储来说是不可接受的。为了能够使视频便于传输和存储,人们发现视频有大量重复的信息,如果将重复信息在发送端去掉,在接收端恢复出来,这样就大大减少了视频数据的文件,因此有了H.264视频压缩标准。
视频里边的原始图像数据会采用 H.264编码格式进行压缩,音频采样数据会采用 AAC 编码格式进行压缩。视频内容经过编码压缩后,确实有利于存储和传输。不过当要观看播放时,相应地也需要解码过程。因此编码和解码之间,显然需要约定一种编码器和解码器都可以理解的约定。就视频图像编码和解码而言,这种约定很简单:
编码器将多张图像进行编码后生产成一段一段的 GOP ( Group of Pictures ) , 解码器在播放时则是读取一段一段的 GOP 进行解码后读取画面再渲染显示。GOP ( Group of Pictures) 是一组连续的画面,由一张 I 帧和数张 B / P 帧组成,是视频图像编码器和解码器存取的基本单位,它的排列顺序将会一直重复到影像结束。I 帧是内部编码帧(也称为关键帧),P帧是前向预测帧(前向参考帧),B 帧是双向内插帧(双向参考帧)。简单地讲,I 帧是一个完整的画面,而 P 帧和 B 帧记录的是相对于 I 帧的变化。如果没有 I 帧,P 帧和 B 帧就无法解码。
在H.264压缩标准中I帧、P帧、B帧用于表示传输的视频画面。

I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系,媒体

二. I帧、P帧、B帧,GOP
I帧
I帧:即Intra-coded picture(帧内编码图像帧),I帧表示关键帧,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成(因为包含完整画面)。又称为内部画面 (intra picture),I 帧通常是每个 GOP(MPEG 所使用的一种视频压缩技术)的第一个帧,经过适度地压缩,做为随机访问的参考点,可以当成图象。在MPEG编码的过程中,部分视频帧序列压缩成为I帧;部分压缩成P帧;还有部分压缩成B帧。I帧法是帧内压缩法,也称为“关键帧”压缩法。I帧法是基于离散余弦变换DCT(Discrete Cosine Transform)的压缩技术,这种算法与JPEG压缩算法类似。采用I帧压缩可达到1/6的压缩比而无明显的压缩痕迹。
【I帧特点】
  1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输;
  2.解码时仅用I帧的数据就可重构完整图像;
  3.I帧描述了图像背景和运动主体的详情;
  4.I帧不需要参考其他画面而生成;
  5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
  6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;
  7.I帧不需要考虑运动矢量;
  8.I帧所占数据的信息量比较大。
【I帧编码流程】
  (1)进行帧内预测,决定所采用的帧内预测模式。
  (2)像素值减去预测值,得到残差。
  (3)对残差进行变换和量化。
  (4)变长编码和算术编码。
  (5)重构图像并滤波,得到的图像作为其它帧的参考帧。
例如:在视频会议系统中,终端发送给MCU(或者MCU发送给终端)的图像,并不是每次都把完整的一幅幅图片发送到远端,而只是发送后一幅画面在前一幅画面基础上发生变化的部分。如果在网络状况不好的情况下,终端的接收远端或者发送给远程的画面就会有丢包而出现图像花屏、图像卡顿的现象,在这种情况下如果没有I帧机制来让远端重新发一幅新的完整的图像到本地(或者本地重新发一幅新的完整的图像给远端),终端的输出图像的花屏、卡顿现象会越来越严重,从而造成会议无法正常进行。
在视频画面播放过程中,若I帧丢失了,则后面的P帧也就随着解不出来,就会出现视频画面黑屏的现象;若P帧丢失了,则视频画面会出现花屏、马赛克等现象。
在视频会议系统中I帧只会在会议限定的带宽内发生,不会超越会议带宽而生效。I帧机制不仅存在于MCU中,电视墙服务器、录播服务器中也存在。就是为了解决在网络状况不好的情况下,出现的丢包而造成的如图像花屏、卡顿,而影响会议会正常进行。
P帧
P帧:即Predictive-coded Picture(前向预测编码图像帧)。P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)

【P帧的预测与重构】
  P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。
  I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系,媒体

【P帧特点】
  1.P帧是I帧后面相隔1~2帧的编码帧;
  2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差);
  3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像;
  4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧;
  5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧;
  6.由于P帧是参考帧,它可能造成解码错误的扩散;
  7.由于是差值传送,P帧的压缩比较高。
B帧
B帧:即Bidirectionally predicted picture(双向预测编码图像帧)。B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别,换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累。
I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系,媒体

【B帧的预测与重构】
B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。采用运动预测的方式进行帧间双向预测编码
【B帧特点】
  1.B帧是由前面的I或P帧和后面的P帧来进行预测的;
  2.B帧传送的是它与前面的I帧或P帧和后面的P帧之间的预测误差及运动矢量;
  3.B帧是双向预测编码帧;
  4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确;
  5.B帧不是参考帧,不会造成解码错误的扩散
【为什么需要B帧】
从上面的看,我们知道I和P的解码算法比较简单,资源占用也比较少,I只要自己完成就行了,P呢,也只需要解码器把前一个画面缓存一下,遇到P时就使用之前缓存的画面就好了,如果视频流只有I和P,解码器可以不管后面的数据,边读边解码,线性前进,大家很舒服。那么为什么还要引入B帧?
网络上的电影很多都采用了B帧,因为B帧记录的是前后帧的差别,比P帧能节约更多的空间,但这样一来,文件小了,解码器就麻烦了,因为在解码时,不仅要用之前缓存的画面,还要知道下一个I或者P的画面(也就是说要预读预解码),而且,B帧不能简单地丢掉,因为B帧其实也包含了画面信息,如果简单丢掉,并用之前的画面简单重复,就会造成画面卡(其实就是丢帧了),并且由于网络上的电影为了节约空间,往往使用相当多的B帧,B帧用的多,对不支持B帧的播放器就造成更大的困扰,画面也就越卡。
【显示和解码顺序示意图】
I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系,媒体

GOP(序列)和IDR
在H264中图像以序列为单位进行组织,一个序列是一段图像编码后的数据流。
一个序列的第一个图像叫做 IDR 图像(立即刷新图像),IDR 图像都是 I 帧图像。H.264 引入 IDR 图像是为了解码的重同步,当解码器解码到 IDR 图像时,立即将参考帧队列清空,将已解码的数据全部输出或抛弃,重新查找参数集,开始一个新的序列。这样,如果前一个序列出现重大错误,在这里可以获得重新同步的机会。IDR图像之后的图像永远不会使用IDR之前的图像的数据来解码。
一个序列就是一段内容差异不太大的图像编码后生成的一串数据流。当运动变化比较少时,一个序列可以很长,因为运动变化少就代表图像画面的内容变动很小,所以就可以编一个I帧,然后一直P帧、B帧了。当运动变化多时,可能一个序列就比较短了,比如就包含一个I帧和3、4个P帧。
在视频编码序列中,GOP即Group of picture(图像组),指两个I帧之间的距离,Reference(参考周期)指两个P帧之间的距离。两个I帧之间形成一组图片,就是GOP(Group Of Picture)。
【GOP示意图】
I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系,媒体

三.PTS和DTS
【为什么会有PTS和DTS的概念】
通过上面的描述可以看出:P帧需要参考前面的I帧或P帧才可以生成一张完整的图片,而B帧则需要参考前面I帧或P帧及其后面的一个P帧才可以生成一张完整的图片。这样就带来了一个问题:在视频流中,先到来的 B 帧无法立即解码,需要等待它依赖的后面的 I、P 帧先解码完成,这样一来播放时间与解码时间不一致了,顺序打乱了,那这些帧该如何播放呢?这时就引入了另外两个概念:DTS 和 PTS。
【PTS和DTS】
先来了解一下PTS和DTS的基本概念:
DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。
虽然 DTS、PTS 是用于指导播放端的行为,但它们是在编码的时候由编码器生成的。
在视频采集的时候是录制一帧就编码一帧发送一帧的,在编码的时候会生成 PTS,这里需要特别注意的是 frame(帧)的编码方式,在通常的场景中,编解码器编码一个 I 帧,然后向后跳过几个帧,用编码 I 帧作为基准帧对一个未来 P 帧进行编码,然后跳回到 I 帧之后的下一个帧。编码的 I 帧和 P 帧之间的帧被编码为 B 帧。之后,编码器会再次跳过几个帧,使用第一个 P 帧作为基准帧编码另外一个 P 帧,然后再次跳回,用 B 帧填充显示序列中的空隙。这个过程不断继续,每 12 到 15 个 P 帧和 B 帧内插入一个新的 I 帧。P 帧由前一个 I 帧或 P 帧图像来预测,而 B 帧由前后的两个 P 帧或一个 I 帧和一个 P 帧来预测,因而编解码和帧的显示顺序有所不同,如下所示:
I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系,媒体

假设编码器采集到的帧是这个样子的:
I B B P B B P
那么它的显示顺序,也就是PTS应该是这样:
1 2 3 4 5 6 7
编码器的编码顺序是:
1 4 2 3 7 5 6
推流顺序也是按照编码顺序去推的,即
I P B B P B B
那么接收断收到的视频流也就是
I P B B P B B
这时候去解码,也是按照收到的视频流一帧一帧去解的了,接收一帧解码一帧,因为在编码的时候已经按照 I、B、P 的依赖关系编好了,接收到数据直接解码就好了。那么解码顺序是:
I P B B P B B
DTS:1 2 3 4 5 6 7
PTS:1 4 2 3 7 5 6
可以看到解码出来对应的 PTS 不是顺序的,为了正确显示视频流,这时候我们就必须按照 PTS 重新调整解码后的 frame(帧),即
I B B P B B P
DTS:1 3 4 2 6 7 5
PTS:1 2 3 4 5 6 7
另外,并不是一定要使用B帧。在实时互动直播系统中,很少使用B帧。主要的原因是压缩和解码B帧时,由于要双向参考,所以它需要缓冲更多的数据,且使用的CPU也会更高。由于实时性的要求,所以一般不使用它。不过对于播放器来说,遇到带有B帧的H264数据是常有的事儿。在没有B帧的情况下,存放帧的顺序和显示帧的顺序就是一样的,PTS和DTS的值也是一样的。文章来源地址https://www.toymoban.com/news/detail-631018.html

到了这里,关于I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 类图(类之间的关系)

    一.概述         类图(Class diagram) 是显示了模型的静态结构,特别是模型中存在的类、类的内部结构以及它们与其他类的关系等。类图不显示暂时性的信息。类图是面向对象建模的主要组成部分。在软件工程中,类图是一种静态的结构图,描述了系统的类的集合,类的属性和

    2023年04月26日
    浏览(51)
  • 认识Mybatis的关联关系映射,灵活关联表对象之间的关系

    目录      一、概述 ( 1 )  介绍 ( 2 )  关联关系映射 ( 3 ) 关联讲述 二、一对一关联映射 2.1 数据库创建 2.2 配置文件  2.3 代码生成 2.4 编写测试 三、一对多关联映射 四 、多对多关联映射 给我们带来的收获 关联关系映射是指在数据库中,通过定义 表之间的关联关系 ,将多

    2024年02月11日
    浏览(33)
  • 日志文件之间关系和介绍及应用

    Log4j: Log4j是Java中广泛使用的日志框架之一。它提供了灵活的配置选项和丰富的功能,支持日志级别、日志输出目标等。Log4j有1.x版本和2.x版本,其中Log4j 2.x是对1.x的升级和扩展。 Logback: Logback是由Log4j创始人设计的Log4j的后继者,也是一个非常流行的Java日志框架。它具有高性能

    2024年02月10日
    浏览(28)
  • Linux各个发行版之间的关系

    可以查看链接:Linux Timeline 链接中可以下载PNG或者SVG图片

    2024年02月06日
    浏览(29)
  • 大模型与大数据之间的关系

    大模型和大数据之间是相辅相成、相互促进的关系。 大数据指的是规模庞大、类型复杂、处理速度快的数据集合,通常包括结构化数据和非结构化数据。大数据具有广泛的应用场景,例如推荐系统、广告投放、客户关系管理等。在大数据的背景下,大模型可以通过对数据进行

    2024年02月07日
    浏览(68)
  • 内存屏障 和 cache之间有什么关系?

    内存屏障(Memory Barrier)和缓存(Cache)之间有密切的关系。它们都是计算机系统中用于确保内存操作顺序和一致性的重要概念。 内存屏障是一种指令或操作,用于控制处理器或编译器的内存访问和重排行为,以确保在特定的位置或时机上,内存操作按照所需的顺序执行。内

    2024年02月13日
    浏览(35)
  • Webpack插件与Webpack之间的关系

    在Webpack中,插件(plugins)是用于扩展其功能的重要组成部分。Webpack是一个模块打包工具,用于将多个模块(例如JavaScript文件、CSS文件、图片等)打包成一个或多个最终的输出文件。插件允许你在Webpack的构建过程中执行各种任务,以满足特定需求或优化你的项目。 以下是

    2024年02月09日
    浏览(29)
  • AzureAD 中 订阅,租户,账户之间的关系

    微软提供了组织、订阅、许可证和用户帐户的层次结构,以便在其云产品中一致使用身份和账单 租户与Azure相关,指的是Azure Active Directory的单个实例,或者通常被称为“Azure AD”。Azure AD是Microsoft的云平台的关键部分,因为它提供了一个单一的位置来管理用户、组以及他们所

    2024年02月06日
    浏览(32)
  • cookie、session与token之间的关系

    Cookie、Session和Token机制在Web应用中主要用于 验证用户的身份信息 。通过这些机制,服务器能够确定请求是否来自已经登录的合法用户,并根据用户的身份进行相应的操作和授权。 具体来说: - Cookie和Session: Cookie和Session通常是结合使用的, 在用户成功登录后,服务器会创建

    2024年02月09日
    浏览(38)
  • 模型权重和深度学习训练框架之间的关系

    通常我们可以看到有Caffe或Pytorch或TensorFlow的模型参数文件 不同的团队可能会使用不同的深度学习训练框架, 然后使用其 内部的模型权重保存函数 进行保存, 以便之后 自己的复用 或 发布开源 , 让别人使用自己已经训练好的模型权重, 在其基础上进一步做改进或训练 那么该团

    2024年02月11日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包