概述
简介
国际电信联盟(ITU-T)第12研究组(SG12)和视频质量专家组(VQEG)联合开展了P.NATS(Parametric non-intrusive assessment of TCP-based multimedia streaming quality)竞赛,旨在针对HTTP视频流(如DASH)开发视频质量评估模型。P.NATS共分为两个阶段,最终分别产出了两个系列的标准化视频质量模型:
- 阶段1 · ITU-T P.1203系列(2017年):基于比特流(bitstream)信息,预测视频流会话的整体质量(包括视频质量、初始延迟、卡顿等因素),是第一个基于HTTP的视听自适应流的标准化QoE模型
- 阶段2 · ITU-T P.1204系列(2020年):在P.1203系列的基础上改进并扩展了视频质量评估,基于比特流、像素和混合信息,进行短期(如每个视频块)视频质量预测,其中P.1204.3的性能优于VMAF
下表总结了两个系列标准的主要差异:(*注:二者均可提供每秒视频质量预测)
系列 | 评估目标 | 输入类型 | 预测时长 | 编码支持 | 最高帧率 | 最高分辨率 | 适用设备 |
---|---|---|---|---|---|---|---|
P.1203 | 整体质量 | 比特流 | 长期(0.5~5分钟) | H.264 | 30fps | FHD/1080p | PC/TV、手机 |
P.1204 | 视频质量 | 比特流、像素、混合 | 短期(5~10 秒) | H.264/H.265/VP9 | 60fps | UHD-1/4K | PC/TV、手机、平板 |
本文基于对官方文档和论文的翻译、梳理与总结,介绍 ITU-T P.1203和P.1204系列标准内容。如有错漏之处,敬请指正。
标准结构
上图为P.1203和P.1204的总体结构。模型的输出为1-5的平均意见分数(MOS),其中1代表质量差,5代表质量优秀。
P.1203系列一共包括四个标准文件,其中P.1203是该系列的入口文件,其他三个文件分别对应上图三个模块:
- P v P_v Pv:P.1203.1,视频质量估计模块(短期,提供每秒预测),对应论文[1]
- P a P_a Pa:P.1203.2,音频质量估计模块(短期,提供每秒预测),对应论文[2]
- P q P_q Pq:P.1203.3,质量集成模块,给出30秒到5分钟的会话的整体质量,对应论文[3]
P.1204系列可以看作是对P.1203.1的扩展(基于可靠传输),侧重于视频质量评估,对应上图中的 P v P_v Pv模块。除了入口文件P.1204(对应论文[5])外,还包括五个文件,差异在于访问的信息类型不同:
- P.1204.1(开发中):基于传输(transport)信息
- P.1204.2(开发中):基于视频帧信息
- P.1204.3:基于完整的比特流信息,对应论文[6]
- P.1204.4:基于全(FR)和简化参考(RR)像素信息
- P.1204.5:基于传输和接收到的像素信息(混合信息)
模型分类
视频质量评估模型按照输入信息类型开源分为四个类别[5]:
- 基于元数据(Metadata-based):使用元数据层的信息(如视频编码、图像分辨率、帧率、码流等),这些信息可以从播放器日志或服务规划期间获得。例如:P.1203.1的模式0(见下文)
- *此类模型也可以看作是比特流模型的轻量级变体,只分析比特流的元数据部分
- 基于比特流(Bitstream-based):无需解码即可分析编码过的视频比特流,并且不需要访问编码前的原始比特流。例如:P.1204.3,P.1203.1的模式1-3(见下文)
- 基于像素(Pixel-based):分析视频的解码帧,不需要了解视频的编码或传输技术,分为以下变体:
- 全参考(Full Reference,FR)模型:通过比较原始内容(即“参考”)与解码和处理后的待测序列进行质量评估。例如:SSIM、PSNR、VMAF
- 简化参考(Reduced Reference,RR)模型:使用参考的“简化”表示和待测序列进行质量评估。例如:P.1204.4(该模型的质量预测性能与同一算法的FR版本一样好,因此也称为RR/FR模型)
- 无参考(No Reference,NR)模型:在不访问参考内容的情况下执行质量评估。目前尚无基于像素的NR模型能够提供足够好的预测精度
- 混合(Hybrid):基于对像素信息和附加比特流或元数据信息进行质量评估。例如:P.1204.5
可以看出,P.1203和P.1204系列视频质量评估模型对应不同的类别:
模型 | 类别 |
---|---|
P.1203.1 (mode 0) | Metadata-based (NR) |
P.1203.1 (mode 1-3) | Bitstream-based (NR) |
P.1204.3 | Bitstream-based (NR) |
P.1204.4 | Pixel-based (RR/FR) |
P.1204.5 | Hybrid (NR) |
注意到与基于像素的经典质量评估方法SSIM、PSNR、VMAF不同的是,P.1203.1和P.1204.3均为基于元数据或比特流的无参考(NR)模型。这样的优势[6]一是计算开销小,二是可以应用于大规模质量评估和直播中,不过相应地会在一定程度上牺牲性能。事实上,在所有P.1203和P.1204系列模型中,P.1204.4的性能是最好的[5]。
相关资料
官方介绍:ITU-T P.1203 and P.1204 model and development
官方技术报告:ITU-T Standardized Bitstream-based Video Quality Models Technical Report
第三方介绍:Introducing ITU-T Metrics P.1203 and P.1204 - Streaming Learning Center
P.1203主要论文:
- [1] P.1203.1(视频模块):A bitstream-based, scalable video-quality model for HTTP adaptive streaming: ITU-T P.1203.1 - QoMEX '17
- [2] P.1203.2(音频模块):Parametric audio quality model for IPTV services - ITU-T P.1201.2 audio - QoMEX '13
- [3] P.1203.3(集成模块):A modular HTTP adaptive streaming QoE model — Candidate for ITU-T P.1203 (“P.NATS”) - QoMEX '17
- [4] 开源数据集及软件:HTTP adaptive streaming QoE estimation with ITU-T rec. P. 1203: open databases and software - MMSys '18
P.1204主要论文:
- [5] P.1204:Multi-Model Standard for Bitstream-, Pixel-Based and Hybrid Video Quality Assessment of UHD/4K: ITU-T P.1204 - Access '20
- [6] P.1204.3:Bitstream-based Model Standard for 4K/UHD: ITU-T P.1204.3 – Model Details, Evaluation, Analysis and Open Source Implementation - QoMEX '20
- [7] 开源数据集:AVT-VQDB-UHD-1: A Large Scale Video Quality Database for UHD-1 - ISM '19
P.1203主要开源仓库:
- 参考实现:itu-p1203/itu-p1203: ITU-T Rec. P.1203 Implementation
- 数据集:itu-p1203/open-dataset: Open Dataset from ITU-T P.1203 Standardization
P.1204主要开源仓库:
- P.1204.3参考实现:Telecommunication-Telemedia-Assessment/bitstream_mode3_p1204_3: Open source reference implementation of ITU-T P.1204.3
- P.1204.3比特流解析器:Telecommunication-Telemedia-Assessment/bitstream_mode3_videoparser: Open source video parser for the ITU-T P.1204.3 model
- 数据集:Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1: 4K database from AVT group of TU Ilmenau
P.1203.1
四种模式
P.1203包含四种操作模式,区别在于能够访问的视频信息不同(增量访问),对应不同的加密级别[1][4],如上图和下表所示。
模式 | 能访问的信息(增量访问) | 加密级别 | 计算要求 | 性能 |
---|---|---|---|---|
0 | 元数据信息,包括初始延迟、卡顿、视频编码、码率、分辨率、帧率、视频块时长、视频块大小等 | 最高 | 最低 | 最差 |
1 | 模式0信息 + 音频和视频帧大小、音频和视频帧时长、视频帧类型(如是否为I帧) | 较高 | 较低 | 较差 |
2 | 模式1信息 + 最多2%的比特流信息 | 较低 | 较高 | 较好 |
3 | 模式1信息 + 完整比特流信息 | 最低 | 最高 | 最好 |
*注:在使用P.1203的其他研究工作中,模式0较为常用,可能是因为其所需要的信息最少。
框架概览
在前文结构图的基础上,上图进一步展示了P.1203框架的详细模块及输入输出[1][4]:
- 输入:I.01(Stream Input)是输入的比特流,基于此导出不同类型的相关信息,包括音频(I.11)、视频(I.13)、初始加载延迟和卡顿I.14)
- 输出:每个模块均输出1-5分的MOS分数
- 主要输出:
- O.22:视频质量得分,即输入视频的每秒(即每个输出采样间隔)视频质量MOS评分
- *可以简单通过计算每秒均值来提供每10秒的视频质量分数
- O.21:音频质量得分,与O.22对应
- O.46:整体质量得分(将经典建模方法与基于机器学习的方法相结合进行集成)
- O.22:视频质量得分,即输入视频的每秒(即每个输出采样间隔)视频质量MOS评分
- 其他输出:
- O.23:感知缓冲指示
- O.34:综合视听质量(每秒),与O.21和O.22同步
- O.35:最终的视听编码质量分数,是O.34的时间积分版本
- 主要输出:
视频质量评估
输入信息
P.1203框架中的
P
v
P_v
Pv(即P.1203.1)模型使用一组从I.13导出的主要参数[1]:
- q u a n t quant quant:量化退化(quantization degradation)参数(∈ [0, 1])
- b r br br:码率(Kbps)
- f r fr fr:帧率(fps)
- r d r_d rd:显示分辨率(宽度×高度)
- r c r_c rc:编码分辨率(像素总数)
注:输入信息由模型使用最大长度为 20 秒的滑动窗口处理,称为测量窗口;在所有 P v P_v Pv模型使用的参数中,只有 q u a n t quant quant会随不同模式(0-3)发生变化,其余参数均与模式无关。
质量计算
评估视频质量时考虑三种因素导致的质量退化:
- D u D_u Du:空间缩放,特指放大(upscaling),与分辨率有关
- D t D_t Dt:时间缩放,与帧率有关
- D q D_q Dq:压缩
其中, D u D_u Du和 D t D_t Dt不会随着模式发生变化。
在计算具体的质量退化数值时:
- D u D_u Du基于 r d r_d rd和 r c r_c rc得出,对应[1]中的公式6-7
- D t D_t Dt基于帧率 f r fr fr得出,对应[1]中的公式8
- D q D_q Dq基于 q u a n t quant quant、 b r br br等信息得出。模式0与1假设视频质量与码率之间呈对数关系,对应[1]中的公式9;模式2与3需要基于视频帧的量化参数(Quantization Parameter,QP)进行计算,对应[1]中的公式15。
之后,总体退化值为: D = D u + D t + D q D= D_u+D_t+D_q D=Du+Dt+Dq,注意需要将 D D D限界至0~100。对应地,总体视频质量为: Q v = 100 − D Q_v = 100 - D Qv=100−D。最后,基于 Q v Q_v Qv计算相应的1-5分MOS分数。
P1204.3/4/5
输入&输出
上图展示了P.1204系列三种模型的输入与输出信息。三种模型的输出一致,既可以输出5-10s(一个视频块的时长)的短期视频质量MOS评分,也可以输出每秒视频质量评分。在输入方面,三种模型存在以下差异:
- P.1204.3(基于比特流):通过解析编码比特流获得输入信息
- P.1204.4(基于像素,RR/FR):将参考像素(源视频)信息和处理后的像素信息作为输入
- P.1204.5(混合):使用视频元数据(如视频编码、分辨率、帧率和码率)和处理后的像素信息作为输入
质量计算
P.1204.3包括以下两部分:
- 参数(parametric)模型(核心模型):基于算术函数将输入参数映射到质量,类似于P.1203.1的模式3,先计算 D u D_u Du、 D t D_t Dt和 D q D_q Dq三类退化的数值以及对应的视频质量,再将其转化为5分值的MOS分数
- 机器学习模型:基于随机森林(Random Forest,RF)预测残差(residual),即参数模型无法预测的MOS(*模型的输入特征见论文[5]的表7)
P.1204.3的最终质量评分是将参数模型和机器学习模型的评分进行加权平均(论文[5]的式20)。权重默认为0.5,即等权重相加。文章来源:https://www.toymoban.com/news/detail-485872.html
P.1204.4需要对参考(源)视频提取特征以完成质量估计;P.1204.5的输入包括解码后的视频信息以及比特流的元数据信息(编码、码率、分辨率、帧率等)。本文不叙述这两个模型的具体计算过程,相关内容可参阅论文[5]及对应标准文件。文章来源地址https://www.toymoban.com/news/detail-485872.html
到了这里,关于ITU-T P.1203/P.1204视频质量评估标准介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!