ITU-T P.1203/P.1204视频质量评估标准介绍

这篇具有很好参考价值的文章主要介绍了ITU-T P.1203/P.1204视频质量评估标准介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

概述

简介

国际电信联盟（ITU-T）第12研究组（SG12）和视频质量专家组（VQEG）联合开展了P.NATS（Parametric non-intrusive assessment of TCP-based multimedia streaming quality）竞赛，旨在针对HTTP视频流（如DASH）开发视频质量评估模型。P.NATS共分为两个阶段，最终分别产出了两个系列的标准化视频质量模型：

阶段1 · ITU-T P.1203系列（2017年）：基于比特流（bitstream）信息，预测视频流会话的整体质量（包括视频质量、初始延迟、卡顿等因素），是第一个基于HTTP的视听自适应流的标准化QoE模型
阶段2 · ITU-T P.1204系列（2020年）：在P.1203系列的基础上改进并扩展了视频质量评估，基于比特流、像素和混合信息，进行短期（如每个视频块）视频质量预测，其中P.1204.3的性能优于VMAF

下表总结了两个系列标准的主要差异：（*注：二者均可提供每秒视频质量预测）

系列	评估目标	输入类型	预测时长	编码支持	最高帧率	最高分辨率	适用设备
P.1203	整体质量	比特流	长期（0.5~5分钟）	H.264	30fps	FHD/1080p	PC/TV、手机
P.1204	视频质量	比特流、像素、混合	短期（5~10 秒）	H.264/H.265/VP9	60fps	UHD-1/4K	PC/TV、手机、平板

本文基于对官方文档和论文的翻译、梳理与总结，介绍 ITU-T P.1203和P.1204系列标准内容。如有错漏之处，敬请指正。

标准结构

上图为P.1203和P.1204的总体结构。模型的输出为1-5的平均意见分数（MOS），其中1代表质量差，5代表质量优秀。

P.1203系列一共包括四个标准文件，其中P.1203是该系列的入口文件，其他三个文件分别对应上图三个模块：

$P_v$ ：P.1203.1，视频质量估计模块（短期，提供每秒预测），对应论文[1]
$P_a$ ：P.1203.2，音频质量估计模块（短期，提供每秒预测），对应论文[2]
$P_q$ ：P.1203.3，质量集成模块，给出30秒到5分钟的会话的整体质量，对应论文[3]

P.1204系列可以看作是对P.1203.1的扩展（基于可靠传输），侧重于视频质量评估，对应上图中的 $P_v$ 模块。除了入口文件P.1204（对应论文[5]）外，还包括五个文件，差异在于访问的信息类型不同：

P.1204.1（开发中）：基于传输（transport）信息
P.1204.2（开发中）：基于视频帧信息
P.1204.3：基于完整的比特流信息，对应论文[6]
P.1204.4：基于全（FR）和简化参考（RR）像素信息
P.1204.5：基于传输和接收到的像素信息（混合信息）

模型分类

视频质量评估模型按照输入信息类型开源分为四个类别[5]：

基于元数据（Metadata-based）：使用元数据层的信息（如视频编码、图像分辨率、帧率、码流等），这些信息可以从播放器日志或服务规划期间获得。例如：P.1203.1的模式0（见下文）
- *此类模型也可以看作是比特流模型的轻量级变体，只分析比特流的元数据部分
基于比特流（Bitstream-based）：无需解码即可分析编码过的视频比特流，并且不需要访问编码前的原始比特流。例如：P.1204.3，P.1203.1的模式1-3（见下文）
基于像素（Pixel-based）：分析视频的解码帧，不需要了解视频的编码或传输技术，分为以下变体：
- 全参考（Full Reference，FR）模型：通过比较原始内容（即“参考”）与解码和处理后的待测序列进行质量评估。例如：SSIM、PSNR、VMAF
- 简化参考（Reduced Reference，RR）模型：使用参考的“简化”表示和待测序列进行质量评估。例如：P.1204.4（该模型的质量预测性能与同一算法的FR版本一样好，因此也称为RR/FR模型）
- 无参考（No Reference，NR）模型：在不访问参考内容的情况下执行质量评估。目前尚无基于像素的NR模型能够提供足够好的预测精度
混合（Hybrid）：基于对像素信息和附加比特流或元数据信息进行质量评估。例如：P.1204.5

可以看出，P.1203和P.1204系列视频质量评估模型对应不同的类别：

模型	类别
P.1203.1 (mode 0)	Metadata-based (NR)
P.1203.1 (mode 1-3)	Bitstream-based (NR)
P.1204.3	Bitstream-based (NR)
P.1204.4	Pixel-based (RR/FR)
P.1204.5	Hybrid (NR)

注意到与基于像素的经典质量评估方法SSIM、PSNR、VMAF不同的是，P.1203.1和P.1204.3均为基于元数据或比特流的无参考（NR）模型。这样的优势[6]一是计算开销小，二是可以应用于大规模质量评估和直播中，不过相应地会在一定程度上牺牲性能。事实上，在所有P.1203和P.1204系列模型中，P.1204.4的性能是最好的[5]。

P.1203.1

四种模式

P.1203包含四种操作模式，区别在于能够访问的视频信息不同（增量访问），对应不同的加密级别[1][4]，如上图和下表所示。

模式	能访问的信息（增量访问）	加密级别	计算要求	性能
0	元数据信息，包括初始延迟、卡顿、视频编码、码率、分辨率、帧率、视频块时长、视频块大小等	最高	最低	最差
1	模式0信息 + 音频和视频帧大小、音频和视频帧时长、视频帧类型（如是否为I帧）	较高	较低	较差
2	模式1信息 + 最多2%的比特流信息	较低	较高	较好
3	模式1信息 + 完整比特流信息	最低	最高	最好

*注：在使用P.1203的其他研究工作中，模式0较为常用，可能是因为其所需要的信息最少。

框架概览

在前文结构图的基础上，上图进一步展示了P.1203框架的详细模块及输入输出[1][4]：

输入：I.01（Stream Input）是输入的比特流，基于此导出不同类型的相关信息，包括音频（I.11）、视频（I.13）、初始加载延迟和卡顿I.14）
输出：每个模块均输出1-5分的MOS分数
- 主要输出：
  - O.22：视频质量得分，即输入视频的每秒（即每个输出采样间隔）视频质量MOS评分
    - *可以简单通过计算每秒均值来提供每10秒的视频质量分数
  - O.21：音频质量得分，与O.22对应
  - O.46：整体质量得分（将经典建模方法与基于机器学习的方法相结合进行集成）
- 其他输出：
  - O.23：感知缓冲指示
  - O.34：综合视听质量（每秒），与O.21和O.22同步
  - O.35：最终的视听编码质量分数，是O.34的时间积分版本

视频质量评估

输入信息

P.1203框架中的 $P_v$ （即P.1203.1）模型使用一组从I.13导出的主要参数[1]：

$q u an t$ ：量化退化（quantization degradation）参数（∈ [0, 1]）
$b r$ ：码率（Kbps）
$f r$ ：帧率（fps）
$r_d$ ：显示分辨率（宽度×高度）
$r_c$ ：编码分辨率（像素总数）

注：输入信息由模型使用最大长度为 20 秒的滑动窗口处理，称为测量窗口；在所有 $P_v$ 模型使用的参数中，只有 $q u an t$ 会随不同模式（0-3）发生变化，其余参数均与模式无关。

质量计算

评估视频质量时考虑三种因素导致的质量退化：

$D_u$ ：空间缩放，特指放大（upscaling），与分辨率有关
$D_t$ ：时间缩放，与帧率有关
$D_q$ ：压缩

其中， $D_u$ 和 $D_t$ 不会随着模式发生变化。

在计算具体的质量退化数值时：

$D_u$ 基于 $r_d$ 和 $r_c$ 得出，对应[1]中的公式6-7
$D_t$ 基于帧率 $f r$ 得出，对应[1]中的公式8
$D_q$ 基于 $q u an t$ 、 $b r$ 等信息得出。模式0与1假设视频质量与码率之间呈对数关系，对应[1]中的公式9；模式2与3需要基于视频帧的量化参数（Quantization Parameter，QP）进行计算，对应[1]中的公式15。

之后，总体退化值为： $D= D_u+D_t+D_q$ ，注意需要将 $D$ 限界至0~100。对应地，总体视频质量为： $Q_v = 100 - D$ 。最后，基于 $Q_v$ 计算相应的1-5分MOS分数。

P1204.3/4/5

输入&输出

上图展示了P.1204系列三种模型的输入与输出信息。三种模型的输出一致，既可以输出5-10s（一个视频块的时长）的短期视频质量MOS评分，也可以输出每秒视频质量评分。在输入方面，三种模型存在以下差异：

P.1204.3（基于比特流）：通过解析编码比特流获得输入信息
P.1204.4（基于像素，RR/FR）：将参考像素（源视频）信息和处理后的像素信息作为输入
P.1204.5（混合）：使用视频元数据（如视频编码、分辨率、帧率和码率）和处理后的像素信息作为输入

质量计算

P.1204.3包括以下两部分：

参数（parametric）模型（核心模型）：基于算术函数将输入参数映射到质量，类似于P.1203.1的模式3，先计算 $D_u$ 、 $D_t$ 和 $D_q$ 三类退化的数值以及对应的视频质量，再将其转化为5分值的MOS分数
机器学习模型：基于随机森林（Random Forest，RF）预测残差（residual），即参数模型无法预测的MOS（*模型的输入特征见论文[5]的表7）

P.1204.3的最终质量评分是将参数模型和机器学习模型的评分进行加权平均（论文[5]的式20）。权重默认为0.5，即等权重相加。

P.1204.4需要对参考（源）视频提取特征以完成质量估计；P.1204.5的输入包括解码后的视频信息以及比特流的元数据信息（编码、码率、分辨率、帧率等）。本文不叙述这两个模型的具体计算过程，相关内容可参阅论文[5]及对应标准文件。文章来源地址https://www.toymoban.com/news/detail-485872.html

到了这里，关于ITU-T P.1203/P.1204视频质量评估标准介绍的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！