主流视频编码格式详解

视频编码（Video Coding） 是一种将数字视频数据进行压缩，以减少其所占存储空间或所需的传输带宽的技术。由于原始数字视频（特别是高清视频）的数据量巨大，不经压缩几乎无法存储和传输，因此视频编码在现代数字媒体领域扮演着至关重要的角色。本文件将详细介绍当前业界主流的视频编码格式，包括它们的工作原理、特点、优势与劣势，以及常见应用场景。

核心思想：

消除冗余：通过利用视频帧内和帧间的数据相关性，消除时间冗余、空间冗余、视觉冗余和信息熵冗余。
提升压缩率：在保持可接受的视频质量前提下，尽可能减小文件大小，节省存储和带宽。
标准统一：通过制定行业标准，确保不同设备和软件之间的互操作性。

一、视频编码基础概念

在深入了解具体编码格式之前，有必要先回顾一些视频编码的基础概念。

1.1 什么是视频编码？

视频编码是将一帧帧原始的未压缩图像数据（如 YUV 格式），通过各种复杂的算法和技术，转换成一种更小、更便于存储和传输的格式的过程。这个过程是有损压缩，即在压缩过程中会丢失一些人眼不敏感的视觉信息，以达到显著的压缩效果。与此相对的，视频解码（Video Decoding） 则是将编码后的数据还原成可以显示播放的原始图像数据的过程。编码和解码通常由编解码器 (Codec - Coder/Decoder) 完成。

1.2 视频压缩原理

视频压缩主要利用了视频数据中的各种冗余信息：

空间冗余 (Spatial Redundancy)：同一帧图像内部像素之间的相关性。例如，一片天空区域通常颜色变化不大。编码器通过帧内预测 (Intra Prediction) 消除这种冗余。
时间冗余 (Temporal Redundancy)：视频序列中相邻帧之间的相似性。例如，在一个稳定的场景中，大部分背景在短时间内几乎不变。编码器通过帧间预测 (Inter Prediction) 和运动补偿 (Motion Compensation) 消除这种冗余，只记录帧与帧之间的差异（运动矢量和残差）。
视觉冗余 (Visual Redundancy)：人眼对不同颜色、亮度、纹理的敏感度不同，以及对高频细节的感知能力有限。编码器可以有选择地丢弃人眼不敏感的信息。
统计冗余 (Statistical Redundancy)：数据值出现的概率分布不均匀。通过熵编码 (Entropy Coding)（如霍夫曼编码、算术编码），对出现频率高的数据用短码字表示，出现频率低的用长码字表示，进一步压缩数据。

1.3 关键技术点

帧类型：
- I 帧 (Intra-coded Picture)：独立编码的图像，不依赖其他帧。相当于一个完整的 JPEG 图像，压缩率最低，但在视频流中充当随机访问点。
- P 帧 (Predicted Picture)：向前预测帧，通过参考前面最近的 I 帧或 P 帧进行编码。只记录与参考帧的差异和运动矢量，压缩率较高。
- B 帧 (Bi-directional Predicted Picture)：双向预测帧，通过参考前面和/或后面的 I 帧或 P 帧进行编码。压缩率最高，但解码复杂度最高。
GOP (Group of Pictures)：一组帧的集合，通常以 I 帧开始，接着是若干 P 帧和 B 帧。GOP 的大小和结构影响压缩率、随机访问性能和错误恢复能力。常见的 GOP 结构是 IPPP…、IBBPBB… 等。
运动估计与补偿 (Motion Estimation & Compensation)：在帧间预测中，编码器会寻找当前宏块在参考帧中的最佳匹配块（运动矢量），然后只编码这两个块之间的残差和运动矢量。
离散余弦变换 (DCT / Discrete Cosine Transform)：将图像的空间域数据转换到频率域，将图像信息分解成不同频率的系数。高频系数通常在视觉上不那么重要，可以在量化时更多地丢弃。
量化 (Quantization)：对 DCT 变换后的频率系数进行近似处理，丢弃部分精度信息。这是有损压缩的主要来源。量化步长越大，压缩率越高，图像质量越差。
熵编码 (Entropy Coding)：对量化后的数据进行无损压缩，进一步减小文件体积。

二、主流视频编码格式详解

2.1 H.264 / AVC (Advanced Video Coding)

标准制定者：ITU-T VCEG 和 ISO/IEC MPEG 联合制定，又称 MPEG-4 Part 10。
发布时间：2003 年。
核心特点：
- 高压缩效率：相比 MPEG-2 等前代标准，在相同图像质量下，文件大小可减少 50% 以上。
- 广泛应用：是目前应用最广泛的视频编码标准，几乎所有数字视频产品和流媒体服务都支持 H.264。
- 多配置文件 (Profiles)：定义了多种配置文件以适应不同应用场景和设备能力，如 Baseline Profile (用于低复杂度移动设备/视频会议)、Main Profile (标准画质广播/DVD)、High Profile (高清电视/蓝光)。
- 先进的编码工具：引入了多参考帧预测、更灵活的宏块分区（如 8x8、4x4 变换）、上下文自适应二进制算术编码 (CABAC) / 上下文自适应变长编码 (CAVLC) 等。
技术优势：
- 出色的压缩比和图像质量。
- 强大的错误恢复能力，适用于不可靠网络。
- 广泛的硬件加速支持，解码效率高。
技术劣势：
- 复杂度相较于前代标准有所增加，编码计算量相对较大。
- 对于超高清 (4K/8K) 和 HDR 内容，压缩效率不如新一代标准。
应用场景：
- 流媒体：YouTube、Netflix、直播平台等。
- 蓝光/DVD：高清视频光盘标准。
- 视频会议：Zoom、Microsoft Teams 等。
- 数字电视广播：DVB-T、ATSC 等。
- 移动设备：智能手机、平板电脑的视频录制和播放。

2.2 H.265 / HEVC (High Efficiency Video Coding)

标准制定者：ITU-T VCEG 和 ISO/IEC MPEG 联合制定，又称 MPEG-H Part 2。
发布时间：2013 年。
核心特点：
- 更高压缩效率：在相同图像质量下，相比 H.264 可进一步减少 25%-50% 的文件大小。这是其最重要的优势。
- 支持 4K/8K 超高清：设计之初就考虑了对更高分辨率（最高 8192x4320）和 HDR (高动态范围) 内容的支持。
- 更大的编码单元 (CTU)：引入了编码树单元（Coding Tree Units, CTU），最大可达 64x64 像素，比 H.264 的宏块 (Macroblock, 16x16) 大很多，可以更有效地处理高分辨率视频。
- 更精细的预测和变换：引入了更灵活的帧内预测模式、运动矢量预测、以及更多尺寸的离散正弦变换 (DST)。
技术优势：
- 在超高清和高码率场景下表现尤其出色，能显著节省带宽和存储成本。
- 对 HDR 等新兴视频技术有良好支持。
技术劣势：
- 编码和解码的复杂度显著增加，对硬件性能要求更高。
- 专利授权复杂，导致其推广初期受到一定阻碍，且面临多方专利池问题。
- 相较于 H.264，在一些低码率、低分辨率场景下提升不明显，甚至可能因为编码复杂度问题表现不如 H.264。
应用场景：
- 4K/8K 超高清流媒体：Netflix、YouTube 等的 4K 内容。
- 超高清蓝光 (UHD Blu-ray)。
- 高级视频监控：在有限带宽下传输高分辨率视频。
- VR/AR 内容：对清晰度要求高的沉浸式体验。
- HDR 视频内容。

2.3 VP9 (Video Processing 9)

标准制定者：Google。
发布时间：2013 年。
核心特点：
- 免版税 (Royalty-free)：这是 VP9 的核心竞争力之一，开发者和内容提供商可以免费使用，无需支付专利授权费。
- 高压缩效率：与 H.265 (HEVC) 相当，或略低，通常在相同质量下比 H.264 小 50%。
- 为 Web 优化：广泛集成在 Google 的产品和服务中，如 YouTube、Chrome 浏览器、Android 系统。
- 灵活的编码块：支持 8x8 到 64x64 像素的编码单元。
技术优势：
- 免版税：吸引了大量 Web 用户和开发者。
- 在长时间视频内容（如 YouTube）上，其编码效率得到了验证。
- 硬件解码支持也在逐步普及。
技术劣势：
- 编码复杂度高：编码所需计算资源较大，特别是高质量编码。
- 生态系统不如 H.264/H.265 广泛：虽然在 Google 生态中很强大，但在其他硬件设备和内容制作工具链中的支持相对较少。
- 直播场景推广受限：由于编码时间长，在低延迟直播场景下的部署不如 H.264 灵活。
应用场景：
- YouTube：Google 平台上的高清视频内容。
- Chrome 浏览器：WebM (VP9 + Opus) 格式的视频。
- Android 设备：作为 Android 的核心视频编解码器之一。
- WebRTC：在实时通信中提供视频支持。

2.4 AV1 (AOMedia Video 1)

标准制定者：开放媒体联盟 (Alliance for Open Media, AOMedia)，成员包括 Google, Amazon, Apple, Netflix, Microsoft, Facebook, Intel 等业界巨头。
发布时间：2018 年。
核心特点：
- 免版税 (Royalty-free)：与 VP9 类似，AV1 也是一个免版税的开源视频编码标准，是其最大的吸引力。
- 极高的压缩效率：目标是比 VP9 和 H.265 在相同质量下再减少 20%-30% 的文件大小，尤其在低码率下表现出色。
- 为未来互联网视频设计：旨在成为下一代 Web 视频传输的核心标准，支持 8K 甚至更高分辨率、HDR、高帧率。
- 大量先进工具：引入了更强大的帧间预测（如 8 个参考帧、重复帧）、更复杂的帧内预测、更灵活的变换核、以及基于神经网络的编码选择等。
技术优势：
- 卓越的压缩效率：将进一步降低带宽成本，支持更高质量的流媒体。
- 免版税：避免了 H.265 复杂的专利问题，得到了主要科技公司的广泛支持。
- 未来潜力巨大：被视为 WebP、JPEG XL 等静图压缩标准的视频对应，有望统一 Web 端视频标准。
技术劣势：
- 编码复杂度极高：相比 H.265，AV1 的编码时间可能更长，对计算资源的需求非常大，这是目前推广的最大障碍。
- 硬件解码支持仍在发展中：虽然 Intel、AMD、Nvidia 等已推出支持 AV1 硬件解码的显卡，但普及度仍需时间，没有 H.264/H.265 那么广泛。
- 直播场景挑战巨大：由于编码时间长，目前不适用于对延迟要求非常高的实时直播。
应用场景：
- 下一代流媒体：Netflix、YouTube 等已开始在其平台测试和部署 AV1。
- Web 视频：作为 Chrome、Firefox、Edge 等浏览器的原生支持格式。
- 高分辨率、高品质视频分发：长期目标是取代 H.265 和 VP9。

2.5 H.266 / VVC (Versatile Video Coding)

标准制定者：ITU-T VCEG 和 ISO/IEC MPEG 联合制定。
发布时间：2020 年 7 月。
核心特点：
- 极致压缩效率：目标是在相同质量下，相比 H.265 (HEVC) 再减少 30%-50% 的文件大小，这是目前压缩效率最高的视频编码标准。
- 全场景多功能性：为所有视频应用场景设计，包括 UHD (4K/8K)、HDR、360 度视频、屏幕内容编码、游戏流媒体等。
- 更灵活的块结构：编码树单元 (CTU) 最大可达 128x128 像素，并引入更复杂的块分区形状。
- 更强大的编码工具：包括多子空间变换、自适应多核变换、基于神经网络的帧内预测增强、多平面编码等。
技术优势：
- 业界领先的压缩效率：在带宽和存储成本方面具有无可比拟的潜力。
- 针对未来高分辨率、高动态范围和新颖视频应用场景进行了优化。
技术劣势：
- 编码和解码复杂度极高：显著高于 H.265 和 AV1，需要强大的硬件支持。
- 专利授权前景不明朗：由于是标准组织主导，其专利授权模式可能与 H.265 类似，存在潜在的专利费问题，这可能阻碍其普及。
- 生态系统尚处于早期：硬件解码、软件工具和应用支持都还在起步阶段。
应用场景：
- 未来的 8K/16K 超高清视频。
- 增强现实 (AR) / 虚拟现实 (VR)：要求极高画质和低延迟的场景。
- 医疗成像、科学可视化：对图像保真度要求严格的领域。
- 下一代广播和流媒体：长期来看替代 H.265 和 AV1。

三、常用视频编码格式对比总结

特性	H.264 / AVC	H.265 / HEVC	VP9	AV1	H.266 / VVC
发布年份	2003	2013	2013	2018	2020
压缩效率	基础标准	H.264 的 25%-50%	~ H.265	H.265 的 20%-30%	H.265 的 30%-50%
分辨率支持	HD (1080p, 720p)	4K/8K	4K/8K	4K/8K+	8K/16K+
专利/授权	需付费（复杂）	需付费（非常复杂）	免版税	免版税	需付费（前景不明）
编码复杂度	中等	高	高	极高	极高
解码复杂度	低	中等	中等	高	极高
硬件支持	极其广泛	广泛，尤其在 4K 设备上	逐步普及，Google 生态中很常见	正在普及，高端设备已支持	早期，仍在发展中
主要应用	Web 视频、蓝光、广播、移动	4K 流媒体、UHD 蓝光、高级监控	YouTube、Chrome、Android、WebRTC	下一代 Web 视频、4K/8K 流媒体	未来 8K+/VR/AR、高保真专业应用
生态系统	非常成熟	成熟	强大（Google 生态）	快速发展中（AOMedia 联盟支持）	早期，需要时间发展

四、未来趋势

视频编码技术仍在不断发展，未来的趋势包括：

更高的压缩效率：不断追求在更低码率下提供更高质量的视频，以适应 8K、甚至 16K 等更高分辨率的需求，以及日益增长的视频内容量。
更低的编码/解码复杂度：在提升压缩效率的同时，降低编解码所需的计算资源，以支持更广泛的设备。
免版税标准的崛起：AV1 的成功表明业界对开源、免版税编码标准的需求越来越高，这可能会对 H.266 等收费标准构成挑战。
人工智能/机器学习的应用：AI 技术有望在运动估计、帧内/帧间预测、码率控制等视频编码的各个环节发挥作用，进一步提升效率和质量。
针对特定应用优化：针对游戏流媒体、VR/AR、屏幕内容共享、视频会议等不同应用场景，优化编码工具以满足其特有的延迟、质量、互动性等需求。
通用媒体格式 (CMAF)：标准化媒体文件格式，使得同一套编码内容可以服务于不同的流媒体协议（如 HLS 和 DASH），提高内容分发效率。

五、总结

视频编码是数字媒体技术的核心基石。从早期的 MPEG-2 到如今的 H.264、H.265、VP9 和 AV1，以及未来的 H.266，每一代编码标准都在不断提升压缩效率和视频质量，以满足日益增长的用户需求和技术挑战。

H.264 凭借其卓越的性能和广泛的兼容性，依然是目前的主流；H.265 在 4K/HDR 领域占据一席之地，但受制于专利问题；VP9 和 AV1 作为免版税的挑战者，获得了互联网巨头的强力支持，正逐步改变 Web 视频格局；而 H.266 则代表了未来编码效率的极限，但其普及仍需克服巨大的技术和商业障碍。

了解这些主流视频编码格式的特点和应用场景，对于内容提供商、硬件制造商、软件开发者乃至普通消费者都至关重要，有助于选择最适合自己需求的视频解决方案，创造和享受更优质的数字媒体体验。