RTSP (Real-Time Streaming Protocol) 详解

RTSP (Real-Time Streaming Protocol) 是一种应用层协议，旨在为流媒体服务器提供对实时媒体流的控制功能。它允许客户端远程控制流媒体服务器，例如启动、暂停、快进、倒带或停止媒体流，而无需下载整个文件。RTSP 协议本身不负责传输实际的媒体数据，它主要负责媒体流的会话建立、控制和断开。实际的媒体数据通常由 RTP (Real-time Transport Protocol) 和 RTCP (RTP Control Protocol) 协议进行传输。

核心思想：RTSP 就像一个“远程遥控器”，用于指挥流媒体服务器发送或停止媒体数据，而具体的数据传输则交给其他协议（通常是 RTP/RTCP）来完成。

一、为什么需要 RTSP？

在流媒体领域，用户需要对媒体播放进行灵活的控制，类似于操作本地播放器。传统的 HTTP 协议虽然可以用于文件下载，但其“请求-响应”模式并不适合实时流媒体的互动控制：

缺乏实时控制能力：HTTP 主要用于文件传输，不支持播放、暂停、快进、倒带等实时媒体控制操作。
不适合长时间连接：HTTP 通常是短连接，每次操作都可能需要重新建立连接，效率低下。
无状态性：HTTP 的无状态特性使得维护媒体播放的上下文（如当前播放位置）变得复杂。
媒体数据与控制混淆：如果使用 HTTP 传输媒体数据并进行控制，会导致数据与控制信息混杂，难以管理。

RTSP 旨在解决这些问题，提供一种专门为流媒体设计的控制协议：

集中控制：提供标准化的命令集，用于控制媒体流的播放状态。
会话管理：支持有状态的会话，允许客户端和服务器在较长时间内维持媒体播放的上下文。
分离控制与数据：RTSP 专注于控制，将媒体数据的传输交给 RTP/RTCP，使得协议栈职责清晰。
多种传输方式：支持通过 UDP 或 TCP 传输媒体数据，适应不同的网络环境。
低延迟：通过实时控制和高效的数据传输，实现低延迟的流媒体体验。

二、RTSP 的核心概念与工作原理

2.1 核心概念

客户端-服务器模型：
- 客户端 (Client)：发起 RTSP 请求，控制媒体流播放的用户代理（如播放器、监控软件）。
- 服务器 (Server)：接收 RTSP 请求，管理媒体文件和媒体流的发送（如流媒体服务器、NVR）。
RTSP URL:
- 用于标识流媒体资源的统一资源定位符，通常以 rtsp:// 开头。
- 示例：rtsp://example.com:554/live/stream1
会话 (Session):
- RTSP 是一个有状态的协议。客户端和服务器之间通过 Session ID 标识一个特定的媒体播放会话。
- Session ID 在 SETUP 阶段由服务器生成，并在后续的所有控制请求中携带，以维持上下文。
CSeq (Command Sequence):
- 每个 RTSP 请求和响应都包含一个 CSeq 头，表示命令序列号。
- 客户端每发送一个请求，CSeq 值递增。服务器的响应必须包含与请求匹配的 CSeq，用于关联请求和响应。
传输协议 (Transport):
- RTSP 本身通常运行在 TCP (端口 554) 上，以确保控制命令的可靠性。
- 但实际的媒体数据（RTP/RTCP）可以在 UDP 或 TCP 上传输，具体通过 SETUP 方法协商。
  - UDP (推荐)：适用于对延迟敏感但允许少量丢包的场景，如实时直播。
  - TCP (RTP over RTSP/Interleaved)：当 UDP 不可用或需要穿透防火墙时使用，RTP/RTCP 数据包被封装在 RTSP 的 TCP 连接中。
SDP (Session Description Protocol):
- RTSP 通常使用 SDP 来描述媒体会话的详细信息，例如媒体类型（视频、音频）、编码格式、传输协议、端口、时间戳等。
- DESCRIBE 请求的响应中会包含 SDP 信息。

2.2 RTSP 协议栈

RTSP 协议通常与 RTP 和 RTCP 协议协同工作，形成一个完整的流媒体传输与控制体系。

    graph TD
    UserApp[用户应用程序 / 播放器] --> RTSP_Client[RTSP 客户端]
    RTSP_Client -- 控制命令 (TCP/554) --> RTSP_Server[RTSP 服务器]
    RTSP_Server -- 媒体数据 (UDP/TCP) --> RTP_RTCP_Client[RTP/RTCP 客户端]
    RTP_RTCP_Client --> UserApp

    subgraph RTSP_Server
        RTSP_Control[RTSP 控制模块]
        RTP_RTCP_Sender[RTP/RTCP 发送模块]
        Media_Source["媒体源 (文件/直播流)"]
        RTSP_Control <--> RTP_RTCP_Sender
        RTP_RTCP_Sender --> Media_Source
    end

    subgraph RTSP_Client
        RTSP_Controller[RTSP 控制模块]
        RTP_RTCP_Receiver[RTP/RTCP 接收模块]
        RTSP_Controller <--> RTP_RTCP_Receiver
    end

三、RTSP 常用方法 (Commands) 详解

RTSP 方法与 HTTP 方法类似，用于客户端向服务器发送特定指令。

3.1 `OPTIONS`

作用：查询服务器支持的 RTSP 方法。
过程：客户端发送 OPTIONS 请求，服务器在响应的 Public 头中列出其支持的方法。这是会话开始时常用的第一步。

示例：

# Client Request
OPTIONS rtsp://example.com/stream RTSP/1.0
CSeq: 1

# Server Response
RTSP/1.0 200 OK
CSeq: 1
Public: OPTIONS, DESCRIBE, SETUP, PLAY, PAUSE, TEARDOWN, GET_PARAMETER

3.2 `DESCRIBE`

作用：获取媒体流的描述信息，通常以 SDP 格式返回。
过程：客户端发送 DESCRIBE 请求，服务器响应包含媒体流的详细信息，如包含多少个音视频轨道、每个轨道的编码格式、传输端口建议等。

示例：

# Client Request
DESCRIBE rtsp://example.com/stream RTSP/1.0
CSeq: 2
Accept: application/sdp

# Server Response
RTSP/1.0 200 OK
CSeq: 2
Content-Base: rtsp://example.com/stream/
Content-Type: application/sdp
Content-Length: 460

v=0
o=- 1234567890 1234567890 IN IP4 192.168.1.100
s=Example Stream
t=0 0
a=control:*
m=video 0 RTP/AVP 96
a=rtpmap:96 H264/90000
a=fmtp:96 packetization-mode=1;profile-level-id=42001E;sprop-parameter-sets=...
a=control:trackID=0
m=audio 0 RTP/AVP 97
a=rtpmap:97 MPEG4-GENERIC/16000/2
a=fmtp:97 profile-level-id=1;mode=AAC-hbr;sizelength=13;indexlength=3;indexdeltalength=3;config=...
a=control:trackID=1

3.3 `SETUP`

作用：为单个媒体流（音轨或视频轨）建立传输会话，并协商传输参数。
过程：客户端根据 DESCRIBE 返回的 SDP 信息，为每个媒体轨道发送一个 SETUP 请求。它指定客户端用于接收 RTP/RTCP 数据的端口。服务器响应中会包含服务器用于发送数据的端口，以及一个 Session ID。

示例：

# Client Request (for video track)
SETUP rtsp://example.com/stream/trackID=0 RTSP/1.0
CSeq: 3
Transport: RTP/AVP;unicast;client_port=5000-5001

# Server Response
RTSP/1.0 200 OK
CSeq: 3
Session: 12345678;timeout=60
Transport: RTP/AVP;unicast;client_port=5000-5001;server_port=6000-6001

client_port 为客户端接收 RTP/RTCP 数据的端口范围 (RTP/RTCP)，server_port 为服务器发送 RTP/RTCP 数据的端口范围。

3.4 `PLAY`

作用：启动媒体流传输。
过程：客户端发送 PLAY 请求，指定要播放的会话 ID 和可选的播放范围。服务器开始通过 RTP/RTCP 传输媒体数据。

示例：

# Client Request
PLAY rtsp://example.com/stream RTSP/1.0
CSeq: 4
Session: 12345678
Range: npt=0- # 从头开始播放

# Server Response
RTSP/1.0 200 OK
CSeq: 4
Session: 12345678
RTP-Info: url=rtsp://example.com/stream/trackID=0;seq=12345;rtptime=67890,url=rtsp://example.com/stream/trackID=1;seq=54321;rtptime=09876

3.5 `PAUSE`

作用：暂停媒体流传输。
过程：客户端发送 PAUSE 请求，服务器暂停发送数据。

示例：

# Client Request
PAUSE rtsp://example.com/stream RTSP/1.0
CSeq: 5
Session: 12345678

# Server Response
RTSP/1.0 200 OK
CSeq: 5
Session: 12345678

3.6 `TEARDOWN`

作用：终止媒体会话，并释放所有资源。
过程：客户端发送 TEARDOWN 请求，服务器停止所有媒体传输，并关闭相关的 RTP/RTCP 连接。

示例：

# Client Request
TEARDOWN rtsp://example.com/stream RTSP/1.0
CSeq: 6
Session: 12345678

# Server Response
RTSP/1.0 200 OK
CSeq: 6
Session: 12345678

3.7 其他方法

GET_PARAMETER / SET_PARAMETER: 用于获取或设置服务器或客户端的参数，例如查询连接状态、服务器负载等。
RECORD: 用于将媒体从客户端录制到服务器，在 IP 摄像机和视频会议场景中较常见。

四、RTSP 典型会话流程

以下是一个典型的 RTSP 客户端与服务器交互的序列图：

    sequenceDiagram
    participant Client
    participant Server

    Client->>Server: OPTIONS rtsp://example.com/stream RTSP/1.0 (CSeq: 1)
    Server-->>Client: RTSP/1.0 200 OK (CSeq: 1, Public: OPTIONS, DESCRIBE, SETUP, PLAY, PAUSE, TEARDOWN)

    Client->>Server: DESCRIBE rtsp://example.com/stream RTSP/1.0 (CSeq: 2, Accept: application/sdp)
    Server-->>Client: RTSP/1.0 200 OK (CSeq: 2, Content-Type: application/sdp, SDP Body)
    Note right of Server: SDP Body describes media tracks (audio, video, ports, codecs)

    Client->>Server: SETUP rtsp://example.com/stream/trackID=0 RTSP/1.0 (CSeq: 3, Transport: RTP/AVP,unicast,client_port=5000-5001)
    Server-->>Client: RTSP/1.0 200 OK (CSeq: 3, Session: S123,timeout=60, Transport: RTP/AVP,unicast,client_port=5000-5001,server_port=6000-6001)

    Client->>Server: SETUP rtsp://example.com/stream/trackID=1 RTSP/1.0 (CSeq: 4, Session: S123, Transport: RTP/AVP,unicast,client_port=5002-5003)
    Server-->>Client: RTSP/1.0 200 OK (CSeq: 4, Session: S123, Transport: RTP/AVP,unicast,client_port=5002-5003,server_port=6002-6003)
    Note right of Server: Each media track gets its own RTP/RTCP port pair

    Client->>Server: PLAY rtsp://example.com/stream RTSP/1.0 (CSeq: 5, Session: S123, Range: npt=0-)
    Server-->>Client: RTSP/1.0 200 OK (CSeq: 5, RTP-Info: ...)
    Server-->>Client: Start sending media data via RTP/RTCP on negotiated ports

    Client->>Server: PAUSE rtsp://example.com/stream RTSP/1.0 (CSeq: 6, Session: S123)
    Server-->>Client: RTSP/1.0 200 OK (CSeq: 6)
    Server->>Client: Stop sending media data

    Client->>Server: PLAY rtsp://example.com/stream RTSP/1.0 (CSeq: 7, Session: S123, Range: npt=10-)
    Server-->>Client: RTSP/1.0 200 OK (CSeq: 7)
    Server->>Client: Resume sending media data from 10s mark

    Client->>Server: TEARDOWN rtsp://example.com/stream RTSP/1.0 (CSeq: 8, Session: S123)
    Server-->>Client: RTSP/1.0 200 OK (CSeq: 8)
    Note right of Server: Session S123 terminated, stop all RTP/RTCP streams

五、RTSP 与其他协议的关系

5.1 RTP (Real-time Transport Protocol)

作用：RTSP 用于控制媒体流，而 RTP 负责实时传输媒体数据（音频、视频）。RTP 提供时间戳、序列号等信息，帮助客户端重构媒体流并处理抖动。
关系：RTSP 通过 SETUP 方法协商 RTP 的传输参数 (如端口、传输模式)。

5.2 RTCP (RTP Control Protocol)

作用：与 RTP 协同工作，用于传输控制信息和提供 QoS (Quality of Service) 反馈。RTCP 报告包括发送方/接收方报告、丢包率等，用于监控和调整传输质量。
关系：RTSP 协商 RTP 传输时，通常也会为 RTCP 分配相邻的端口。

5.3 SDP (Session Description Protocol)

作用：描述媒体会话的参数，包括媒体类型、编码、采样率、传输协议、端口、时间信息等。
关系：RTSP 的 DESCRIBE 请求响应中，通常会携带 SDP 信息，客户端解析这些信息来了解媒体流的特性。

5.4 HTTP (Hypertext Transfer Protocol)

作用：RTSP 在语法和语义上借鉴了 HTTP，例如请求/响应模型、头部字段（如 Content-Type、Content-Length）。
关系：RTSP 专注于流媒体控制，而 HTTP 专注于文档传输。RTSP 比 HTTP 更复杂，因为它需要维护会话状态和支持实时控制命令。

六、RTSP 的优缺点与适用场景

6.1 优点：

实时控制：提供丰富的命令集（播放、暂停、快进、倒带等），实现对媒体流的精细控制。
协议分层：清晰地分离了控制和数据传输，使得协议栈职责明确，易于扩展和维护。
支持多种传输方式：媒体数据可以通过 UDP (低延迟) 或 TCP (穿透防火墙) 传输，适应不同网络条件。
标准化：作为 IETF 定义的开放标准 (RFC 2326)，有广泛的实现和互操作性。
低延迟：特别适用于对延迟要求高的场景，如直播、视频会议、IP 监控。

6.2 缺点：

复杂性：相对于 HTTP，RTSP/RTP/RTCP 协议栈更为复杂，实现和调试成本较高。
防火墙和 NAT 穿透问题：由于 RTP/RTCP 通常使用 UDP 传输，且端口是动态协商的，穿透企业防火墙和进行 NAT 转换可能面临挑战。虽然 TCP 封装（RTP over RTSP）可以缓解，但会增加开销。
浏览器不原生支持：现代浏览器不原生支持 RTSP，需要借助插件 (如 Flash, ActiveX) 或转换到 WebRTC、HLS/DASH 等技术才能在 Web 上播放。
生态系统相对缩小：在 Web 领域，由于 HLS (HTTP Live Streaming) 和 DASH (Dynamic Adaptive Streaming over HTTP) 等基于 HTTP 的流媒体技术普及，RTSP 在部分应用场景中逐渐被取代，尤其是在广域网分发和浏览器播放方面。

6.3 适用场景：

IP 监控和安防领域：IP 摄像机通常通过 RTSP 提供实时视频流，供 NVR (Network Video Recorder) 或客户端软件接入。
局域网内的实时直播：在私有网络或控制较好的网络环境中，RTSP 因其低延迟和控制能力而常用于实时音视频传输。
视频会议系统：虽然 WebRTC 更流行，但传统视频会议系统可能仍使用 RTSP/RTP/RTCP。
嵌入式设备：资源有限的嵌入式设备可能更倾向于实现 RTSP 协议。

七、安全性考虑

RTSP 协议本身没有内置强大的安全机制，因此在实际应用中需要额外考虑安全措施。

认证与授权：
- 摘要认证 (Digest Authentication)：RTSP 支持基于 HTTP Digest Authentication 的机制，客户端需要提供用户名和密码进行认证。
- 令牌 (Token) 认证：更安全的方式是在 RTSP URL 中嵌入一次性令牌或签名，或通过服务器在 SETUP 阶段生成并验证会话令牌。
- 会话劫持：Session ID 的泄露可能导致会话劫持。应确保 Session ID 的随机性和长度足够，并通过安全通道传输。
加密传输：
- RTSPS (RTSP over SSL/TLS)：类似于 HTTPS，RTSPS 通过在 TCP 连接上封装 SSL/TLS 来加密 RTSP 控制命令。
- SRTP (Secure Real-time Transport Protocol)：用于加密 RTP 媒体数据，提供机密性、消息认证和重放保护。这要求在 SETUP 阶段协商加密参数。
- 重要性：在公共网络传输敏感媒体内容或控制命令时，加密是必不可少的，以防止窃听和篡改。
DDoS 攻击：
- 恶意客户端可以向 RTSP 服务器发送大量请求，或建立大量会话而不发送 TEARDOWN，耗尽服务器资源。
- 防护：速率限制、连接数限制、源 IP 过滤、验证客户端合法性。
URL 操纵：
- 攻击者可能尝试修改 RTSP URL 参数，以访问未授权的媒体流或执行非法操作。
- 防护：服务器端对所有 URL 参数进行严格的验证和授权检查。
媒体流源认证：
- 确保媒体流确实来自合法和受信任的源，防止伪造的媒体流注入。
- 防护：对媒体流源进行认证，例如通过数字签名或 TLS 证书。

八、总结

RTSP 协议作为流媒体领域的“遥控器”，为实时音视频的传输提供了强大而灵活的控制机制。它通过与 RTP/RTCP 和 SDP 的协同工作，实现了媒体流的会话建立、播放控制和数据传输分离。尽管在 Web 领域面临 HLS/DASH 的竞争，RTSP 在 IP 监控、局域网直播和嵌入式设备等特定场景中仍然占据着重要地位。

在部署和使用 RTSP 系统时，开发者和管理员必须充分理解其工作原理，并特别关注安全性问题，通过认证、加密和访问控制等手段，确保媒体流的完整性、机密性和可用性。