应用于捆绑的MPEG的RTP有效载荷的格式

本备忘录的状态

这份备忘录定义了一个应用于Internet业界的实验性的协议。本备忘录没有规定一个任

何种类的Internet标准。它需要得到进一步的讨论和建议。本备忘录的分发是没有限制的。

版权通告

摘要 2

1.介绍 2

2.捆绑的MPEG视频和音频的封装 3

2.1.RTP应用于BMPEG封装的固的头部 3

2.2.BMPEG头的细节: 4

3.安全性考虑 4

附录1.错误恢复(ERRORRECOVERY) 5

附录2.再同步（RESYNCHRONIZATION） 5

参考 6

作者的地址 6

摘要

这份文档描述了一种适合于捆绑的、MPEG-2编码的、可以应用RTP协议的视频和音频数

据的有效载荷类型，这是第二版。对于这种有效载荷类型，当它用于视频点播应用系统时，

捆绑具有明显的优势。当这种优势足够重要，以至于可以牺牲已分离的音频视频流的模块化

时，就可能使用这种有效载荷。

1.介绍

这份文档描述了一种适用于MPEG-2编码的、使用实时传输协议(RTP)第二版[1]的音频和

视频流的捆绑式打包方案。

MPEG-2国际标准由三个层次组成：音频，视频和系统[2]。音频和视频层定义了相应的

“基本流(elementarystreams)”的语法和语义。系统层支持多重压缩流的同步和交叉，缓

冲区的初始化和治理，以及时间的鉴定。RFC2250[3]描述了为传输单独的音频和视频基本流，

即传输流，而采用的打包技术，该流在系统层定义，使用RTP。

捆绑打包方案是必须的，因为对于某些重要的应用，它比其他的方案有几个优势。这些

应用包括了视频点播(VOD)，在那里音频和视频总是一起使用。与音频和视频和独立打包相比，

其优势在于：

1.每一个“节目”(例如捆绑的音频/视频)使用唯一的端口。这种方法增加了可服务的

流数，例如来自一个VOD服务器。而且，它消除了在客户端两个端口应用于分离的音频和视

频流时的性能碰撞。

2．提供音频和视频的显式的同步(implicitsynchronization)。当音频和视频数据以

交叉格式存储在服务器时，这是一个明显的便利。

3．减少了头部的总开销(overhead)。既然使用大包会增加丢失和延迟的影响，那么仅

有音频包需要较小的总开销增加。A/V捆绑格式可以提供总共大约1％的减少。考虑到MPEG-2

编码的素材使用高位率，例如在4Mbps时，节省的位数就是40Kbps，这可以提供可察觉的音

频或视频质量的改善。

4．可以全面地减小接收器的缓冲区大小。音频和视频流在传输时可能经历不同的延迟。

接收器的缓冲区必须设计得适合这些延迟中的最大值。例如，让我们假设使用两个缓冲区，

每一个的大小都是B，对于每个流单独传送时的概率P都是足够用的。同样大小的缓冲区能

足够接收两个流时的概率是P乘以能足够接收第一个流并能足够接收给出的第二个流的B的

条件概率。这个条件概率，一般地，比用一个较大的缓冲区达到相同的概率等级要小。

5．可以有助于控制被一个A/V节目使用的总体带宽。

并且，与传输层流的打包相比，其优势在于：

1．总开销的减少。它不包含系统层的信息，对于RTP这是多余的。（essentiallythey

addresssimilarissues）

2．更轻易进行错误恢复。因为结构化的打包与应用层分帧(applicationlayerframing

(ALF))规则相一致，丢失掩蔽(lossconcealment)和错误恢复(errorrecovery)更加简单而

有效。

2.捆绑的MPEG视频和音频的封装

视频封装遵循与在[3]中描述的适用于MPEG基流(MPEGelementarystreams)的封装相似

的规则。非凡地：

1．MPEGVideo_Sequence_Header出现的时候，将总是在一个RTP有效载荷的开始处。

2．一个MPEGGOP_header出现的时候，将总是在一个RTP有效载荷的开始处，或跟

随在一个Video_Sequence_Header的后面。

3．一个MPEGPicture_header出现的时候，将总是在一个RTP有效载荷的开始处，或

跟随在一个GOP_header的后面。

除此之外，还需要：

4．每一个包还必须包含一个整数数目的视频片断(Videoslices)。

应用程序有责任调整放置到每一个RTP包中的片断的大小和数量，这样不致于产生底层

的分段(lowerlevelfragmentation)。当传输器(transmitrer)的打包器(packetizer)的复杂度有某种

程度的增加时，这种途径可以简化接收器(receiver)。考虑到一个片断可能小到与微块

(macroblock)相同，可以防止大多数情况下的分段。假如一个包的大小超出了路径最大传输单

元(pathmaximumtransmissionunit(path-MTU))[4]，尽管该有效载荷的类型依靠于适合分段的

较低的协议层，但这可能引发综合服务的包分级(packetclassification)方面的问题(例如RSVP

方面)。

视频数据后面跟随了足够数量的完整的音频帧，能够覆盖包中的视频段的时间区间。例

如，假如第一个包包含了三个1/900秒的视频片断，并使用了44.1khz采样率的LayerI音频

编码，那么只需要有时长384/44100秒的音频包含在这个包里面。既然该音频帧的长度(8.71

msec.)比包含在该包中的视频段的长度(3.33msec.)长，那么在接下来的几个包中就可以不包

含任何的音频数帧，直到在一个包中的视频段的历时扩展到了先前传输的音频帧之外。在本

建议中，另一种选择是在“无音频”的包中重发最近的音频帧来达到包丢失的恢复(resilence)。

此外，应用程序有责任根据最小MTU的尺寸调整捆绑包的大小来避免分段。

2.1.RTP应用于BMPEG封装的固的头部

下列的RTP头部域要被使用：

有效载荷类型(PayloadType):一个独特的有效载荷类型数字，它有可能是动态的，并

应指派给BMPEG。

M位(MBit):为包含图象结尾的包而设置。

时间戳(timestamp)：32位90khz时间戳表示MPEG图象的采样时间。假如B图出现，

那么它可能不是单调增加的。对于包含同一图象的包，它都是相同的。对于仅包含一个序列、

扩展和/或GOP头的包，该时间戳是后续图象的时间戳。

2.2.BMPEG头的细节:

0123

01234567890123456789012345678901

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

PNMBZAudioLengthAudioOffset

+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

MBZ

P:图象类型Picturetype(2bits).I(0),P(1),B(2).

N:头数据改变(1bit)。假如视频序列、扩展、GOP和头数据的任何部分不同于先前传

送的头，该位将被设置。当所有的头数据被重发时，该位被重置(参阅附录1)。

MBZ:必须为0。保留作为将来使用。

AudioLength音频长度:

(10bits)以字节(byte)表示该包中音频数据的长度。音频数据的开始可以通过从

接收包的总长度中减去“AudioLength”得到。

AudioOffset音频偏移量:

(16bits)以音频采样数表示音频帧开始处与该包RTP时间戳之间的偏移量(对于

多同道源(multi-channelsources)，为达到此目的，覆盖所有通道的一组采样被

计为一个采样)。

音频偏移量在它的两种补余形式中是一个有符号整数。在44.1khz音频采样时，它答应

一个~+/-750msec的偏移。对于视频帧速率非常低的情况(例如，每秒1帧)，这个偏移量

可能是不够用的，那么这种有效载荷格式可能是不能用的。

假如B帧出现，音频帧没有和视频一起被重排序(re-ordered)。而是，它们以它们的传

输顺序与视频帧一起被打包(例如，与一个对应于P图的视频段一起打包的音频段可能属于一

个将被后来传送并应该与这个音频段同时被呈现的B图)。尽管视频段被重排序，对应于一个

特定音频段的音频偏移仍然是相对于包含该音频段的包中的RTP时间戳。

既然一个专用的图象计数器，象[3]的“时间参考”域，没有包含在这个有效载荷格式中，

丢失的GOP头可能没有被检测到。这点的唯一影响可能是对于一些编辑过的视频素材，紧跟

在丢失的GOP头后面的B图被错误地解码。

3.安全性考虑

使用在本文档中定义的有效载荷格式的RTP包服从于在RTP规范[1]中讨论的安全性考虑。

这意味着媒体流的机密性可以通过加密达到。因为这个有效载荷格式使用的数据压缩适用于

端对端(end-to-end)，加密可以在压缩之后执行，这样两种操作之间不会发生冲突。

这个有效载荷类型没有在接受端包处理的计算复杂度方面显示出任何重大的非一致性

(non-uniformity)，不会引发潜在的拒绝服务(denial-of-service)的危胁

回顾本有效载荷格式的安全性，没有发现超出RTP规范需要额外考虑的问题。

附录1.错误恢复(ErrorRecovery)

包丢失可以从RTP固定头中的序列号(sequencenumber)和时间戳(timestamp)域的组合

检测到。丢失的范围可以决定于包中的时间戳、片断号(slicenumber)和第一个片断的水平

位置(horizontallocation)。片断号和水平位置可以决定于片断头和第一个微块

(macroblock)的增量，它们都位于固定的位位置(bitpositions)。

假如组成丢失数据的片断全部来自同一个图象，那么跟随在丢失部分后面的新数据可以

简单地送到视频解码器，它通常重复前一图象中缺少的象素。下一个音频帧必须在由包含在

该接收包中的时间戳和音频偏移量决定的适当的时刻播放。适当的音频帧(例如，表现背景噪

音)可能需要回馈到音频解码器中丢失音频帧的位置，以保持口形同步(lip-synch)，和/或掩

盖丢失造成的影响。

假如在丢失之后的新数据来自下一个图象(例如，并没有丢失整个图象)且N位没有被设

置，则先前接受到的对于特定图象类型(由P位决定)的头可以送到视频解码器，后面跟随新

的数据。假如N位被设置，那么除非通过其它某个通道而使头对于接收器来说可用，否则可

以采用数据删除，直到一个新图象的起始码。

假如多于一个图象的数据被丢失并且头不可用，那么可以采用再同步

(Resynchronization)到一个新的视频序列头部，除非N为0并且对于相同类型的每一个插入

图象(interveningpicture)至少接受到一个包，且这些图象中的每一个的N位都是0。

在所有严重的包丢失的情况下，假如正确的头对于丢失的图象来说是可用的，它们可以送

到视频解码器，且可以不考虑N位的值或丢失图象的数目而使用接受到的数据。

附录2.再同步（Resynchronization）

如[3]所描述的，频繁的视频序列头的使用使任意次数地参加到节目中成为可能。它也缩

短了在严重丢失之后的再同步时间。

参考

[1]Schulzrinne,H.,Casner,S.,Frederick,R.,andV.Jacobson,

"RTP:ATransportProtocolforReal-TimeApplications",

RFC1889,January1996.

[2]ISO/IECInternationalStandard13818;"Genericcodingof

movingpicturesandassociatedaudioinformation",

November1994.

[3]Hoffman,D.,Fernando,G.,Goyal,V.,andM.Civanlar,"RTP

PayloadFormatforMPEG1/MPEG2Video",RFC2250,

January1998.

[4]Mogul,J.,andS.Deering,"PathMTUDiscovery",RFC1191,

November1990.

作者的地址

M.RehaCivanlar

AT&TLabs-Research

100SchultzDrive

RedBank,NJ07701

USA

EMail:civanlar@research.att.com

GlennL.Cash

AT&TLabs-Research

100SchultzDrive

RedBank,NJ07701

USA

EMail:glenn@research.att.com

BarryG.Haskell

AT&TLabs-Research

100SchultzDrive

RedBank,NJ07701

USA

EMail:bgh@research.att.com

Thisdocumentandtranslationsofitmaybecopiedandfurnished

toothers,andderivativeworksthatcommentonorotherwiseeXPlain

itorassistinitsimplementationmaybeprepared,copied,published

anddistributed,inwholeorinpart,withoutrestrictionofany

kind,providedthattheabovecopyrightnoticeandthisparagraph

areincludedonallsUChcopiesandderivativeworks.However,this

documentitselfmaynotbemodifiedinanyway,suchasbyremoving

thecopyrightnoticeorreferencestotheInternetSocietyorother

Internetorganizations,exceptasneededforthepurposeof

developingInternetstandardsinwhichcasetheproceduresfor

copyrightsdefinedintheInternetStandardsprocessmustbe

followed,orasrequiredtotranslateitintolanguagesotherthan

English.

Thelimitedpermissionsgrantedaboveareperpetualandwillnot

berevokedbytheInternetSocietyoritssuccessorsorassigns.

Thisdocumentandtheinformationcontainedhereinisprovidedonan

"ASIS"basisandTHEINTERNETSOCIETYANDTHEINTERNETENGINEERINGTASKFORCE

DISCLAIMSALLWARRANTIES,EXPRESSORIMPLIED,INCLUDINGBUTNOTLIMITEDTOANY

WARRANTYTHATTHEUSEOFTHEINFORMATIONHEREINWILLNOTINFRINGEANYRIGHTSOR

ANYIMPLIEDWARRANTIESOFMERCHANTABILITYORFITNESSFORAPARTICULARPURPOSE.