视频通信技术的新发展 [复制链接]

welf

军衔等级：

上将

发表于 2005-1-7 09:05:00 |显示全部楼层

近 10 年以来，视频通信发展较快，业务范围日渐扩大，表现为以下几方面。

1 ．视频会议　　

　　利用视频数字压缩技术和传输技术，可使不同地点的人员犹如在一个会议室一样召开会议，节省了大量时间、费用，特别在争取时间、集思广益作决策时更显示其重要性。目前我国从中央到省、市以至县都已大量应用。

2 ．视频电话　　

　　视频电话原来也叫可视电话，除了面对面的通话功能外，现正发展成具有各种信息交互和任意切换功能的个人信息终端，可以进行视频通话，还可召开多人发言的会议，支撑多路视频图像，具有电子文档共享，浏览网页等功能。

3 ．远程学习和培训　　

　　由于技术、管理体制等不断发展、更新，在职人员的培训、学习极其重要。目前，我国有的企业已经开始利用视频通信网络对职工进行远程培训教育。国外非常重视这种远程培训，我国还需加强。

4 ．远程医疗　　

　　可利用视频设备和网络进行远程医疗，这对于我国农村广大地区医疗水平相对较低、农民经济水平相对不高的情况十分适宜，应该大力推广。

5 ．网上游戏　　

　　计算机游戏市场十分巨大，只要组织和引导得好，对寓教育于游戏、丰富年轻人的生活、培养下一代有十分重要的意义和价值，在我国需进一步大力发展。

6 ．视频点播　　

　　数字电视的发展已迫在眉睫，怎样通过网络和视频点播方式让老百姓看到高质量、低价格、内容丰富健康的数字影片已是一个亟待解决的问题。

　　视频压缩技术

1 ．多编码模式的自适应选择　　

　　由于视频信息的内容千变万化，很难用一种固定的模型进行描述。有人为此进行过大量的尝试都失败了，有人甚至认为 “ 视频压缩 ” 不是一门科学。其实视频信息的规律就是多变，一幅图像内容可能是平坦的，也可能是多细节的；可能是静止的，也可能是运动的；而且同一幅图像中各个部分可能又是极不相同的。针对这种复杂情况，为了保证压缩质量，唯一的办法是把图像分成许多大小不同的块，对各个块按不同内容自适应地采取不同的编码模式。　　

　　在Ｈ． 261 ，Ｈ． 263 ，ＭＰＥＧ－ 1 ，ＭＰＥＧ－ 4 中，把图像分成 8×8 或 16×16 的方块，然后对各个方块视其内容分成帧内、帧间、跳帧等不同编码模式。在Ｈ． 264 中，则更进一步细化成 4×4 方块，从而编码模式更能适应于内容的变化，如帧间编码用 INTER 表示，帧内编码用 INTRA 表示，跳帧用ＳＫＩＰ表示。　　

　　在Ｈ． 264 中采用了以下多种编码模式。　　

　　（ 1 ）帧内编码　　

　　帧内编码有 INTRA － 4×4 ， INTRA － 16×16 ， INTRA －ＰＣＭ，ＳＫＩＰ等。在帧内编码中，采用空间域的预测， INTRA － 4×4 中视内容不同又可进一步分成利用邻近像素的垂直预测、水平预测等 9 种预测模式， INTRA － 16×16 则用于平坦区， INTRA －ＰＣＭ则采用直接传送像素不进行预测，以上共有 12 种不同编码模式。　　

　　（ 2 ）帧间编码　　

　　帧间编码有 INTER － 16×16 ， INTER － 16×8 ， INTER － 8×16 ， INTER － 8×8 ，还有 INTER － 8×8 的子模式，即 INTER － 8×8 ， INTER － 8×4 ， INTER － 4×8 ， INTER － 4×4 等 8 种。　　

　　（ 3 ）帧编码和场编码自适应方式选择　　

　　对于运动量较小的，则帧编码时邻行之间空间相关性大，故采用帧编码；对于运动量大的，则场编码邻行间的时间相关性大，故采用场编码。由于一帧中有一部分内容运动量大，有一部分内容运动量小，则又可在帧编码中进一步分成图像自适应帧场（ PAFF ）和宏块自适应帧场（ＭＢＡＦＦ）等共三种模式。　　

　　如此众多的编码模式，根据内容的运动状况、细节等不同，采用自适应选择方式，视频质量显然可提高，但计算量也很大。

2 ．多种预测精度　　

　　（ 1 ） 1 ／ 4 象素精度的预测　　

　　过去，只采用整像素或 1 ／ 2 像素的精度进行预测，在Ｈ． 264 中可采用 1 ／ 4 像素精度进行预测。众所周知，预测精度越高，则压缩比越高。Ｈ． 264 中曾建议用 1 ／ 8 像素精度预测，后来停止使用的原因是太高的精度使编码复杂度增加，但压缩比增加不多。　　

　　（ 2 ）多参考帧选择　　

　　过去，在Ｈ． 261 等标准中，运动补偿时只选用前一帧作参考帧。为了进一步提高预测精度，Ｈ． 264 中可选用多至前后 5 帧的多参考帧（见图 1 ）。

3 ．熵编码自适应技术　　

　　视频信息（或残差信息）经变换、量化后，利用熵编码可进一步压缩码率。以往在熵编码时由于只采用一张固定的码表，无法适应视频信息本身的统计特性，因此压缩比不高。　　

　　在Ｈ． 264 中采用了两种自适应的熵编码：上下文自适应变长编码（ＣＡＶＬＣ）和上下文自适应二进制算术编码（ＣＡＢＡＣ），它们都利用待编码视频信息邻近已编码像素的统计特性，因而码率压缩比（编码效率）进一步提高，而后者编码效率更高，但计算更复杂些。

　　．Ｒ－Ｄ优化技术　　

　　由信息论可知，在一定失真Ｄ下，传输码率有一个最小值Ｒ，这时，如传送更低码率，其失真必大于Ｄ，也就是说Ｒ与Ｄ之间有一个优化的问题。大家的任务是在一定的传输码率Ｒ的限制下要求失真最小，即视频质量最好（见图 2 ）。

　　仔细分析发现，这个问题十分复杂，牵涉到视频编码中一系列问题，首先是选择编码模式。如上所述，编码模式的种类很多，随着视频内容不同而不同。其次还有编码参数的选择，如多种量化节距（量化步长）、多种变换方式（ＤＣＴ、小波变换 …… ）、多种熵编码方法等。　　

　　最近发展了一种利用拉格兰其的Ｒ－Ｄ优化算法，其大体步骤如下（以帧间编码为例）：　　

· 找出以Ｒ－Ｄ优化为目标的运动矢量ｍｉ（这和以往的按当前宏块与参考宏块之间误差最小的目标是不同的）；

　　其中， M 为可能的编码模式集合，其失真项为：

　　其中，ｓ，ｓ＇分别为当前块和参考块，Ａｉ，ｘ，ｙ分别为当前块及其中的像素值， λ ＭＯＴＩＯＮ为选择运动矢量的拉格兰其常数。　　

　　上述公式，可选出Ｒ－Ｄ优化时的运动矢量ｍｉ。　　

· 选择编码参数量化值Ｑ（在编码模式已自适应选择时），利用拉格兰其方法实现Ｒ一定条件下，失真Ｄ最小，具体说是拉格兰其代价函数ＪＭＯＤＥ最小。

· 通过调整Ｑ值，计算出ＤＲＥＣ和 RREC ，最后得到ＪＭＯＤＥ最小值，于是得到Ｒ－Ｄ最优时的Ｑ值。　　

　　由以上可见，其计算量是相当大的。

5 ．视频信号的去方块后处理　　

　　为了提高视频质量，从根本上说，应使接收者的人眼在视觉上享受到一种高质量的图像。因此，现在发展一种解码环路的去方块滤波器，它既能滤去由于编码造成的人为的方块效应，又能保留原图像中应有的细节、边缘等。　　

　　综上可见，目前的视频压缩编码技术已有了重大进展，在同样码率下，利用以上新的编码技术，相对于Ｈ． 263 或ＭＰＥＧ－ 4 可使码率降低一半，或者说同样码率下，峰值信噪比约有 2 ｄＢ的提高，其代价是复杂度高（即计算量大）。由于高速 DSP 技术也有了重大进展，这类复杂度的问题应该说是可以解决的，当然对其编码方法的优化仍有不少工作需做。

　　ＩＰ和无线网络下的视频传输技术

1 ．ＩＰ网络的视频传输　　

　　这里的ＩＰ网络主要是公用的ＩＰ网，即 INTER ｎｅｔ网。由于网络资源是共享的，当流量突然增大时往往导致网络的拥塞和缓存的溢出，于是丢包、误码等很容易发生。除以往编码标准中已有的多种图像分割、帧内片插入等防止误码扩散外，Ｈ． 264 中还包括如下各项。　　

　　（ 1 ）参数组　　

　　序列参数组包括有关属于该序列的图像信息，而图像参数组则包含所有属于该图像的所有条（ｓｌｉｃｅ）信息，它们都有不同的序列号位置，并放在每一编码片的片头上，由于有序号，这就可用来增强误码的恢复能力。　　

　　（ 2 ）灵活的宏块排序（ＦＭＯ）　　

　　ＦＭＯ（如图 3 ）中一个图像由 6×4 ＭＢ组成，其中黑片和白片各属不同的共两个片，这种ＦＭＯ的宏块组成方式，显然可以提高抗误码能力。例如黑片丢失，即使黑片中所有宏块全丢失，也可利用领域的相关性，采用掩盖技术，由白片很容易得到近似的丢失的黑宏块，人眼几乎觉察不出已发生了丢包。　　

　　（ 3 ）冗余片（ＲＳ）　　

　　编码时在同一比特流中除基本信息（采用较低Ｑ值）外，还包括冗余信息（采用较高的Ｑ值），例如解码时，如基本片丢失，还可重建冗余片，从而得到一个较 “ 粗 ” 的重建图像。　　

　　（ 4 ）网络自适应层（ＮＡＬ）句法结构　　

　　ＮＡＬ和以往标准不同，在Ｈ． 264 中设置ＮＡＬ层，把一个数据包（采用ＲＴＰ／ＲＴＣＰ规程）放在一个ＮＡＬ单元中，它的句法结构可适用于各种不同网络，它的头信息结构见图 4 ，全长 8 ｂｉｔ，其中Ｔ为类型，长 5 ｂｉｔ，包括 32 个不同类型的ＮＡＬ单元；Ｒ为 2 ｂｉｔ，指示该ＮＡＬ单元的重要性，分四个等级，用于不同的误码保护；Ｆ为 1 ｂｉｔ，指示该单元是否有误码（正常为 0 ，误码为 1 ）。可见ＮＡＬ的句法结构充分考虑到不同网络环境下的误码保护。

2 ．无线网络的视频传输　　

　　（ 1 ）传输包和片都应较短　　

　　不同误码格式和不同包长其丢包率是不同的（见表 1 ）。



传输包短些，则丢包率低些，包长 1 000 Ｂ时丢包率低于 5 ％（见图 5 ）。带有包的片也自然不宜长，设片的目的是防止了误码扩散，因为片本身是自我包含的，不能利用其他片来预测当前片。　　

　　（ 2 ）瞬时解码更新（ＩＤＲ）　　

　　除了有规则的帧内编码插入以防止误码扩散，还应配有解码的瞬时更新，以防预测误码的进一步扩散。　　

　　（ 3 ）ＦＥＣ， ARQ 及误码跟踪的组合　　

　　前向纠错（ＦＥＣ）已广泛地用于检测和纠正误码，在Ｈ． 261 和Ｈ． 263 中，利用（ 511 ， 493 ）的ＢＣＨ码，可纠正每个包 2 ｂｉｔ随机误码，但不能纠正突发误码。帧交织可缓解这个问题，但它会带来一定时延，在实时视频通信不宜采用ＦＥＣ。由于视频流中各个符号在不同位置重要性不同，可利用ＦＥＣ对重要的符号进行不等误码保护（ＶＥＰ）。　　

　　自动重复要求（ ARQ ）也是通信中已被广泛应用的纠错技术，它能有效地恢复丢失的包和纠正突发误码，但它需要有一个反馈信道，因此广播电视中不能采用该技术。 ARQ 另一个问题是环路时延较长。　　

　　误码跟踪是另一种减少误码的方法，它利用从 ARQ 得到的丢包信息跟踪解码器性能，并采用帧内方块停止误码扩散，但它需要容量较大的缓存器。　　

　　把ＦＥＣ， ARQ 和误码跟踪等技术很好地组合起来，可获得相当好的抗误码效果。　　

　　（ 4 ）低时延的 ARQ 技术　　

　　如上所述， ARQ 会引入较大时延，为此，某些文献提出了一种无线环境下低时延的 ARQ 技术，即在基站设置一个视频代理服务器，它可适用于Ｈ． 261 ，Ｈ． 263 ，ＭＰＥＧ－ 1 ，ＭＰＥＧ－ 2 ，ＭＰＥＧ－ 4 以及Ｈ． 264 中。对 “ Ｆｏｒｅｍａｎ ” 视频序列的实验表明，在随机误比特率 10 － 3 的恶劣环境下，利用该技术，亮度信号的ＰＳＮＲ仅降低 0 ． 35 ｄＢ。　　

　　无线视频通信网络见图 6 ，时延Ｔ ARQ 见公式（ 8 ）：　

　　其中，ｐ为丢包率，Ｔ环为环路时延。　　

　　如在基站设置 ARQ 代理服务器，则可减少Ｔ ARQ 。分析得到：

　　其中，Ｐ ω1 ，Ｐ ω2 为无线链路的丢包率，Ｐｇ为有线链路的丢包率。Ｔ ω1 ｎｅｔ，Ｔ ω2 ｎｅｔ为无线传输时延，Ｔｇｎｅｔ为有线网络传输时延。 200 ｍｓ，又设无线环境下丢包率Ｐ ω1 ＝Ｐ ω2 ＝ 2×10 － 2 ，有线网络丢包率Ｐｇ＝ 10 － 6 ，则设置 ARQ 视频代理服务器平均时延Ｔ ARQ2 ＝ 0 ． 82 ｍｓ，而不设 ARQ 代理服务器，由公式（ 8 ）可得点到点的Ｔ ARQ ＝ 18 ｍｓ。可见，不设和设代理服务器，其Ｔ ARQ 差 22 倍。当然这是理想值。但可见，这种设 ARQ 代理服务器后时延减少确是不争的事实，从而可在视频实时通信中利用 ARQ 和 FEC 等。

　　复杂度估计　　

　　由上述视频压缩技术的新发展，可知视频压缩比和质量都有了显著提高，但其代价是计算量大，复杂度高。随着 DSP 技术的进一步发展，现在已开发了若干高速视频处理芯片，如 TI 企业的 DM642 和ＥＱＡＴＯＲ企业的 BSP － 15 等，其运算能力均在 4 000 ＭＩＰＳ以上，能满足Ｈ． 264 等高速需求。当然，优化和改进这些新编码算法仍有不少工作要做。

举报本楼

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-11-15 18:00 , Processed in 0.221853 second(s), 17 queries , Gzip On.

Discuz Licensed

回顶部

XML 地图 | Sitemap 地图

		自动登录	找回密码
密码			注册