传输设备单板缓存过小导致视频丢包问题

2019-08-27 11:43:01
C国ZL全景智真系统,由SMC2.0,VP9660MCU和TP3206三屏智真组成,一期建设完成后在使用声控切换功能时,图像出现严重花屏马赛克。
传输单板.jpg

处理过程

根据问题现象分析如下:
1、是否和声控功能有关;
2、是否和传输网络丢包有关;
3、是否会议参数导致丢包;
 
 
一 ZL一期组网如下:
客户使用场景在会议过程中使用声控切换功能,当系统检测到某个会场声音达到切换阈值时会自动广播该会场图像声音。但在使用过程中出现NX,YN等几个会场严重丢包花屏。
 
二 处理过程:
 
1 首先排除是否声控切换功能导致
    关闭系统声控切换功能,使用点名发言或广播会场,YN,NX等会场观看图像依然出现严重花屏,排除声控切换功能导致的花屏。
 
2 排查网络
怀疑网络丢包导致花屏。
 
ZL总部网络拓扑图如下:
 
 
通过分析节点2 的消息流,此时节点2同时向节点5侧发送了3路视频流(智真会场TE80终端三路码流10080、10090、10100),10080大流量为1.5M左右,10090大流量为1.8M左右,10100大流量为1.2M左右,总共4.5M少于客户网络带宽6M,如下图所示:
同时分析节点5的消息流,此时节点5同时收到了3路视频流(10080、10090、10100),10080丢包率为6.95%,10090丢包率为5.71%,10100丢包率为6.66%,如下图所示。但反方向节点5向节点2发送视频码流,节点2收到没有丢包。
 
 同时我们申请传输工程师在传输网络上测试,但传输工程师反馈传输线路时延抖动的测试结果均在标准范围内,不存在网络丢包。但在BJ和NX的监控平台上确实看到BJ发出的码流和NX收到的码流流量不对等。

下面进行网络排查测试,在节点6和节点7侧使用网络诊断工具模拟互相发送6Mbit/s码流(包长度固定为1066字节),网络工程师在节点3和节点4侧观察了流量:
节点3收到BJ侧的流量为6Mbit/s、节点3收到NX侧的流量为6Mbit/s,而节点4收到NX侧的流量为6Mbit/s、节点4收到BJ侧的流量为4Mbit/s。通过这样的测试,可以确定6Mbit/s流量时BJ到NX方向传输链路上有20%~30%的丢包。除了NX,还有YN也确定是存在同样的问题(用同样方式测试过),根据现象其他点应该也是存在同样问题。
 
通过分段定位测试得出节点3和节点4之间丢包导致图像花屏、卡顿。
 

3 、定位原因

由于定位到丢包原因可能与传输有关,协调传输和网络工程师一起定位,并在实验室搭建模拟环境测试丢包。
通过分析码流发现,TE80终端发出的瞬时码流突发状况以毫秒计算可能会有几十M,而研发发现之前传输类产品发布了一个预警公告,预警内容是关于MSTP产品EOS单板承载突发较大业务时可能丢包的风险预警通知,随着MSTP产品EOS单板承载业务类型的增多,如承载压缩视频、文件下载等存在较大突发流量的业务,当前端数据设备未配置适当流量整形,传输带宽配置存在瓶颈(接入端口带宽大于网络侧带宽)时,部分突发报文可能会被丢弃。涉及的设备为NG-SDH、Metro系列、OSN500/550、OSN9500。而正好客户主干网络使用的光端机型号为Metro 100,怀疑该款型号设备缓存过小,由于终端图像切换时瞬时码流过大导致图像花屏。
 
 

4 解决方案

    后来根据传输研发的建议,推动客户更换了新型号的光端机,加大了单板的缓存容量,丢包现象解决,问题闭环。
花屏.jpg

根因

传输设备缓存过小,导致视频码流超过阈值图像丢包花屏卡顿

建议与总结

 通过和视讯研发交流得知,我们新的TE终端相比于上一代的VCT终端更换了编解码芯片,新的芯片对于图像的清晰度,效果上相比于VCT终端会有很大的提升。但是新的芯片对于码流的控制弱于VCT终端,瞬时的码流会达到很大的峰值。这也就是为什么有些局点在很低的带宽下之前VCT终端没有严重的丢包,但是更换为TE新一代终端后反而会出现严重丢包。后续我们的TE终端也会有版本对于瞬时码流进行控制优化,同时在与客户前期的交流时,一定要提出我们设备对网络带宽的要求,尽量做到网络带宽的优条件。
相关案例