新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關產(chǎn)品Related Product
問題描述
客戶對網(wǎng)絡10個OSN3500組成的STM-64MSP環(huán)進行清理光纖操作時,發(fā)生MSP倒換,此時一站點部分支路板上報V5_VCAIS和TU-AIS告警??蛻魴z測用戶側(cè)業(yè)務無任何影響,告警在3分鐘內(nèi)逐漸消失。次日晚,隨客戶一起做MSP倒換測試,告警依舊,業(yè)務正常。
處理過程
根據(jù)結(jié)論將設備的主控和單板升級至V1R7版本配套。倒換測試后無任何異常告警。
根因
檢查此OSN3500設備主機版本為:5.21.13.47p01. 此設備帶擴展子架,共計各類單板72 。
1.查看資料V5_VCAIS告警表示低階通道VC-12中V5字節(jié)的第5比特到第7比特全為“1”。此告警將影響業(yè)務。
2.采集單板黑甲子bb4.log和bb9.log 經(jīng)研發(fā)分析。
3.當單板通過單板方式同時上報給主機的告警條數(shù)過大時(超過1024),就會有告警隊列溢出的現(xiàn)象,在主機Telnet上有告警隊列ID溢出的打印,導致部分告警的end消息丟棄掉(由于當時復用段倒換的時候,單板會有瞬間的業(yè)務中斷,并上報大量告警,但實際的業(yè)務只是瞬斷,沒有影響到業(yè)務和倒換測試。另外就是此網(wǎng)元單板非常的多,告警隊列溢出的可能性非常大)。4.此告警必須靠主機的1分鐘校驗事件校驗,通過3分鐘后將告警結(jié)束掉(所以看到上報的告警都在3分鐘內(nèi)結(jié)束,就是有主機在3分鐘的校驗檢測后,把其濾掉的)。
5.定位分析,提出單板用多包方式上報告警給主機,單板將打包成64告警為一包上報給主機,而主機的消息隊列是1024的長度,可以將主機的處理能力大大提高,通過測試該現(xiàn)象消失,能正常產(chǎn)生也能正常結(jié)束。
6.結(jié)論:因R1~R6未修改單板軟件用多包方式上報告警的版本,而V1R7軟件版本已經(jīng)解決單板多包方式上報。所以需要將單板升級到V1R7版本且主機配套。