新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
SSN2EGS2單板在OSN1500網(wǎng)元上正常運行兩個多月后,出現(xiàn)反復(fù)上報COMMU_FAIL、LP_SLM_VC12、ETH_LOS告警并且業(yè)務(wù)中斷的問題。在現(xiàn)網(wǎng)進行了軟/硬復(fù)位單板、拔插單板操作,均無法解決問題。
告警信息
COMMU_FAIL、LP_SLM_VC12、ETH_LOS。
處理過程
1、更換單板為SSN1EGS4等數(shù)據(jù)單板,SSN1EGS4上軟件做了防協(xié)議報文沖擊的保護機制,所以更換單板后問題得到解決。
2、SSN2EGS2單板軟件升級到5.51版本以上。
根因
分析單板的黑匣子,發(fā)現(xiàn)debugbuf.log中記錄了大量單板軟復(fù)位的記錄,可見的確是不斷的軟復(fù)位造成了單板反復(fù)上報COMMU_FAIL告警,這個告警表示主控與數(shù)據(jù)板的以太通訊通道發(fā)生了中斷。由于SSN2EGS2這個單板比較特殊,軟復(fù)位和硬復(fù)位的效果一樣,都會中斷業(yè)務(wù)。所以,現(xiàn)網(wǎng)EGS2單板發(fā)生反復(fù)復(fù)位故障時,業(yè)務(wù)是會反復(fù)中斷的。而反復(fù)上報的LP_SLM_VC12、ETH_LOS告警,也是單板反復(fù)軟復(fù)位所導(dǎo)致。
從debugbuf.log黑匣子記錄來看,是單板收到了大量協(xié)議報文,導(dǎo)致單板CPU占用率過高,從而發(fā)生復(fù)位。SSN2EGS2單板所采用的5.50版本軟件沒有做防協(xié)議報文沖擊的保護機制,當(dāng)網(wǎng)絡(luò)上可能因廣播風(fēng)暴產(chǎn)生大量協(xié)議報文時,CPU會無法承載負荷而復(fù)位,從黑匣子記錄也可看到軟狗復(fù)位時處理協(xié)議報文的進程占到了高達47.63%的CPU資源。所以重新拔插單板后,協(xié)議報文沖擊未解除,EGS2單板依舊會發(fā)生復(fù)位問題。
建議與總結(jié)
在應(yīng)用支路SNCP配合ODUkSNCP特性時,要注意兩種SNCP疊加配置方案的細微區(qū)別,這會對客戶側(cè)設(shè)備造成不同影響。特別是A公司的SDH設(shè)備在全球存量極大,做對接測試要注意這個問題。