新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
某局現(xiàn)網(wǎng)同一環(huán)上有5個(gè)OSN7500設(shè)備GSCC上報(bào)chip_abn告警,告警參數(shù):0x01 0x00 0x01 0x01 0xff;主機(jī)軟件:5.21.16.13。每次持續(xù)十幾秒至2分鐘之內(nèi)不等,間隔十幾分鐘上報(bào)。更換主控后(與原主控板版本一致),新?lián)Q上去的主控板又產(chǎn)生了chip_abn告警。
處理過程
1、經(jīng)過統(tǒng)計(jì)上報(bào)該告警的網(wǎng)元主控板使用的溫度芯片DS18S20為同一批次,因此更換其中一個(gè)網(wǎng)元的主控板(版本一樣,但不是同批次生產(chǎn)),但新更換的主控板很快又產(chǎn)生了chip_abn告警,排除批次溫度芯片故障因素
2、通過對(duì)上報(bào)chip_abn告警網(wǎng)元主控的工作溫度進(jìn)行采集,發(fā)現(xiàn)其工作溫度分別為16.5,19,28.5,30,28且查看現(xiàn)場(chǎng)環(huán)境未發(fā)現(xiàn)異常因素,因此排除環(huán)境因素
3、由于所用的版本5.21.16.13為主流發(fā)貨版本,且其他地方都沒有上報(bào)此告警,獨(dú)只有該局的上報(bào)告警,因此排除軟件版本問題
4、換下的單板在實(shí)驗(yàn)室一直沒有重現(xiàn)故障,最后通過研發(fā)分析,聯(lián)系到該局這幾個(gè)站點(diǎn)同時(shí)有ECC的Qufull丟包現(xiàn)象,而ECC丟包是因大數(shù)據(jù)量DCC通信引起的,而CPU的ECC處理肯定時(shí)全負(fù)荷運(yùn)行,ECC數(shù)據(jù)處理占用大量的CPU資源。研發(fā)在實(shí)驗(yàn)室用SmartBits來對(duì)網(wǎng)管以太網(wǎng)口進(jìn)行大數(shù)據(jù)量的沖擊,模擬DCC大數(shù)據(jù)量通信,CPU全負(fù)荷處理通信數(shù)據(jù),然后對(duì)此進(jìn)行驗(yàn)證,現(xiàn)象重現(xiàn)。
5、因此定位為子網(wǎng)過大,導(dǎo)致產(chǎn)生大流量的ECC通信和額外開銷,搶占了溫度巡檢的這樣的低優(yōu)先級(jí)任務(wù),造成軟件模擬溫度芯片DS18S20的時(shí)序不準(zhǔn),從而檢測(cè)到錯(cuò)誤的溫度值,導(dǎo)致chip_abn告警上報(bào)
6、劃分ecc子網(wǎng),觀察發(fā)現(xiàn)告警消失,故障解決
根因
ECC子網(wǎng)過大導(dǎo)致多個(gè)OSN7500網(wǎng)元主控上報(bào)chip_abn告警
解決方案
重新劃分ecc子網(wǎng),建議不超過64