新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述(故障現(xiàn)象)
東區(qū)PTN-13和東區(qū)PTN-14這兩臺中興6500設(shè)備的54和55槽位共4塊單板報(bào)CPU過載告警,通過show process 命令查詢CPU利用率都在83-96之間;而平時正常CPU負(fù)荷為30-40%;這四塊單板的端口對接了四個SGW,分別為SGW65/66/69/70。
組網(wǎng)環(huán)境
華為LTE基站------------本地網(wǎng)PTN網(wǎng)絡(luò)-------------中興PTN省干------------愛立信SGW
原因分析
設(shè)備升級后才出現(xiàn)CPU使用率偏高,可能為設(shè)備軟件BUG。
解決方案
1、對其中一塊線卡進(jìn)行復(fù)位,復(fù)位后CPU使用率未降低。
2、在診斷模式下進(jìn)行分析,CPU使用率偏高為CPU受到異常報(bào)文沖擊導(dǎo)致。
3、對這兩臺設(shè)備進(jìn)行收方向抓包,發(fā)現(xiàn)收到了TTL=1的報(bào)文,并且這些報(bào)文的源IP為基站地址,目的IP為SGW的地址。正常情況下,中興省干6500設(shè)備收到的報(bào)文,源IP為SGW的地址,目的IP為華為基站的IP地址。
4、進(jìn)一步分析基站發(fā)出來的報(bào)文的目的地址,經(jīng)過分析發(fā)現(xiàn)這些地址已經(jīng)為SGW廢棄不用的地址。
5、和華為、愛立信進(jìn)一步溝通確認(rèn),華為基站默認(rèn)有記錄SGW業(yè)務(wù)地址并進(jìn)行心跳檢測的功能,而核心網(wǎng)修改不再使用的SGW地址,華為基站需要手工刪除這些地址,否則還會繼續(xù)發(fā)ping測報(bào)文進(jìn)行心跳檢測。本次問題主要是華為基站記錄了原來SGW的業(yè)務(wù)地址發(fā)送了心跳檢測報(bào)文,報(bào)文通過省干PTN傳給SGW,而SGW有默認(rèn)路由,基站發(fā)上來的報(bào)文的目的業(yè)務(wù)地址是原來核心網(wǎng)的地址,但最近核心網(wǎng)升級后,這些SGW地址已經(jīng)不再被核心網(wǎng)使用了(如:100.96.126.2/3/4/5等),所以核心網(wǎng)(SGW)收到基站發(fā)上來的報(bào)文,沒做任何處理就又用默認(rèn)路由發(fā)給省干。而省干原來配置有指向核心網(wǎng)的路由。導(dǎo)致報(bào)文又被再次傳給核心網(wǎng),相當(dāng)于路由成環(huán)。實(shí)際抓包有大量TTL=1的報(bào)文就證明這一點(diǎn)。這些路由成環(huán)的大量報(bào)文導(dǎo)致單板CPU沖高。
6、中興省干ZXCTN 6500設(shè)備升級后出現(xiàn)CPU使用率偏高,升級前為2.0版本,2.0版本對TTL=1的報(bào)文,默認(rèn)為丟棄(CPU不處理,所以不會沖高)升級到2.1版本后,根據(jù)RFC792標(biāo)準(zhǔn),2.1版本對TTL=1的報(bào)文,需要回送ICMP報(bào)文,這樣會消耗大量CPU。
7、刪除基站的心跳檢測功能中記錄的SGW業(yè)務(wù)地址(核心網(wǎng)升級后已經(jīng)不使用的地址),基站不再向核心網(wǎng)發(fā)送目的地址為“不使用的SGW地址”的心跳檢測報(bào)文后解決。