2020年6月15日,美國(guó)運(yùn)營(yíng)商T-Mobile發(fā)生了一起罕見(jiàn)的網(wǎng)絡(luò)重大事故。全國(guó)范圍內(nèi)的語(yǔ)音和短信服務(wù)中斷長(zhǎng)達(dá)12小時(shí)。事后,美國(guó)FCC主席公開(kāi)表示這起重大網(wǎng)絡(luò)事故“不可接受”,并隨后對(duì)T-Mobile展開(kāi)了調(diào)查。
全國(guó)范圍,中斷12小時(shí),連911也無(wú)法撥打......如此嚴(yán)重的網(wǎng)絡(luò)事故成為了全球運(yùn)營(yíng)商鮮活的反面教材,那背后到底是什么原因?qū)е碌模?/p>
不久前,運(yùn)營(yíng)商Orange在對(duì)這起全球矚目的重大網(wǎng)絡(luò)事故進(jìn)行研究后,詳細(xì)透露了這起事故的來(lái)龍去脈。
T-Mobile網(wǎng)絡(luò)架構(gòu)簡(jiǎn)介
T-Mobile的語(yǔ)音網(wǎng)絡(luò)包括VoLTE、VoWiFi和2/3G CS網(wǎng)絡(luò),VoLTE語(yǔ)音業(yè)務(wù)通過(guò)4G LTE基站和傳輸網(wǎng)絡(luò)連接到IMS,2/3G電路交換網(wǎng)關(guān)、WiFi網(wǎng)關(guān)與LTE核心網(wǎng)和IMS互聯(lián)互通。網(wǎng)絡(luò)內(nèi)絕大多數(shù)手機(jī)會(huì)同時(shí)注冊(cè)和連接到LTE和2/3G電路交換網(wǎng)絡(luò),如果VoLTE和VoWiFi呼叫失敗或超時(shí),或者在沒(méi)有LTE和WiFi覆蓋的情況下,手機(jī)會(huì)通過(guò)2/3G網(wǎng)絡(luò)進(jìn)行語(yǔ)音業(yè)務(wù)。
同時(shí),T-Mobile傳送網(wǎng)的路由器采用OSPF(Open Shortest Path First,開(kāi)放式最短路徑優(yōu)先)路由協(xié)議,即給每一條鏈路分配一個(gè)權(quán)重,網(wǎng)絡(luò)始終選擇一個(gè)權(quán)重最小的路徑來(lái)傳輸數(shù)據(jù)流量。
如上圖,連接每個(gè)路由器的每條鏈路都分配了一個(gè)代表其權(quán)重的數(shù)字。要將數(shù)據(jù)從西雅圖傳輸?shù)竭~阿密,網(wǎng)絡(luò)會(huì)選擇累積權(quán)重最小的路徑,即會(huì)經(jīng)由洛杉磯的路由器轉(zhuǎn)發(fā)到邁阿密。而一旦西雅圖與洛杉磯之間的鏈路中斷,網(wǎng)絡(luò)會(huì)選擇另一條累積權(quán)重最小的路由來(lái)替代,即經(jīng)由丹佛和紐約的路由器轉(zhuǎn)發(fā)到邁阿密。
故障過(guò)程分析
1、美國(guó)東部時(shí)間2020年6月15日 12:33,T-Mobile在亞特蘭大地區(qū)的VoLTE網(wǎng)絡(luò)的一條光纖傳輸鏈路發(fā)生故障。如上所述,按T-Mobile的網(wǎng)絡(luò)路由策略,當(dāng)這條鏈路發(fā)生故障后,網(wǎng)絡(luò)會(huì)根據(jù)OSPF協(xié)議重新選擇一條備用路由來(lái)傳輸數(shù)據(jù),從而緩解故障影響。
2、但萬(wàn)萬(wàn)沒(méi)想到,T-Mobile工程師當(dāng)初錯(cuò)誤配置了這條備用路由上的其中一臺(tái)路由器的權(quán)重,導(dǎo)致數(shù)據(jù)流量流向了一臺(tái)無(wú)法處理大量呼叫信令流量的路由器,使得整個(gè)亞特蘭大地區(qū)的4G語(yǔ)音和數(shù)據(jù)業(yè)務(wù)中斷。
3、亞特蘭大地區(qū)的所有4G手機(jī)向IMS發(fā)起VoLTE注冊(cè)時(shí)失敗,當(dāng)手機(jī)通過(guò)4G網(wǎng)絡(luò)注冊(cè)失敗超時(shí)后,又開(kāi)始嘗試通過(guò)Wi-Fi網(wǎng)絡(luò)向IMS重新注冊(cè),但仍然注冊(cè)失敗,從而引發(fā)了信令流量擁塞。
312:45,12分鐘后,中斷的光傳輸鏈路恢復(fù),此時(shí)通過(guò)WiFi注冊(cè)失敗的手機(jī)又重新嘗試通過(guò)VoLTE注冊(cè),但因路由器權(quán)重配置錯(cuò)誤,VoLTE重新注冊(cè)再次失敗,這進(jìn)一步加劇了信令流量擁塞。
4、此時(shí),T-Mobile工程師判斷認(rèn)為故障原因可能仍然由光傳輸故障引起,于是,又手動(dòng)關(guān)閉了這條剛恢復(fù)的光傳輸鏈路,以繼續(xù)試圖通過(guò)其他路由傳輸數(shù)據(jù)。但這讓網(wǎng)絡(luò)故障又回到了初始狀態(tài),整個(gè)亞特蘭大地區(qū)的移動(dòng)用戶無(wú)法連接4G網(wǎng)絡(luò),被迫再次通過(guò)WiFi建立呼叫,結(jié)果依然失敗..... 再次加劇信令擁塞。
5、工程師們認(rèn)識(shí)到判斷錯(cuò)誤,在一個(gè)小時(shí)后再次開(kāi)啟這條光傳輸鏈路,使得亞特蘭大地區(qū)的手機(jī)又再一次重新嘗試VoLTE注冊(cè),再再次加劇了網(wǎng)絡(luò)信令擁塞。
6、就這樣,在“Wi-Fi注冊(cè)”與“VoLTE注冊(cè)”之間來(lái)回折騰,循環(huán)“震蕩”,導(dǎo)致部署在亞特蘭大地區(qū)的IMS系統(tǒng)嚴(yán)重?fù)砣?,流量開(kāi)始重定向到其他地區(qū)的IMS注冊(cè)系統(tǒng),從而引發(fā)了信令風(fēng)暴蔓延到全國(guó)。
7、15:00左右,T-Mobile分布于全美的IMS注冊(cè)節(jié)點(diǎn)變得越來(lái)越擁塞,最終導(dǎo)致全國(guó)范圍內(nèi)的VoLTE和VoWiFi語(yǔ)音注冊(cè)失敗,從而引發(fā)了一場(chǎng)全網(wǎng)VoLTE癱瘓的重大網(wǎng)絡(luò)事故。
8、事故還在繼續(xù)蔓延。當(dāng)手機(jī)無(wú)法連接VoLTE和VoWiFi后,大量的手機(jī)回落到2/3G網(wǎng)絡(luò),這也造成了2/3G網(wǎng)絡(luò)擁塞。
9、直到6月16日凌晨1點(diǎn)左右,T-Mobile在動(dòng)用了數(shù)百名工程師之后,與供應(yīng)商和合作伙伴一起終于將問(wèn)題解決。網(wǎng)絡(luò)恢復(fù)正常。
簡(jiǎn)單的講,整個(gè)事故的過(guò)程是:
一條光纖傳輸鏈路發(fā)生中斷,同時(shí)因?yàn)槿藶榕渲缅e(cuò)誤導(dǎo)致備份鏈路也失效了,引發(fā)了信令流量風(fēng)暴蔓延全國(guó),使得全國(guó)范圍內(nèi)的IMS系統(tǒng)發(fā)生嚴(yán)重?fù)砣瑥亩鴮?dǎo)致全國(guó)范圍內(nèi)的VoLTE業(yè)務(wù)癱瘓。
一條光纖傳輸鏈路中斷,一次人為配置錯(cuò)誤,就引發(fā)一場(chǎng)如此大規(guī)模的網(wǎng)絡(luò)事故。進(jìn)入5G時(shí)代,不僅網(wǎng)絡(luò)更加復(fù)雜,而且對(duì)網(wǎng)絡(luò)的穩(wěn)定性和可靠性要求更高,這起剛好發(fā)生在5G商用元年的重大事故自然引起了全球運(yùn)營(yíng)商的高度關(guān)注。甚至有運(yùn)營(yíng)商以此為鑒,專門針對(duì)網(wǎng)絡(luò)故障展開(kāi)了專項(xiàng)研究。
希望下一次,一條小小光纖鏈路,一次不經(jīng)意的人為錯(cuò)誤,再也不會(huì)引起如此重大的網(wǎng)絡(luò)故障。
本文參考:
June 15, 2020 T-Mobile Network Outage Report,F(xiàn)CCHow the T-Mobile outage of 2020 went down,Brigette Cardinaeal ,Orange