近期,日本電信運(yùn)營(yíng)商KDDI和加拿大電信運(yùn)營(yíng)商Rogers相繼出現(xiàn)斷網(wǎng)事件,網(wǎng)絡(luò)中斷時(shí)間長(zhǎng),波及面積大,影響范圍廣,引起了全球電信行業(yè)的普遍關(guān)注。通常而言,運(yùn)營(yíng)商對(duì)于電信網(wǎng)絡(luò)質(zhì)量有著較高要求,不會(huì)輕易出現(xiàn)故障問(wèn)題。那么,向來(lái)以質(zhì)量可靠著稱的電信網(wǎng)絡(luò)為何出現(xiàn)重大質(zhì)量事故?電信級(jí)的高可靠網(wǎng)絡(luò)服務(wù)在網(wǎng)絡(luò)IT化、云化的時(shí)代如何繼續(xù)保持?
斷網(wǎng)事故接連發(fā)生
加拿大三大電信運(yùn)營(yíng)商之一的Rogers近期出現(xiàn)大規(guī)模斷網(wǎng)事故,該公司遍布加拿大全境的無(wú)線網(wǎng)絡(luò)用戶、有線電視用戶和互聯(lián)網(wǎng)用戶都受到影響,與此相關(guān)聯(lián)的公共服務(wù)公司也因?yàn)榫W(wǎng)絡(luò)故障而不得不停止服務(wù),缺少通信和網(wǎng)絡(luò)的社會(huì)毫無(wú)征兆地進(jìn)入了“停擺”狀態(tài)。根據(jù)互聯(lián)網(wǎng)檢測(cè)公司NetBlocks在推特上發(fā)布的信息,該故障影響了加拿大近1/4可監(jiān)測(cè)到的連接。
與此相類似,日本電信運(yùn)營(yíng)商KDDI在7月初也出現(xiàn)了通信中斷故障。該故障影響了約1/3的日本人口,且持續(xù)時(shí)間很長(zhǎng),時(shí)隔86小時(shí)網(wǎng)絡(luò)才全面恢復(fù)。信息社會(huì)對(duì)網(wǎng)絡(luò)和通信的依賴放大了故障的影響,不要說(shuō)電子商務(wù)、移動(dòng)支付、電子門票、電子政務(wù)、遠(yuǎn)程辦公、在線教育、視頻直播等應(yīng)用,就連搶險(xiǎn)救災(zāi)、醫(yī)療救助、氣候預(yù)警等緊急需求,也都被迫進(jìn)入非正常的狀態(tài)。
加拿大創(chuàng)新、科技及工業(yè)部長(zhǎng)François-Philippe Champagne對(duì)Rogers斷網(wǎng)事故發(fā)表評(píng)述:“這一不可接受的局面說(shuō)明了,為什么質(zhì)量、選擇多樣性和可靠性在電信網(wǎng)絡(luò)中如此關(guān)鍵。”
在隨后的一份聲明中,Rogers的CEO Tony Staffieri將可能導(dǎo)致斷網(wǎng)的原因范圍縮小到了核心網(wǎng)絡(luò)的維護(hù)升級(jí),以及由此所導(dǎo)致的路由器工作異常。他還提出將更為深入地定位問(wèn)題的根源,并通過(guò)增加冗余的方式避免故障的重復(fù)出現(xiàn)。Tony Staffieri說(shuō)道:“我們將采取所有必要的舉措,持續(xù)加大網(wǎng)絡(luò)投資,以強(qiáng)化系統(tǒng)、增加網(wǎng)絡(luò)健壯性,并加強(qiáng)相關(guān)的網(wǎng)絡(luò)測(cè)試。”
從這段簡(jiǎn)短的表述中,我們可以解讀出一些重要信息:第一,該網(wǎng)絡(luò)中斷不是因?yàn)樵馐芡獠抗羲?,而是因?yàn)閮?nèi)部升級(jí)引起的,換句話說(shuō),這是一個(gè)“主動(dòng)”變化所引起的;第二,通過(guò)冗余方式能夠避免故障的重現(xiàn),說(shuō)明網(wǎng)絡(luò)中某些關(guān)鍵部分存在單點(diǎn)故障的風(fēng)險(xiǎn);第三,“加強(qiáng)測(cè)試”,可能意味著在“主動(dòng)”變化后缺乏相關(guān)的測(cè)試,沒(méi)有及時(shí)發(fā)現(xiàn)問(wèn)題或是為變化的回退留出余地;第四,“持續(xù)加大網(wǎng)絡(luò)投資”,可能意味著當(dāng)前對(duì)網(wǎng)絡(luò)可靠性/健壯性的投入不足。
電信網(wǎng)絡(luò)IT化的必然挑戰(zhàn)
在服務(wù)中斷的時(shí)候,網(wǎng)絡(luò)服務(wù)的可靠性以及出現(xiàn)故障后的及時(shí)恢復(fù)、自愈、防災(zāi)備份等問(wèn)題,充分凸顯出來(lái)——尤其在電信系統(tǒng)IT化、云化的過(guò)程中,這些問(wèn)題需要得到特別的關(guān)注。傳統(tǒng)電信網(wǎng)絡(luò)的設(shè)計(jì)思路與IT網(wǎng)絡(luò)是不相同的。電信級(jí)服務(wù)對(duì)可靠性和容災(zāi)有著嚴(yán)苛的要求,這就需要電信網(wǎng)絡(luò)從各個(gè)層面提供可靠性和容災(zāi)保護(hù),包括服務(wù)器設(shè)備、網(wǎng)卡設(shè)備、交換機(jī)設(shè)備、交換機(jī)鏈路、網(wǎng)關(guān)設(shè)備,至少要提供“1+1”的冗余。除此之外,還要提供高效的備份恢復(fù)能力、異地容災(zāi)能力。
在虛擬層面,配置虛機(jī)的重生和自愈等要提供自動(dòng)化的網(wǎng)絡(luò)調(diào)整能力。IT化、云化的進(jìn)程與這樣的理念有可能有個(gè)磨合的過(guò)程。因?yàn)閺腎T化的機(jī)制角度看,原先網(wǎng)絡(luò)資源是稀缺的,很多服務(wù)質(zhì)量方面的工作可以交給端側(cè)來(lái)解決,“盡力服務(wù)(Best-Effort)”是網(wǎng)絡(luò)設(shè)計(jì)的出發(fā)點(diǎn)?;ヂ?lián)網(wǎng)遵循“邊緣”設(shè)計(jì)原則,其特征是網(wǎng)絡(luò)傳輸采用無(wú)連接分組交換,高層功能放置在網(wǎng)絡(luò)邊緣,按“盡力服務(wù)”原則向用戶提供服務(wù)。這種設(shè)計(jì)方式能夠讓服務(wù)的承載呈現(xiàn)出分布式特點(diǎn),盡管在服務(wù)資源不足的情況下,可能會(huì)因?yàn)榉?wù)請(qǐng)求的丟棄導(dǎo)致服務(wù)等級(jí)的下降,然而這樣的“去中心化”在一定程度上分散了大規(guī)模阻斷的風(fēng)險(xiǎn)。在電信網(wǎng)絡(luò)IT化和互聯(lián)網(wǎng)化的趨勢(shì)下,如何做好網(wǎng)絡(luò)架構(gòu)的合理規(guī)劃、平衡好投入與可靠性是需要面對(duì)的挑戰(zhàn)。
海因里希法則適用于此
當(dāng)談及網(wǎng)絡(luò)服務(wù)中斷時(shí),我們需要關(guān)注海因里希法則。海因里希法則是指,當(dāng)一個(gè)企業(yè)有300起隱患或違章,還有很大可能要發(fā)生29起輕傷或故障,另外再有一起重傷、死亡事故。對(duì)于企業(yè)的安全管理或者服務(wù)安全管理而言,這一法則是道理相通的,即在一起重大事故的背后必有29起輕度事故,還有300個(gè)潛在的隱患。
實(shí)際上,在快速發(fā)展的網(wǎng)絡(luò)經(jīng)濟(jì)中,運(yùn)營(yíng)商的業(yè)務(wù)發(fā)展和網(wǎng)絡(luò)運(yùn)維也面臨著快速迭代的問(wèn)題,這些變化過(guò)程中的隱患常會(huì)被發(fā)展的壓力所掩蓋。海因里希法則指出,在所有發(fā)生的事故中,“未遂事故”雖然沒(méi)有造成巨大損失,但其發(fā)生的原因和發(fā)展的過(guò)程與重大事故是一致的。而如果沒(méi)有意外事件中斷“未遂事故”的發(fā)展,那么極有可能出現(xiàn)重大事故。因此必須對(duì)“未遂事故”進(jìn)行深入研究,探討其發(fā)生的原因和發(fā)展的規(guī)律,進(jìn)而采取相應(yīng)措施,消除事故原因或中斷事故發(fā)展進(jìn)程,達(dá)到控制和預(yù)防事故的目的。
根據(jù)海因里希法則,在同類事故中,“未遂事故”和輕傷事故發(fā)生的可能性要比嚴(yán)重傷害事故大得多,對(duì)“未遂事故”的關(guān)注和研究是控制嚴(yán)重事故發(fā)生的重要手段,必需要找好快速迭代與對(duì)“未遂事故”進(jìn)行透徹分析之間的平衡點(diǎn)。
諸多潛在問(wèn)題值得重視
從需求的角度,我們必須了解運(yùn)營(yíng)商所面臨的境地:網(wǎng)絡(luò)故障是不可避免的。這其中最重要的原因在于業(yè)務(wù)的變化和發(fā)展導(dǎo)致了頻繁的網(wǎng)絡(luò)調(diào)整,組網(wǎng)需求在這樣的環(huán)境下快速變化。與此同時(shí),云化和虛擬化給網(wǎng)絡(luò)帶來(lái)了更多的復(fù)雜性,伴隨著NFV、切片和微服務(wù)等技術(shù)的引入,網(wǎng)絡(luò)的管理愈加復(fù)雜,管理對(duì)象增多使得變更操作愈加頻繁。運(yùn)營(yíng)商在如此復(fù)雜的環(huán)境中進(jìn)行大量變更操作,很難做到在制定方案時(shí)遍歷所有的業(yè)務(wù)和服務(wù)場(chǎng)景,更難對(duì)功能性或非功能性要求進(jìn)行精準(zhǔn)測(cè)算。
這樣的復(fù)雜度給實(shí)施變化的人帶來(lái)了更多發(fā)生過(guò)失的可能,很大比例的網(wǎng)絡(luò)事故都是在變更過(guò)程中人為操作失誤引起的。而所謂專家,或者有經(jīng)驗(yàn)的網(wǎng)絡(luò)人員,也都是在處理這些故障和事故中不斷成長(zhǎng)起來(lái)的。電信網(wǎng)絡(luò)運(yùn)行涉及的環(huán)節(jié)和設(shè)備較多,具有很高的復(fù)雜性。一旦在運(yùn)行中某一環(huán)節(jié)或者設(shè)備出現(xiàn)問(wèn)題,就會(huì)對(duì)整個(gè)通信網(wǎng)絡(luò)系統(tǒng)造成嚴(yán)重影響,導(dǎo)致出現(xiàn)通信網(wǎng)絡(luò)節(jié)點(diǎn)失衡的情況。因此在電信網(wǎng)絡(luò)的運(yùn)維中,全程全網(wǎng)的概念很重要。
大部分情況下,由于服務(wù)和業(yè)務(wù)的高可用設(shè)計(jì),對(duì)于進(jìn)行網(wǎng)絡(luò)調(diào)整時(shí)出現(xiàn)的故障,用戶不見(jiàn)得有直觀感受。例如服務(wù)器出現(xiàn)問(wèn)題,集群內(nèi)其他服務(wù)器就會(huì)接管業(yè)務(wù);傳輸出現(xiàn)中斷,業(yè)務(wù)承載就能夠智能地調(diào)度到備用傳輸系統(tǒng)上;甚至業(yè)務(wù)平臺(tái)出現(xiàn)問(wèn)題,也能夠通過(guò)調(diào)度將業(yè)務(wù)承載到災(zāi)備環(huán)境上。更何況,運(yùn)營(yíng)商還有完善的服務(wù)熱線等溝通手段,在用戶服務(wù)質(zhì)量下降或短時(shí)間服務(wù)中斷的情況下,也能通過(guò)有效溝通的方式舒緩用戶的焦慮和不滿。
比較可怕的是故障出現(xiàn)在網(wǎng)絡(luò)核心位置時(shí),運(yùn)營(yíng)商無(wú)法像處理邊緣故障那樣解開(kāi)耦合;或者業(yè)務(wù)的接管機(jī)制出現(xiàn)問(wèn)題時(shí),業(yè)務(wù)的處理無(wú)法切換到正常網(wǎng)元上;甚至出現(xiàn)類似加拿大的案例,業(yè)務(wù)中斷后形成“業(yè)務(wù)風(fēng)暴”——運(yùn)營(yíng)商的“規(guī)模”會(huì)給這些場(chǎng)景下的故障恢復(fù)提出更多挑戰(zhàn)。
值得重視的是,“可用性悖論”也需要考慮。隨著網(wǎng)絡(luò)管理的智慧化發(fā)展,其更多地通過(guò)專業(yè)的系統(tǒng)開(kāi)展,網(wǎng)元的底層操作會(huì)被封裝。在網(wǎng)絡(luò)狀態(tài)良好時(shí),網(wǎng)絡(luò)管理系統(tǒng)可用可看;當(dāng)網(wǎng)絡(luò)發(fā)生故障時(shí),網(wǎng)絡(luò)管理系統(tǒng)可能因?yàn)榫W(wǎng)絡(luò)阻斷或者網(wǎng)元不可及等原因,不能繼續(xù)有效發(fā)揮作用,進(jìn)而無(wú)法對(duì)網(wǎng)絡(luò)進(jìn)行必要的配置以使其恢復(fù)正常。這時(shí)可能需要運(yùn)維人員繞開(kāi)網(wǎng)絡(luò)管理系統(tǒng)進(jìn)行相對(duì)底層的故障排除操作。這對(duì)操作復(fù)雜度、操作效率、操作人員的經(jīng)驗(yàn)等又提出了新的挑戰(zhàn)。
此外,新的安全隱患問(wèn)題(IT化帶來(lái)的網(wǎng)絡(luò)安全問(wèn)題、各類網(wǎng)絡(luò)攻擊等)也是運(yùn)營(yíng)商在IT化和互聯(lián)網(wǎng)化過(guò)程中需要面對(duì)的新課題——而這又是不確定性非常強(qiáng)的領(lǐng)域,運(yùn)營(yíng)商之前的積累比較薄弱。
邊緣計(jì)算的用武之地
盡管云化對(duì)于追求更為合理架構(gòu)的運(yùn)營(yíng)商而言成為趨勢(shì),然而在數(shù)據(jù)可靠性層面,云架構(gòu)同樣存在需要解決的問(wèn)題。尤其是在那些數(shù)據(jù)量大、數(shù)據(jù)敏感度高、數(shù)據(jù)安全性要求高的場(chǎng)景,云架構(gòu)的實(shí)現(xiàn)方式需要把可靠性作為非常重要的因素,畢竟“云端”的故障有可能給用戶業(yè)務(wù)帶來(lái)很大的威脅。
2018年6月,阿里云曾出現(xiàn)技術(shù)故障,而阿里云最終將其定義為S1級(jí)別事故——核心業(yè)務(wù)重要功能不可用,影響了部分用戶,造成了一定損失。2019年3月3日,阿里云發(fā)布公告,稱華北2地域可用區(qū)C部分的ECS服務(wù)器(云服務(wù)器)等實(shí)例出現(xiàn)IO HANG(IO不響應(yīng))。在云計(jì)算服務(wù)市場(chǎng),無(wú)論是AWS、Google Cloud還是Azure的服務(wù),都曾經(jīng)因?yàn)?a class="article-link" target="_blank" href="/tag/%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%BF%83/">數(shù)據(jù)中心硬件問(wèn)題、硬盤故障或是自動(dòng)化失效等問(wèn)題而受到影響。因此,在云服務(wù)架構(gòu)下,即便故障率在服務(wù)提供商所承諾的0.01%以下,即便云服務(wù)商在故障出現(xiàn)時(shí)也都有相應(yīng)的容災(zāi)方案,在不少應(yīng)用場(chǎng)景下業(yè)務(wù)的中斷還是會(huì)給用戶帶來(lái)巨大損失。因此,業(yè)務(wù)架構(gòu)在集中化的同時(shí)也需要著重考慮業(yè)務(wù)風(fēng)險(xiǎn)分擔(dān)的問(wèn)題。
在此情況下,邊緣計(jì)算(MEC)將有一定的用武之地。邊緣計(jì)算改變了只有云端作為“大腦”、“管道”和“端系統(tǒng)”智能程度不足的狀況,使“端”變成了輔助“大腦”工作的“智能神經(jīng)網(wǎng)絡(luò)”。這樣一來(lái),邊緣服務(wù)在終端設(shè)備上運(yùn)行,反饋更迅速,解決了時(shí)延問(wèn)題,使得一些工業(yè)應(yīng)用場(chǎng)景成為可能。另一方面,邊緣計(jì)算將內(nèi)容與計(jì)算能力下沉,提供智能化的流量調(diào)度,業(yè)務(wù)實(shí)現(xiàn)了本地化,內(nèi)容實(shí)現(xiàn)了本地緩存,解決方案的效率得到了顯著提升。此外,邊緣計(jì)算還有著豐富的應(yīng)用場(chǎng)景設(shè)計(jì)。邊緣計(jì)算作為一種開(kāi)放的IT體系架構(gòu),能夠向第三方提供開(kāi)放接口,引入外部專業(yè)力量開(kāi)發(fā)功能和服務(wù)。這種模式有可能引發(fā)商業(yè)模式變革,刺激并促進(jìn)產(chǎn)業(yè)發(fā)展。
總結(jié)
網(wǎng)絡(luò)服務(wù)中斷可以從各種角度進(jìn)行反思,有幾點(diǎn)值得關(guān)注。
第一,“連接”在信息通信產(chǎn)業(yè)價(jià)值鏈上仍然具有舉足輕重的地位,值得運(yùn)營(yíng)商高度關(guān)注。盡管在一段時(shí)間內(nèi)業(yè)務(wù)的拓展似乎成為運(yùn)營(yíng)商擺脫“管道宿命”的重心,然而一旦“連接”出現(xiàn)問(wèn)題,運(yùn)營(yíng)商就會(huì)喪失安身立命之本。因此,時(shí)時(shí)用海因里希法則來(lái)審視自己存在的問(wèn)題非常必要。
第二,運(yùn)營(yíng)商在業(yè)務(wù)及網(wǎng)絡(luò)架構(gòu)演進(jìn)的過(guò)程中,要充分理解海因里希法則,在投入資源、采取快速迭代方法對(duì)“未遂事故”進(jìn)行徹底分析后,找到合理的方式;同時(shí)充分評(píng)估服務(wù)質(zhì)量下降與服務(wù)中斷帶來(lái)的損失,在演進(jìn)過(guò)程中尋求可靠且經(jīng)濟(jì)的路徑。
第三,用系統(tǒng)性、長(zhǎng)期演進(jìn)的眼光來(lái)觀察運(yùn)營(yíng)商IT化進(jìn)程,充分關(guān)注云架構(gòu)與邊緣計(jì)算帶來(lái)的機(jī)會(huì)。
作者:云晴
責(zé)編/版式:沈新竹
審核:申晴
監(jiān)制:劉啟誠(chéng)