加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 人員能力提升緩慢
    • 監(jiān)管能力不足
    • 管理視圖和維護視圖嚴重不一致
    • 最后用一段來自總部對當前運維囧境的總結:
  • 相關推薦
申請入駐 產業(yè)圖譜

核心網運維的窘境

2020/11/05
111
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

核心網是網絡大腦,也是 5G 使能行業(yè)數(shù)字化轉型的引擎,但現(xiàn)有運維模式通過多年的實踐,核心網運維仍存在幾大窘境。

人員能力提升緩慢

維護人員既要做分析、又要去操作,可能最后分析沒做好、操作無法落實。維護人員就是解決設備問題?,F(xiàn)有的運維機制是:設備產生告警、監(jiān)控收告警派工單、維護人員處理工單、監(jiān)控核實回單質量完成閉環(huán)??此贫嗝赐昝赖墓芾砹鞒獭嶋H上,維護人員在看到告警的時候可能無法準確定位問題根因。這就對維護人員的技能水平提出了較高的要求。只有具有較高的技能水平、多年的維護經驗,才能夠具有從虛虛實實的告警信息中分析出關鍵問題點。這僅僅是做了第一步。其次還要具備處理問題的能力。這個問題該如何處理?可能需要更換板卡的能力、可能需要聯(lián)系承載網、周邊網元協(xié)同處理等等的協(xié)同能力。

實際上,人員真實技能和實際工作技能需求的缺口始終存在。這就導致一個大家都不想看到的但又是實際存在情況:有時我們又沒做好故障分析、也沒做好故障處理。

維護人員故障處理能力的提升需要大量的案例來支撐,而實際上核心網沒有大量的故障案例來支撐大批的維護人員提升能力。這就導致:維護人員間的故障處理能力始終不是均衡的。這就好比醫(yī)生看病一樣,醫(yī)生的經驗來源于大量的臨床經驗。我們之所以相信老中醫(yī)、老醫(yī)生,是因為這些醫(yī)生處置過大量的病例(=故障案例),處置這些病例的同時也提升了醫(yī)生自身的能力和水平。如果僅僅是依靠看書學習病例,是無法顯著提升醫(yī)生的水平的。同樣的道理,維護工作也類似醫(yī)生,既需要學習也需要案例來支撐能力提升。這就是為什么一些核心網的前輩們所說的:培養(yǎng)一個成熟的核心網人員至少需要 3 年以上的原因。

監(jiān)管能力不足

現(xiàn)在的設備監(jiān)控模式是:設備產生告警然后發(fā)送給廠家 OMC,廠家 OMC 再發(fā)送給集中故障系統(tǒng),集中故障系統(tǒng)再派 EOMS 工單給維護人員(監(jiān)控人員同步人工通知部分告警情況。)這個監(jiān)控模式不僅僅適用于核心網設備,也應用于所有無線、傳輸、動力等專業(yè)的設備。不僅僅適用于網絡管理中心,也應用于所有的分公司。這個模式通過多年的運營已經暴露出至少三大主要問題:

? 第一大問題:故障通知存在時延問題

核心網不發(fā)生故障是難以實現(xiàn)的,核心網的維護目標應該定位成:不發(fā)生重大故障。重大故障不是從 0 瞬間突變成重大故障,而是從 0 變成小故障,再發(fā)展成大故障。在故障監(jiān)管上,核心網需要告警通知的時延足夠短,多短?我認為 15 分鐘以內就是目標。而實際上,現(xiàn)有的模式下部分告警時延已經超過 1 小時甚至更多。

? 第二大問題:告警沒有聚類分析,監(jiān)管無法準確定位到根因

舉一個例子:所有的核心網設備都會上承載網,就是和 CE 相連。如果 CE 出了點動靜必然導致和它相連的設備出現(xiàn)故障告警。不同類型的核心網設備同時出故障的幾率相對不大,所以這種情況下,應該同步判斷 CE 是否有故障,同步通知承載網專業(yè)。簡而言之,就是故障根因定位(尤其是跨專業(yè)的故障根因定位)在當前運維體系下至少是缺失的。這就導致監(jiān)控人員和專業(yè)人員在判斷故障的標準不一致,監(jiān)控人員判斷故障只有告警,而專業(yè)人員在故障判斷上會有多種手段。這就導致出現(xiàn)了監(jiān)控只有通知功能,無法發(fā)揮“指揮調度”功能。

? 第三大問題:監(jiān)管系統(tǒng)自身的故障將導致告警通知體系失靈

所以的設備都有故障率,區(qū)別只在于故障率的大小而已!那么,我們的故障監(jiān)控體系會不會失靈呢?監(jiān)管體系是一個依靠多專業(yè)、多人員配合的體系。多專業(yè)配合:涉及核心網設備的告警準確上報、廠家網管的穩(wěn)定運行、集中故障系統(tǒng)軟 硬件的穩(wěn)定運行等大量異廠家的配合問題。還存在中間環(huán)節(jié)的升級改造等情況。任何一個環(huán)節(jié)的失靈都將導致監(jiān)控系統(tǒng)的失靈。

管理視圖和維護視圖嚴重不一致

我舉一個例子:在一個周六的早上,有領導問我,為什么核心網的故障數(shù)量增長這么多?(指每天的監(jiān)控日報)這個事情我從接到任務開始一直弄到下午 4 點,才做完全部分析。領導的疑問在機制上至少反映了三方面問題:

? 問題 1:管理人員視圖和維護人員視圖不一致

這是什么意思呢?這個監(jiān)控日報是沒有發(fā)到維護人員手上的。維護人員沒有掌握這個生產資料,這就會導致管理人員的要求和維護人員的工作沒辦法統(tǒng)一。簡單的說,領導有這個信息,維護人員沒這個信息,維護人員可能就沒有去關注。

?? 問題 2:管理視圖和維護視圖的定位出現(xiàn)了偏差

我并非對日報本身持否定意見。我是把日報定位成管理視圖,就是領導看到的或者需要知道的信息。領導看到的信息應該是各級信息分析處理后的匯總。管理視圖的定位到底是用于驅動工作的實施還是用于獲取信息?就監(jiān)控日報而言,我覺得這個管理視圖更多的應該是用于信息總結。它還缺少一個維護人員視圖和監(jiān)控日報管理視圖相結合用于驅動工作實施。簡單的說:監(jiān)控日報現(xiàn)在的分析只是分析專業(yè)告警總量,沒有就各類設備、各臺設備的告警量進行統(tǒng)計分析。需要對各類設備、每臺設備的告警量進行分析,這些分析將用于三級經理、主管層級的管理人員實施管理,同時這個維護視圖還需要維護人員用于管理設備。而到了更高級別的領導,他們的管理視圖是具備信息下鉆的能力:既能看總量,又能看各專業(yè)的詳細分析。簡而言之,管理視圖可以直接看到具體某類、某臺設備的告警數(shù)量、類型變化以及變化趨勢,能夠直接看到責任人。而這個工作不需要人來做,而應該由系統(tǒng)自動完成。這就是最理想的情況:管理者通過管理界面可以獲取各類信息,能夠有一覽眾山小、一切盡在掌握的感覺。維護人員通過維護界面可以獲取處理問題的必要信息,越是分析到末梢越好。

最后用一段來自總部對當前運維囧境的總結:

網絡的平穩(wěn)運行仍需依靠運維人員的維護操作,無法做到即插即用、無法做到自治自愈。流程沒有端到端打通、數(shù)據和系統(tǒng)割裂,完成一個或一類任務需要跨系統(tǒng),沒有統(tǒng)一完整的視圖。規(guī)則主要靠人的經驗,支撐手段靠數(shù)據驅動、算法驅動、AI 驅動的程度不足。數(shù)據自動采集、自動呈現(xiàn)手段能力不足,大量寶貴的人力資源消耗的數(shù)據收集、整理、反饋的工作中。

面向 5G 時代,核心網的穩(wěn)定性更加重要,如何實現(xiàn)高可靠的設備穩(wěn)定性,這對網絡運維提出了更高的要求。我們不是生存在刀耕火種的年代,現(xiàn)代化的網絡運維工作必須依靠智能化的工具和系統(tǒng)來獲取運維信息、提升運維效率,同時具備自動發(fā)現(xiàn)問題、自動定位問題、自動解決問題的能力,這就是我們常說的“智慧運維”。

本文作者:liyu

網優(yōu)雇傭軍投稿郵箱:wywd11@126.com

長按二維碼關注

通信路上,一起走!

相關推薦