每年,華為內(nèi)部網(wǎng)絡(luò)配置的變化量高達(dá)50萬(wàn)行,還要應(yīng)對(duì)數(shù)據(jù)中心搬遷以及設(shè)備替換等這樣需要在短時(shí)間內(nèi)進(jìn)行大批量策略調(diào)整的工作;每年的版本/補(bǔ)丁升級(jí)、設(shè)備替換、配置優(yōu)化以及應(yīng)急演練等變更操作超過(guò)500次。如此巨大的工作強(qiáng)度之下,網(wǎng)絡(luò)運(yùn)維人員卻只有區(qū)區(qū)10人,這是如何做到的呢?云計(jì)算時(shí)代,在業(yè)務(wù)快速增長(zhǎng)的前提下,又如何才能在不增加運(yùn)維人員的同時(shí)保持IT系統(tǒng)99.999%可用性?
從運(yùn)維的角度看云數(shù)據(jù)中心網(wǎng)絡(luò)
隨著云計(jì)算的不斷發(fā)展,云數(shù)據(jù)中心網(wǎng)絡(luò)顯現(xiàn)出4個(gè)特征:服務(wù)化、自動(dòng)化、虛擬化和智能化。服務(wù)化將網(wǎng)絡(luò)包裝成服務(wù),服務(wù)可以按需自助、彈性擴(kuò)展資源;自動(dòng)化可以實(shí)現(xiàn)網(wǎng)絡(luò)自動(dòng)部署、策略隨云而動(dòng);虛擬化通過(guò)SDN和NFV將網(wǎng)絡(luò)Underlay和Overlay分離;智能化則是指資源統(tǒng)一管理、網(wǎng)絡(luò)智能可視。這4大特征有效地支撐了云業(yè)務(wù)的快速、靈活和彈性,但是其發(fā)展卻并不均衡——面向用戶(hù)的特性往往優(yōu)先于面向運(yùn)維的,所以,網(wǎng)絡(luò)在快速云化的同時(shí),也給運(yùn)維帶來(lái)了很大挑戰(zhàn)。
- 網(wǎng)絡(luò)設(shè)備數(shù)量不斷增長(zhǎng),但是運(yùn)維人力有限;
- 網(wǎng)絡(luò)運(yùn)維自動(dòng)化程度低,仍延續(xù)“人拉肩扛”的方式;
- 網(wǎng)絡(luò)的復(fù)雜性不斷增加,對(duì)管理員的技能要求高,可用性保障困難;
- 網(wǎng)絡(luò)監(jiān)控廣度和深度不足,但告警信息卻又太多,關(guān)鍵告警被淹沒(méi)。
網(wǎng)絡(luò)運(yùn)維能力不僅意味著保障可用性,還包括如何有效提升運(yùn)維效率、提高服務(wù)水平,給用戶(hù)提供低成本、高效率和高質(zhì)量的網(wǎng)絡(luò)服務(wù)。網(wǎng)絡(luò)運(yùn)維能力是云數(shù)據(jù)中心網(wǎng)絡(luò)的核心競(jìng)爭(zhēng)力之一,未來(lái),網(wǎng)絡(luò)運(yùn)維的發(fā)展方向在于逐步實(shí)現(xiàn)自動(dòng)化、智能化和無(wú)人值守,這其中,如何構(gòu)建智能化網(wǎng)絡(luò)運(yùn)維平臺(tái)是關(guān)鍵。
每年,華為內(nèi)部網(wǎng)絡(luò)配置的變化量高達(dá)50萬(wàn)行,變更操作超過(guò)500次,網(wǎng)絡(luò)運(yùn)維人員卻只有區(qū)區(qū)10人,如此巨大的工作強(qiáng)度是如何做到的?構(gòu)建智能化網(wǎng)絡(luò)運(yùn)維平臺(tái)是關(guān)鍵。
構(gòu)建智能化網(wǎng)絡(luò)運(yùn)維平臺(tái)
智能化網(wǎng)絡(luò)運(yùn)維平臺(tái)主要瞄準(zhǔn)4個(gè)目標(biāo):秒級(jí)故障定位、分鐘級(jí)故障隔離與自愈、網(wǎng)絡(luò)質(zhì)量可預(yù)測(cè)與可優(yōu)化,以及全生命周期運(yùn)維自動(dòng)化。
華為規(guī)劃的智能化網(wǎng)絡(luò)運(yùn)維平臺(tái)(見(jiàn)下圖)由網(wǎng)絡(luò)監(jiān)控平臺(tái)、網(wǎng)絡(luò)智能分析平臺(tái)和網(wǎng)絡(luò)自動(dòng)化平臺(tái)這3大平臺(tái)組成,平臺(tái)間相互協(xié)同形成一個(gè)閉環(huán)自制的網(wǎng)絡(luò)運(yùn)維系統(tǒng),最終實(shí)現(xiàn)無(wú)人值守的目標(biāo)。
相對(duì)于傳統(tǒng)的運(yùn)維平臺(tái),智能化網(wǎng)絡(luò)運(yùn)維平臺(tái)有3個(gè)明顯的特性:
閉環(huán)的自動(dòng)化平臺(tái)
傳統(tǒng)的網(wǎng)絡(luò)運(yùn)維平臺(tái)有很多平臺(tái)和工具,他們各自工作、相互獨(dú)立。而網(wǎng)絡(luò)智能平臺(tái)首先是一個(gè)開(kāi)放的平臺(tái),網(wǎng)絡(luò)設(shè)備從添加到監(jiān)控、從信息采集和分析到告警及自愈,都能實(shí)現(xiàn)閉環(huán)的自動(dòng)化處理。
大數(shù)據(jù)平臺(tái)
- 云數(shù)據(jù)中心網(wǎng)絡(luò)的網(wǎng)元數(shù)量呈指數(shù)級(jí)增長(zhǎng),使得監(jiān)控信息也海量增長(zhǎng)。以華為IT云數(shù)據(jù)中心網(wǎng)絡(luò)監(jiān)控為例,2014年監(jiān)控的網(wǎng)絡(luò)指標(biāo)不到40000個(gè),到2017年已發(fā)展到上千萬(wàn)個(gè),這對(duì)監(jiān)控采集系統(tǒng)以及數(shù)據(jù)平臺(tái)都是一個(gè)很大的挑戰(zhàn)。
- 網(wǎng)絡(luò)監(jiān)控的深度、廣度和頻度極大提升,采集的信息更加精準(zhǔn)有效。監(jiān)控以前是只抓重點(diǎn),現(xiàn)在則是盡可能多采集信息。事實(shí)也證明,信息越多,監(jiān)控和分析就越有效。以監(jiān)控頻度為例,如果將網(wǎng)絡(luò)流量的監(jiān)控頻度由300秒/次調(diào)整到10秒/次,就會(huì)發(fā)現(xiàn)監(jiān)控流量的峰值由1.29Gbps變成了8.3Gbps,是原來(lái)的6倍,也能發(fā)現(xiàn)很多原來(lái)隱藏的問(wèn)題。
- 所有監(jiān)控?cái)?shù)據(jù)不再是孤立的存在,多個(gè)采集系統(tǒng)之間的數(shù)據(jù)可以集成,以進(jìn)行關(guān)聯(lián)分析。以前的監(jiān)控?cái)?shù)據(jù)存放在不同的網(wǎng)管工具中,SNMP、LOG等監(jiān)控都各自為政,F(xiàn)在所有的監(jiān)控?cái)?shù)據(jù)都統(tǒng)一匯總到數(shù)據(jù)平臺(tái),可以從時(shí)間、設(shè)備等維度拉通進(jìn)行分析。
智能分析平臺(tái)
- 故障預(yù)測(cè)能力。傳統(tǒng)網(wǎng)管更多提到的是監(jiān)控,但是否能在故障發(fā)生之前就知道哪里即將發(fā)生問(wèn)題并提前處理掉?現(xiàn)在不少互聯(lián)網(wǎng)企業(yè)已經(jīng)具備了硬盤(pán)的故障預(yù)測(cè)能力,準(zhǔn)確率達(dá)到90%以上。對(duì)于網(wǎng)絡(luò)來(lái)說(shuō),也有光模塊這種易耗件,以及不可預(yù)知的業(yè)務(wù)增長(zhǎng)和突發(fā),那么是否也能實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)?
- 關(guān)聯(lián)分析能力。華為在2014年的網(wǎng)絡(luò)監(jiān)控指標(biāo)還不到40000個(gè),每日告警大約40個(gè),如果不進(jìn)行優(yōu)化,當(dāng)2017年監(jiān)控指標(biāo)達(dá)到1000萬(wàn)個(gè),告警按比例會(huì)達(dá)到10000個(gè)。沒(méi)有關(guān)聯(lián)分析能力,海量監(jiān)控就會(huì)是一個(gè)災(zāi)難。
- 故障分析能力。Google認(rèn)為“任何需要人工操作的事情都只會(huì)延長(zhǎng)恢復(fù)時(shí)間。”故障自愈的前提就是故障分析能力,而大數(shù)據(jù)使得故障分析更加簡(jiǎn)單。以二層環(huán)路問(wèn)題為例,其人工定位并不復(fù)雜。以前,華為嘗試通過(guò)專(zhuān)家系統(tǒng)來(lái)實(shí)現(xiàn)自動(dòng)定位,當(dāng)出現(xiàn)問(wèn)題后,工具需要登錄設(shè)備采集信息進(jìn)行判斷,但由于工具并不知道網(wǎng)絡(luò)架構(gòu)和組網(wǎng),實(shí)現(xiàn)起來(lái)非常復(fù)雜,效率較低且準(zhǔn)確性不高;而現(xiàn)在,通過(guò)采集所有設(shè)備的接口信息,只需要基于二層環(huán)路的指標(biāo)特征進(jìn)行統(tǒng)計(jì)分析,就能快速找到引起環(huán)路的問(wèn)題點(diǎn),實(shí)現(xiàn)也變得非常簡(jiǎn)單,而且可以實(shí)時(shí)監(jiān)控。
- 業(yè)務(wù)分析能力。云的資源池跨越多個(gè)DC,如果能夠基于業(yè)務(wù)和應(yīng)用進(jìn)行智能分析,就可以知道應(yīng)用與虛擬機(jī)之間的訪(fǎng)問(wèn)頻率和流量模型,從而將關(guān)聯(lián)最密切的資源就近部署,提升應(yīng)用性能的同時(shí)節(jié)省網(wǎng)絡(luò)資源。業(yè)務(wù)分析能力不僅在資源調(diào)度方面,在安全策略智能推薦、應(yīng)用關(guān)聯(lián)分析、業(yè)務(wù)影響分析以及故障分析等方面都可以發(fā)揮積極貢獻(xiàn)。
華為在開(kāi)源Cacti工具基礎(chǔ)上對(duì)其代碼進(jìn)行了優(yōu)化,使得單臺(tái)服務(wù)器5分鐘的監(jiān)控能力從大約30萬(wàn)個(gè)提升到200萬(wàn)個(gè),監(jiān)控1000萬(wàn)個(gè)指標(biāo)從需要30多臺(tái)服務(wù)器降低到只需5臺(tái)即可。
華為IT的智能化網(wǎng)絡(luò)運(yùn)維平臺(tái)實(shí)踐
網(wǎng)絡(luò)自動(dòng)化
網(wǎng)絡(luò)自動(dòng)化可覆蓋22個(gè)運(yùn)維場(chǎng)景,包括策略增刪改、健康檢查、停電檢修和轉(zhuǎn)產(chǎn)驗(yàn)收等頻度高、重復(fù)性強(qiáng)且耗費(fèi)人力多的工作。華為每年有超過(guò)15萬(wàn)的防火墻策略調(diào)整,如果按照傳統(tǒng)的運(yùn)維模式,需要投入公司所有的運(yùn)維人力;而實(shí)現(xiàn)自動(dòng)化后,基本無(wú)需管理員干預(yù),而且還可以實(shí)現(xiàn)策略的一致性、合理性和合規(guī)性。
海量網(wǎng)絡(luò)設(shè)備的自動(dòng)化工具開(kāi)發(fā),相比于傳統(tǒng)的腳本實(shí)現(xiàn)有很多不同。設(shè)備類(lèi)型和配置方案多樣,如何實(shí)現(xiàn)一個(gè)程序在所有場(chǎng)景通用?設(shè)備數(shù)量多,如何提高程序與設(shè)備的交互效率?都是需要重點(diǎn)解決的問(wèn)題。通過(guò)規(guī)則與自動(dòng)化程序解耦、采用非阻塞的socket交互方式以及線(xiàn)程優(yōu)化控制等措施,可以實(shí)現(xiàn)20分鐘內(nèi)完成10000臺(tái)網(wǎng)絡(luò)設(shè)備的配置下發(fā)。
網(wǎng)絡(luò)監(jiān)控
如果依靠開(kāi)源Cacti工具的原生能力,單臺(tái)服務(wù)器5分鐘可以監(jiān)控的指標(biāo)大概在30萬(wàn)個(gè),要監(jiān)控1000萬(wàn)個(gè)指標(biāo)就需要30多臺(tái)服務(wù)器。華為在開(kāi)源代碼的基礎(chǔ)上對(duì)其進(jìn)行了優(yōu)化,包括優(yōu)化了數(shù)據(jù)存儲(chǔ)和告警算法、重寫(xiě)了部分模塊代碼等,使得單臺(tái)服務(wù)器5分鐘的監(jiān)控能力提升到200萬(wàn)個(gè),這樣只需5臺(tái)服務(wù)器即可監(jiān)控1000萬(wàn)個(gè)指標(biāo)。同時(shí)還設(shè)計(jì)了松耦合的Master-Slave部署架構(gòu),將監(jiān)控?cái)?shù)據(jù)的采集進(jìn)行了負(fù)載分擔(dān),并通過(guò)MySQL數(shù)據(jù)庫(kù)集群方式保證了數(shù)據(jù)模板的一致性和集中展示,使工具具備了Scaling-Out架構(gòu),前臺(tái)可以進(jìn)行數(shù)據(jù)統(tǒng)一展示查詢(xún),而后臺(tái)數(shù)據(jù)采集、SQL關(guān)系維護(hù)和數(shù)據(jù)存儲(chǔ)則可以分散部署。
華為自建了網(wǎng)絡(luò)日志系統(tǒng),可以實(shí)時(shí)收集現(xiàn)網(wǎng)設(shè)備日志,并針對(duì)關(guān)鍵字進(jìn)行監(jiān)控告警。同時(shí)還可對(duì)每天收集到的1500萬(wàn)條日志進(jìn)行預(yù)處理,一方面通過(guò)對(duì)日志的結(jié)構(gòu)化處理提取出時(shí)間、類(lèi)型、級(jí)別和關(guān)鍵字等信息;另一方面對(duì)日志進(jìn)行豐富化處理,通過(guò)與網(wǎng)絡(luò)配置庫(kù)(CMDB)對(duì)接,自動(dòng)關(guān)聯(lián)設(shè)備所屬的網(wǎng)絡(luò)和型號(hào)等信息,以增強(qiáng)日志的可讀性,支持多維度的日志信息檢索和可視化。
網(wǎng)絡(luò)智能分析
現(xiàn)在,華為云數(shù)據(jù)中心網(wǎng)絡(luò)每萬(wàn)個(gè)監(jiān)控指標(biāo)的告警量已由2014年的每天10個(gè)大幅下降到了0.5個(gè),這主要有賴(lài)于對(duì)歷史告警的大數(shù)據(jù)分析持續(xù)優(yōu)化了監(jiān)控告警閾值的設(shè)定,同時(shí)結(jié)合不同的網(wǎng)絡(luò)場(chǎng)景使用過(guò)濾、去重和Flapping抑制等方法減少了無(wú)效告警數(shù)量。
光模塊是云數(shù)據(jù)中心網(wǎng)絡(luò)中故障率最高的部件,據(jù)華為統(tǒng)計(jì),每年運(yùn)行中故障率大概在2‰。而光模塊一旦出現(xiàn)故障會(huì)造成丟包等問(wèn)題,對(duì)業(yè)務(wù)影響很大,現(xiàn)網(wǎng)中就曾經(jīng)發(fā)生過(guò)由于骨干鏈路上的一個(gè)光模塊故障導(dǎo)致網(wǎng)絡(luò)丟包、最終影響到了幾十個(gè)應(yīng)用的案例。因此,如果能通過(guò)對(duì)光模塊的檢測(cè)和預(yù)測(cè)提前識(shí)別問(wèn)題就可以避免對(duì)業(yè)務(wù)造成嚴(yán)重影響。
為此,華為對(duì)影響光模塊運(yùn)行狀態(tài)的指標(biāo)進(jìn)行了嚴(yán)密監(jiān)控,每天收集現(xiàn)網(wǎng)80000個(gè)光模塊的運(yùn)行信息,結(jié)合專(zhuān)家經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)方法發(fā)掘光模塊各指標(biāo)與異常故障之間的關(guān)聯(lián),并循環(huán)調(diào)優(yōu)檢測(cè)算法,迅速識(shí)別已經(jīng)故障的模塊;同時(shí),依靠機(jī)器學(xué)習(xí)和時(shí)間序列分析方法對(duì)未來(lái)一段時(shí)間內(nèi)的多指標(biāo)進(jìn)行預(yù)測(cè),判定光模塊的未來(lái)狀態(tài)是否滿(mǎn)足異常故障的條件,并將已故障模塊的歷史指標(biāo)序列作為輸入樣本來(lái)確定和調(diào)優(yōu)預(yù)測(cè)算法,使得目前故障光模塊的預(yù)測(cè)準(zhǔn)確性已接近50%。
云開(kāi)啟了網(wǎng)絡(luò)運(yùn)維的新篇章,華為將持續(xù)構(gòu)建智能化網(wǎng)絡(luò)運(yùn)維平臺(tái),不斷拓展自動(dòng)化、網(wǎng)絡(luò)監(jiān)控和智能分析等場(chǎng)景,形成閉環(huán)的網(wǎng)絡(luò)運(yùn)維體系,實(shí)現(xiàn)秒級(jí)故障定位、分鐘級(jí)故障隔離與自愈、網(wǎng)絡(luò)質(zhì)量可預(yù)測(cè)與可優(yōu)化,以及全生命周期運(yùn)維自動(dòng)化的目標(biāo)。讓網(wǎng)絡(luò)運(yùn)維向著無(wú)人值守這一終極目標(biāo)大步邁進(jìn)!