中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁 > 新聞 > 文章精選 >
 首頁 > 新聞 > 文章精選 >

云計(jì)算時(shí)代、如何實(shí)現(xiàn)智能化網(wǎng)絡(luò)運(yùn)維?

2017-08-15 09:50:35   作者:華為質(zhì)量流程與IT管理部數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維專家 孫蓉樺   來源:CTI論壇   評論:0  點(diǎn)擊:


  自2014年開啟云化轉(zhuǎn)型之路以來,華為私有云規(guī)模呈指數(shù)級增長,用戶遍布全球各個(gè)角落,承載的業(yè)務(wù)形態(tài)也日益多樣,包括了辦公、生產(chǎn)、電商、開發(fā)和測試等;與此同時(shí),云數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備每年則以50%的速度激增,目前已超過20000臺,分布在全球數(shù)十個(gè)數(shù)據(jù)中心里。
  每年,華為內(nèi)部網(wǎng)絡(luò)配置的變化量高達(dá)50萬行,還要應(yīng)對數(shù)據(jù)中心搬遷以及設(shè)備替換等這樣需要在短時(shí)間內(nèi)進(jìn)行大批量策略調(diào)整的工作;每年的版本/補(bǔ)丁升級、設(shè)備替換、配置優(yōu)化以及應(yīng)急演練等變更操作超過500次。如此巨大的工作強(qiáng)度之下,網(wǎng)絡(luò)運(yùn)維人員卻只有區(qū)區(qū)10人,這是如何做到的呢?云計(jì)算時(shí)代,在業(yè)務(wù)快速增長的前提下,又如何才能在不增加運(yùn)維人員的同時(shí)保持IT系統(tǒng)99.999%可用性?
  從運(yùn)維的角度看云數(shù)據(jù)中心網(wǎng)絡(luò)
  隨著云計(jì)算的不斷發(fā)展,云數(shù)據(jù)中心網(wǎng)絡(luò)顯現(xiàn)出4個(gè)特征:服務(wù)化、自動(dòng)化、虛擬化和智能化。服務(wù)化將網(wǎng)絡(luò)包裝成服務(wù),服務(wù)可以按需自助、彈性擴(kuò)展資源;自動(dòng)化可以實(shí)現(xiàn)網(wǎng)絡(luò)自動(dòng)部署、策略隨云而動(dòng);虛擬化通過SDN和NFV將網(wǎng)絡(luò)Underlay和Overlay分離;智能化則是指資源統(tǒng)一管理、網(wǎng)絡(luò)智能可視。這4大特征有效地支撐了云業(yè)務(wù)的快速、靈活和彈性,但是其發(fā)展卻并不均衡——面向用戶的特性往往優(yōu)先于面向運(yùn)維的,所以,網(wǎng)絡(luò)在快速云化的同時(shí),也給運(yùn)維帶來了很大挑戰(zhàn)。
  • 網(wǎng)絡(luò)設(shè)備數(shù)量不斷增長,但是運(yùn)維人力有限;
  • 網(wǎng)絡(luò)運(yùn)維自動(dòng)化程度低,仍延續(xù)“人拉肩扛”的方式;
  • 網(wǎng)絡(luò)的復(fù)雜性不斷增加,對管理員的技能要求高,可用性保障困難;
  • 網(wǎng)絡(luò)監(jiān)控廣度和深度不足,但告警信息卻又太多,關(guān)鍵告警被淹沒。
  網(wǎng)絡(luò)運(yùn)維能力不僅意味著保障可用性,還包括如何有效提升運(yùn)維效率、提高服務(wù)水平,給用戶提供低成本、高效率和高質(zhì)量的網(wǎng)絡(luò)服務(wù)。網(wǎng)絡(luò)運(yùn)維能力是云數(shù)據(jù)中心網(wǎng)絡(luò)的核心競爭力之一,未來,網(wǎng)絡(luò)運(yùn)維的發(fā)展方向在于逐步實(shí)現(xiàn)自動(dòng)化、智能化和無人值守,這其中,如何構(gòu)建智能化網(wǎng)絡(luò)運(yùn)維平臺是關(guān)鍵。
  每年,華為內(nèi)部網(wǎng)絡(luò)配置的變化量高達(dá)50萬行,變更操作超過500次,網(wǎng)絡(luò)運(yùn)維人員卻只有區(qū)區(qū)10人,如此巨大的工作強(qiáng)度是如何做到的?構(gòu)建智能化網(wǎng)絡(luò)運(yùn)維平臺是關(guān)鍵。
  構(gòu)建智能化網(wǎng)絡(luò)運(yùn)維平臺
  智能化網(wǎng)絡(luò)運(yùn)維平臺主要瞄準(zhǔn)4個(gè)目標(biāo):秒級故障定位、分鐘級故障隔離與自愈、網(wǎng)絡(luò)質(zhì)量可預(yù)測與可優(yōu)化,以及全生命周期運(yùn)維自動(dòng)化。
  華為規(guī)劃的智能化網(wǎng)絡(luò)運(yùn)維平臺(見下圖)由網(wǎng)絡(luò)監(jiān)控平臺、網(wǎng)絡(luò)智能分析平臺和網(wǎng)絡(luò)自動(dòng)化平臺這3大平臺組成,平臺間相互協(xié)同形成一個(gè)閉環(huán)自制的網(wǎng)絡(luò)運(yùn)維系統(tǒng),最終實(shí)現(xiàn)無人值守的目標(biāo)。
  相對于傳統(tǒng)的運(yùn)維平臺,智能化網(wǎng)絡(luò)運(yùn)維平臺有3個(gè)明顯的特性:
  閉環(huán)的自動(dòng)化平臺
  傳統(tǒng)的網(wǎng)絡(luò)運(yùn)維平臺有很多平臺和工具,他們各自工作、相互獨(dú)立。而網(wǎng)絡(luò)智能平臺首先是一個(gè)開放的平臺,網(wǎng)絡(luò)設(shè)備從添加到監(jiān)控、從信息采集和分析到告警及自愈,都能實(shí)現(xiàn)閉環(huán)的自動(dòng)化處理。
  大數(shù)據(jù)平臺
  • 云數(shù)據(jù)中心網(wǎng)絡(luò)的網(wǎng)元數(shù)量呈指數(shù)級增長,使得監(jiān)控信息也海量增長。以華為IT云數(shù)據(jù)中心網(wǎng)絡(luò)監(jiān)控為例,2014年監(jiān)控的網(wǎng)絡(luò)指標(biāo)不到40000個(gè),到2017年已發(fā)展到上千萬個(gè),這對監(jiān)控采集系統(tǒng)以及數(shù)據(jù)平臺都是一個(gè)很大的挑戰(zhàn)。
  • 網(wǎng)絡(luò)監(jiān)控的深度、廣度和頻度極大提升,采集的信息更加精準(zhǔn)有效。監(jiān)控以前是只抓重點(diǎn),現(xiàn)在則是盡可能多采集信息。事實(shí)也證明,信息越多,監(jiān)控和分析就越有效。以監(jiān)控頻度為例,如果將網(wǎng)絡(luò)流量的監(jiān)控頻度由300秒/次調(diào)整到10秒/次,就會發(fā)現(xiàn)監(jiān)控流量的峰值由1.29Gbps變成了8.3Gbps,是原來的6倍,也能發(fā)現(xiàn)很多原來隱藏的問題。
  • 所有監(jiān)控?cái)?shù)據(jù)不再是孤立的存在,多個(gè)采集系統(tǒng)之間的數(shù)據(jù)可以集成,以進(jìn)行關(guān)聯(lián)分析。以前的監(jiān)控?cái)?shù)據(jù)存放在不同的網(wǎng)管工具中,SNMP、LOG等監(jiān)控都各自為政,F(xiàn)在所有的監(jiān)控?cái)?shù)據(jù)都統(tǒng)一匯總到數(shù)據(jù)平臺,可以從時(shí)間、設(shè)備等維度拉通進(jìn)行分析。
  智能分析平臺
  • 故障預(yù)測能力。傳統(tǒng)網(wǎng)管更多提到的是監(jiān)控,但是否能在故障發(fā)生之前就知道哪里即將發(fā)生問題并提前處理掉?現(xiàn)在不少互聯(lián)網(wǎng)企業(yè)已經(jīng)具備了硬盤的故障預(yù)測能力,準(zhǔn)確率達(dá)到90%以上。對于網(wǎng)絡(luò)來說,也有光模塊這種易耗件,以及不可預(yù)知的業(yè)務(wù)增長和突發(fā),那么是否也能實(shí)現(xiàn)精準(zhǔn)預(yù)測?
  • 關(guān)聯(lián)分析能力。華為在2014年的網(wǎng)絡(luò)監(jiān)控指標(biāo)還不到40000個(gè),每日告警大約40個(gè),如果不進(jìn)行優(yōu)化,當(dāng)2017年監(jiān)控指標(biāo)達(dá)到1000萬個(gè),告警按比例會達(dá)到10000個(gè)。沒有關(guān)聯(lián)分析能力,海量監(jiān)控就會是一個(gè)災(zāi)難。
  • 故障分析能力。Google認(rèn)為“任何需要人工操作的事情都只會延長恢復(fù)時(shí)間。”故障自愈的前提就是故障分析能力,而大數(shù)據(jù)使得故障分析更加簡單。以二層環(huán)路問題為例,其人工定位并不復(fù)雜。以前,華為嘗試通過專家系統(tǒng)來實(shí)現(xiàn)自動(dòng)定位,當(dāng)出現(xiàn)問題后,工具需要登錄設(shè)備采集信息進(jìn)行判斷,但由于工具并不知道網(wǎng)絡(luò)架構(gòu)和組網(wǎng),實(shí)現(xiàn)起來非常復(fù)雜,效率較低且準(zhǔn)確性不高;而現(xiàn)在,通過采集所有設(shè)備的接口信息,只需要基于二層環(huán)路的指標(biāo)特征進(jìn)行統(tǒng)計(jì)分析,就能快速找到引起環(huán)路的問題點(diǎn),實(shí)現(xiàn)也變得非常簡單,而且可以實(shí)時(shí)監(jiān)控。
  • 業(yè)務(wù)分析能力。云的資源池跨越多個(gè)DC,如果能夠基于業(yè)務(wù)和應(yīng)用進(jìn)行智能分析,就可以知道應(yīng)用與虛擬機(jī)之間的訪問頻率和流量模型,從而將關(guān)聯(lián)最密切的資源就近部署,提升應(yīng)用性能的同時(shí)節(jié)省網(wǎng)絡(luò)資源。業(yè)務(wù)分析能力不僅在資源調(diào)度方面,在安全策略智能推薦、應(yīng)用關(guān)聯(lián)分析、業(yè)務(wù)影響分析以及故障分析等方面都可以發(fā)揮積極貢獻(xiàn)。
  華為在開源Cacti工具基礎(chǔ)上對其代碼進(jìn)行了優(yōu)化,使得單臺服務(wù)器5分鐘的監(jiān)控能力從大約30萬個(gè)提升到200萬個(gè),監(jiān)控1000萬個(gè)指標(biāo)從需要30多臺服務(wù)器降低到只需5臺即可。
  華為IT的智能化網(wǎng)絡(luò)運(yùn)維平臺實(shí)踐
  網(wǎng)絡(luò)自動(dòng)化
  網(wǎng)絡(luò)自動(dòng)化可覆蓋22個(gè)運(yùn)維場景,包括策略增刪改、健康檢查、停電檢修和轉(zhuǎn)產(chǎn)驗(yàn)收等頻度高、重復(fù)性強(qiáng)且耗費(fèi)人力多的工作。華為每年有超過15萬的防火墻策略調(diào)整,如果按照傳統(tǒng)的運(yùn)維模式,需要投入公司所有的運(yùn)維人力;而實(shí)現(xiàn)自動(dòng)化后,基本無需管理員干預(yù),而且還可以實(shí)現(xiàn)策略的一致性、合理性和合規(guī)性。
  海量網(wǎng)絡(luò)設(shè)備的自動(dòng)化工具開發(fā),相比于傳統(tǒng)的腳本實(shí)現(xiàn)有很多不同。設(shè)備類型和配置方案多樣,如何實(shí)現(xiàn)一個(gè)程序在所有場景通用?設(shè)備數(shù)量多,如何提高程序與設(shè)備的交互效率?都是需要重點(diǎn)解決的問題。通過規(guī)則與自動(dòng)化程序解耦、采用非阻塞的socket交互方式以及線程優(yōu)化控制等措施,可以實(shí)現(xiàn)20分鐘內(nèi)完成10000臺網(wǎng)絡(luò)設(shè)備的配置下發(fā)。
  網(wǎng)絡(luò)監(jiān)控
  如果依靠開源Cacti工具的原生能力,單臺服務(wù)器5分鐘可以監(jiān)控的指標(biāo)大概在30萬個(gè),要監(jiān)控1000萬個(gè)指標(biāo)就需要30多臺服務(wù)器。華為在開源代碼的基礎(chǔ)上對其進(jìn)行了優(yōu)化,包括優(yōu)化了數(shù)據(jù)存儲和告警算法、重寫了部分模塊代碼等,使得單臺服務(wù)器5分鐘的監(jiān)控能力提升到200萬個(gè),這樣只需5臺服務(wù)器即可監(jiān)控1000萬個(gè)指標(biāo)。同時(shí)還設(shè)計(jì)了松耦合的Master-Slave部署架構(gòu),將監(jiān)控?cái)?shù)據(jù)的采集進(jìn)行了負(fù)載分擔(dān),并通過MySQL數(shù)據(jù)庫集群方式保證了數(shù)據(jù)模板的一致性和集中展示,使工具具備了Scaling-Out架構(gòu),前臺可以進(jìn)行數(shù)據(jù)統(tǒng)一展示查詢,而后臺數(shù)據(jù)采集、SQL關(guān)系維護(hù)和數(shù)據(jù)存儲則可以分散部署。
  華為自建了網(wǎng)絡(luò)日志系統(tǒng),可以實(shí)時(shí)收集現(xiàn)網(wǎng)設(shè)備日志,并針對關(guān)鍵字進(jìn)行監(jiān)控告警。同時(shí)還可對每天收集到的1500萬條日志進(jìn)行預(yù)處理,一方面通過對日志的結(jié)構(gòu)化處理提取出時(shí)間、類型、級別和關(guān)鍵字等信息;另一方面對日志進(jìn)行豐富化處理,通過與網(wǎng)絡(luò)配置庫(CMDB)對接,自動(dòng)關(guān)聯(lián)設(shè)備所屬的網(wǎng)絡(luò)和型號等信息,以增強(qiáng)日志的可讀性,支持多維度的日志信息檢索和可視化。
  網(wǎng)絡(luò)智能分析
  現(xiàn)在,華為云數(shù)據(jù)中心網(wǎng)絡(luò)每萬個(gè)監(jiān)控指標(biāo)的告警量已由2014年的每天10個(gè)大幅下降到了0.5個(gè),這主要有賴于對歷史告警的大數(shù)據(jù)分析持續(xù)優(yōu)化了監(jiān)控告警閾值的設(shè)定,同時(shí)結(jié)合不同的網(wǎng)絡(luò)場景使用過濾、去重和Flapping抑制等方法減少了無效告警數(shù)量。
  光模塊是云數(shù)據(jù)中心網(wǎng)絡(luò)中故障率最高的部件,據(jù)華為統(tǒng)計(jì),每年運(yùn)行中故障率大概在2‰。而光模塊一旦出現(xiàn)故障會造成丟包等問題,對業(yè)務(wù)影響很大,現(xiàn)網(wǎng)中就曾經(jīng)發(fā)生過由于骨干鏈路上的一個(gè)光模塊故障導(dǎo)致網(wǎng)絡(luò)丟包、最終影響到了幾十個(gè)應(yīng)用的案例。因此,如果能通過對光模塊的檢測和預(yù)測提前識別問題就可以避免對業(yè)務(wù)造成嚴(yán)重影響。
  為此,華為對影響光模塊運(yùn)行狀態(tài)的指標(biāo)進(jìn)行了嚴(yán)密監(jiān)控,每天收集現(xiàn)網(wǎng)80000個(gè)光模塊的運(yùn)行信息,結(jié)合專家經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)方法發(fā)掘光模塊各指標(biāo)與異常故障之間的關(guān)聯(lián),并循環(huán)調(diào)優(yōu)檢測算法,迅速識別已經(jīng)故障的模塊;同時(shí),依靠機(jī)器學(xué)習(xí)和時(shí)間序列分析方法對未來一段時(shí)間內(nèi)的多指標(biāo)進(jìn)行預(yù)測,判定光模塊的未來狀態(tài)是否滿足異常故障的條件,并將已故障模塊的歷史指標(biāo)序列作為輸入樣本來確定和調(diào)優(yōu)預(yù)測算法,使得目前故障光模塊的預(yù)測準(zhǔn)確性已接近50%。
  云開啟了網(wǎng)絡(luò)運(yùn)維的新篇章,華為將持續(xù)構(gòu)建智能化網(wǎng)絡(luò)運(yùn)維平臺,不斷拓展自動(dòng)化、網(wǎng)絡(luò)監(jiān)控和智能分析等場景,形成閉環(huán)的網(wǎng)絡(luò)運(yùn)維體系,實(shí)現(xiàn)秒級故障定位、分鐘級故障隔離與自愈、網(wǎng)絡(luò)質(zhì)量可預(yù)測與可優(yōu)化,以及全生命周期運(yùn)維自動(dòng)化的目標(biāo)。讓網(wǎng)絡(luò)運(yùn)維向著無人值守這一終極目標(biāo)大步邁進(jìn)!
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點(diǎn)判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題