不能懵,華為現(xiàn)在帶你一起,十問數(shù)據(jù)中心!
人人聊,家家說,AI在數(shù)據(jù)中心真的落地了嗎?
自從AlphaGo戰(zhàn)勝了柯潔和李世石,如果一個(gè)科技圈或創(chuàng)業(yè)圈的精英不會(huì)聊兩句AI,出門兒都不好意思跟人打招呼。無比敬崗愛崗的數(shù)據(jù)中心從業(yè)者們當(dāng)然也不能放著這么好的技術(shù)不琢磨,不過關(guān)于AI與數(shù)據(jù)中心,說了不少,也聽了很多。但新技術(shù)只有應(yīng)用,創(chuàng)造出價(jià)值,才有繼續(xù)優(yōu)化和演進(jìn)的可能。
問:所以現(xiàn)在AI在數(shù)據(jù)中心真的落地了嗎,應(yīng)用了有什么好處?
答:落地了,實(shí)踐證明,AI是數(shù)據(jù)中心難得的行業(yè)轉(zhuǎn)折機(jī)遇,AI將使能數(shù)據(jù)基礎(chǔ)設(shè)施價(jià)值最大化。
問:那怎么用AI實(shí)現(xiàn)價(jià)值最大化呢?
答:以下有幾個(gè)經(jīng)過驗(yàn)證的標(biāo)準(zhǔn)答案,要不借你“Ctrl C”一下。
1、讓AI時(shí)時(shí)給數(shù)據(jù)中心做CT
主動(dòng)預(yù)防,安全可靠
安全運(yùn)行對(duì)數(shù)據(jù)中心的重要性不言而喻,業(yè)界在提升數(shù)據(jù)中心可靠性和可用性方面已有實(shí)踐,例如收集供配電系統(tǒng)設(shè)備信息,對(duì)即將發(fā)生故障的設(shè)備和部件提前發(fā)出預(yù)警,為運(yùn)維人員的運(yùn)維活動(dòng)提供決策支撐,但是如何利用機(jī)器的自我學(xué)習(xí)能力,做到供配電系統(tǒng)整體運(yùn)行的安全可靠,是需要思考的重點(diǎn)問題。要實(shí)現(xiàn)更高程度的智能化及主動(dòng)避錯(cuò),這對(duì)AI技術(shù)應(yīng)用是個(gè)很好的契機(jī)。
華為融入AI性能的iPower技術(shù)可提升數(shù)據(jù)中心可用性,借助智能化硬件,實(shí)現(xiàn)智能故障定位與預(yù)警管理,引入大數(shù)據(jù)技術(shù),智能分析每日海量的運(yùn)維數(shù)據(jù),識(shí)別機(jī)房潛在隱患,保障數(shù)據(jù)中心的可靠運(yùn)行。
iPower智能供配電技術(shù)以模塊化UPS為核心,主要通過供電全鏈路監(jiān)測、預(yù)警和故障自動(dòng)隔離等手段,提高數(shù)據(jù)中心能源基礎(chǔ)設(shè)施可用性,繼而通過AI技術(shù)的應(yīng)用,最終實(shí)現(xiàn)預(yù)測性維護(hù)。
iPower通過供電全鏈路監(jiān)測,可實(shí)現(xiàn)毫秒級(jí)的故障檢測,毫秒級(jí)的故障隔離,分鐘級(jí)的故障恢復(fù),可消除火災(zāi)隱患,大大提高數(shù)據(jù)中心能源基礎(chǔ)設(shè)施可靠性和可用性;
以電池管理為例,在預(yù)防電池失效方面,iPower通過AI技術(shù),可以精確預(yù)測電池的壽命和健康度,為用戶提前提供維護(hù)決策依據(jù),及時(shí)排除有失效隱患的電池組,變事后補(bǔ)救為事前預(yù)防,變被動(dòng)響應(yīng)為主動(dòng)維護(hù),大大提高數(shù)據(jù)中心供配電安全等級(jí)。華為的模塊化UPS結(jié)合iPower技術(shù),可以在電池出現(xiàn)溫度快速升高等極端情況下,自動(dòng)切斷該組電池,從而避免出現(xiàn)起火等惡性事件。
2、讓AI給數(shù)據(jù)中心做管家
智能營維,自動(dòng)高效
數(shù)據(jù)中心傳統(tǒng)的維護(hù)方法是靠人,失誤率大、漏錯(cuò)率高、失效排查時(shí)間長,傳統(tǒng)運(yùn)維方式無法解決人為誤操作帶來的業(yè)務(wù)中斷問題。
融入AI性能的 iManager,可看作是數(shù)據(jù)中心的大腦,借助智能化硬件和傳感器,實(shí)現(xiàn)精準(zhǔn)感知。通過自動(dòng)化手段,逐步減少人工巡檢等例行重復(fù)性工作,池化專家資源和能力,并固化于運(yùn)維流程中。
加上全流程的電子運(yùn)維,包括巡檢、維保、應(yīng)急演練,把所有的流程以及操作指導(dǎo)全部做到線上,實(shí)現(xiàn)了運(yùn)維質(zhì)量從原來靠人的責(zé)任心到現(xiàn)在靠流程管理的轉(zhuǎn)變。通過全流程電子化的運(yùn)維跟蹤,量化原來無法量化的信息,比如通過電子運(yùn)維提升巡檢的執(zhí)行力和運(yùn)維活動(dòng)的質(zhì)量、實(shí)現(xiàn)故障的預(yù)測等,大幅提高人均運(yùn)維效率和運(yùn)維水平,提升數(shù)據(jù)中心的可靠性。
此外,市場上出現(xiàn)了越來越多由邊緣計(jì)算產(chǎn)生的邊緣數(shù)據(jù)中心機(jī)房,就近提供服務(wù)和處理計(jì)算。邊緣數(shù)據(jù)中心數(shù)量日益增長,分行、支行、網(wǎng)點(diǎn)等數(shù)據(jù)中心無法統(tǒng)一集中管理,數(shù)據(jù)中心故障響應(yīng)速度慢,運(yùn)維效率低。
華為iManager全網(wǎng)管理功能,實(shí)現(xiàn)對(duì)多網(wǎng)點(diǎn)數(shù)據(jù)中心基礎(chǔ)設(shè)施進(jìn)行集中監(jiān)控,統(tǒng)一管理,實(shí)現(xiàn)預(yù)防性維護(hù),通過GIS定位技術(shù)提高故障定位響應(yīng)速度,提升數(shù)據(jù)中心運(yùn)維效率;移動(dòng)APP監(jiān)控,從內(nèi)到外簡化管理,輕松知曉海量網(wǎng)點(diǎn)數(shù)據(jù)中心運(yùn)行情況,擺脫傳統(tǒng)人工的運(yùn)維檢修方式,降低維護(hù)下站次數(shù)和節(jié)省開支,讓數(shù)據(jù)中心管理變得更加簡單、高效。
華為iManager還能對(duì)資產(chǎn)進(jìn)行盤查,保證設(shè)備的完整性,保護(hù)重要數(shù)據(jù)。另外,還可以對(duì)資產(chǎn)匹配最適宜的供電、制冷、空間、帶寬等資源,實(shí)現(xiàn)資源的最佳利用,利用AI技術(shù),可協(xié)助對(duì)資產(chǎn)上下架和運(yùn)營進(jìn)行智能化的管理,提升運(yùn)營效率和效益。
3、AI給數(shù)據(jù)中心唱首“涼涼”
降耗增效,綠色節(jié)能
能耗問題一直是數(shù)據(jù)中心關(guān)注的焦點(diǎn),傳統(tǒng)數(shù)據(jù)中心年平均PUE高于1.8,隨著越來越多AI應(yīng)用的落地,業(yè)界對(duì)高速計(jì)算的需求日漸增多,GPU計(jì)算服務(wù)器的規(guī)模和需求將持續(xù)增長,加速計(jì)算服務(wù)器產(chǎn)生的熱能是傳統(tǒng)CPU的數(shù)倍,如何解決服務(wù)器的散熱問題將是未來的重要考量。目前已有的智能DC節(jié)能技術(shù)可以通過傳感器獲取關(guān)鍵節(jié)點(diǎn)數(shù)據(jù),進(jìn)而優(yōu)化所有系統(tǒng)和設(shè)備的整體能耗,降低PUE。
而AI能否深入數(shù)據(jù)中心內(nèi)核,帶來更低PUE?華為作為ICT行業(yè)的領(lǐng)導(dǎo)者,在數(shù)據(jù)中心熱管理技術(shù)方面走在行業(yè)前端,致力于帶給客戶更低的PUE。
華為將基于AI的iCooling智能熱管理解決方案融入數(shù)據(jù)中心基礎(chǔ)設(shè)施,針對(duì)數(shù)據(jù)中心制冷效率提升瓶頸,通過深度學(xué)習(xí),打通精密空調(diào)末端、冷水機(jī)組、冷卻塔、水泵等制冷系統(tǒng)以及IT負(fù)載、環(huán)境變量等大數(shù)據(jù)之間的聯(lián)動(dòng),對(duì)大量的歷史數(shù)據(jù)進(jìn)行分析,探索影響能耗的關(guān)鍵因素,獲取PUE的預(yù)測模型。利用尋優(yōu)算法,獲取調(diào)優(yōu)參數(shù)組,下發(fā)到控制系統(tǒng),實(shí)現(xiàn)制冷系統(tǒng)的最優(yōu)控制。最終通過規(guī)范化的實(shí)踐引導(dǎo)和目標(biāo)導(dǎo)向評(píng)測,不斷調(diào)整優(yōu)化,獲取最佳PUE。
iCooling@AI解決方案目前已在華為云廊坊數(shù)據(jù)中心成功部署,全年P(guān)UE可降低超過0.1,年平均值達(dá)到1.3以下,年節(jié)約電費(fèi)數(shù)百萬元。