計(jì)算接口高速化
阿姆達(dá)爾定律(Amdahl's lesser known law)表明:并行計(jì)算中,每1MHz的CPU最大能產(chǎn)生1Mbit/s的IO。因此,一臺(tái)有32核2.5GHz的CPU的服務(wù)器,則需要配置100Gb/s的網(wǎng)卡,才能將計(jì)算性能充分發(fā)揮出來。服務(wù)器上行對(duì)接100GE接入,400GE核心轉(zhuǎn)發(fā)成為越來越清晰的主流網(wǎng)絡(luò)架構(gòu)。
計(jì)算能力并行化
阿姆達(dá)爾定律(Amdahl's lesser known law)表明:并行計(jì)算中,每1MHz的CPU最大能產(chǎn)生1Mbit/s的IO。因此,一臺(tái)有32核2.5GHz的CPU的服務(wù)器,則需要配置100Gb/s的網(wǎng)卡,才能將計(jì)算性能充分發(fā)揮出來。服務(wù)器上行對(duì)接100GE接入,400GE核心轉(zhuǎn)發(fā)成為越來越清晰的主流網(wǎng)絡(luò)架構(gòu)。
計(jì)算能力并行化
并行化是解決應(yīng)用性能擴(kuò)展的成功實(shí)踐。隨著用戶數(shù)和數(shù)據(jù)規(guī)模增大,并行化程度越來越高。據(jù)Facebook統(tǒng)計(jì)【2】,用戶在朋友圈一個(gè)“點(diǎn)贊”動(dòng)作,會(huì)發(fā)起到數(shù)據(jù)中心1KB的HTTP請(qǐng)求,在數(shù)據(jù)中心內(nèi)部,則放大為930KB的并行操作,包括88次Cache查找(648KB),35次數(shù)據(jù)庫(kù)查找(25.6KB)和392次后端RPC調(diào)用(257KB)。計(jì)算并行化,使得DCN內(nèi)部流量(東西向)千倍增大,加劇網(wǎng)絡(luò)擁塞,增加了通信時(shí)間,降低計(jì)算效率,智能無損網(wǎng)絡(luò)的出現(xiàn),是大勢(shì)所趨。
計(jì)算資源虛擬化
計(jì)算資源虛擬化
1998年,Greene(VMWARE創(chuàng)始人)等發(fā)明了服務(wù)器虛擬化技術(shù),通過把一個(gè)物理服務(wù)器虛擬為多個(gè)虛擬機(jī),將計(jì)算資源的平均利用率從10%提升到30%;而近幾年新興的容器技術(shù)(如Docker,Kata,Unikernel),通過更輕量化的虛擬層技術(shù),進(jìn)一步提升計(jì)算資源的利用率。計(jì)算虛擬化帶來的動(dòng)態(tài)性,徹底改變了人管理網(wǎng)絡(luò)的方式,驅(qū)動(dòng)網(wǎng)絡(luò)邁向自動(dòng)駕駛。
計(jì)算領(lǐng)域的三大方向,引領(lǐng)DCN發(fā)展趨勢(shì),向400G智能無損的自動(dòng)駕駛網(wǎng)絡(luò)邁進(jìn)。
400GE DCN網(wǎng)絡(luò)
迎接計(jì)算節(jié)點(diǎn)100GE接口浪潮
處理器多核化以及AI處理器的普及, IO帶寬需求大幅增加?偩技術(shù)的發(fā)展,部分緩解了計(jì)算的IO瓶頸。2020年,PCIe 4.0@16GT/s開始商用,IO帶寬達(dá)到50G~100G/200G;2021年,PCIe5.0@32GT/s芯片也將發(fā)布,IO帶寬達(dá)到100G~400G。
網(wǎng)卡的速率成為提升IO能力的又一關(guān)鍵。網(wǎng)卡從10GE演進(jìn)到25GE,并快速推進(jìn)到100GE。配置100GE網(wǎng)卡的服務(wù)器在2020年快速起量,成為主流。根據(jù)分析師機(jī)構(gòu)CREHAN的預(yù)測(cè),在2020年, 100GE網(wǎng)卡的發(fā)貨量將超越50GE網(wǎng)卡,成為業(yè)界對(duì)25GE網(wǎng)卡下一代的選擇;
基于成本、功耗和生態(tài)考慮,DCN或?qū)⑻^200G,直接演進(jìn)到400G。從歷史實(shí)踐看,服務(wù)器網(wǎng)卡和網(wǎng)絡(luò)速率之比為1:4,即25G網(wǎng)卡對(duì)應(yīng)100G網(wǎng)絡(luò),100G網(wǎng)卡對(duì)應(yīng)400G網(wǎng)絡(luò);從光模塊架構(gòu)看,200G和400G都采用4-lane架構(gòu),PAM4調(diào)制方式,成本和功耗趨同,導(dǎo)致400G每比特成本相比200G降低一倍;從光模塊生態(tài)看,400G模塊種類豐富,給客戶更多的選擇;目前,200G的模塊種類只有100m SR4和2km FR4兩種;400G的模塊種類達(dá)到了5種,涵蓋100m、500m和2km。
華為在2019年初已經(jīng)發(fā)布了業(yè)界首款面向AI時(shí)代的數(shù)據(jù)中心交換機(jī)CloudEngine 16800,支持業(yè)界最高密度的48*400GE端口/每槽位,業(yè)界的5倍,為100G服務(wù)器接入,400G數(shù)據(jù)中心網(wǎng)絡(luò)做好了充分的準(zhǔn)備。
計(jì)算能力并行化
驅(qū)動(dòng)DCN向智能無損網(wǎng)絡(luò)演進(jìn)
隨著計(jì)算規(guī)模增大,通信占比持續(xù)增大,抵消了規(guī)模增長(zhǎng)帶來的收益,造成集群性能的負(fù)增長(zhǎng)。如圖所示【3】,Netflix的分布式電影評(píng)分推薦系統(tǒng)中,當(dāng)計(jì)算規(guī)模達(dá)到90臺(tái),出現(xiàn)拐點(diǎn),計(jì)算效率不升反降。
為了降低通信占比,降低應(yīng)用等待時(shí)間,增大網(wǎng)絡(luò)規(guī)模,無損網(wǎng)絡(luò)是必經(jīng)之路。
眾所周知,應(yīng)用之間通信需求是無損的。有兩種實(shí)現(xiàn)方式:
。1)無損協(xié)議+有損網(wǎng)絡(luò):
在10G網(wǎng)卡時(shí)代,一般采用這種方式,即網(wǎng)絡(luò)可以在擁塞時(shí)丟包,在協(xié)議層進(jìn)行補(bǔ)救,如在TCP協(xié)議上部署重傳機(jī)制,在發(fā)現(xiàn)網(wǎng)絡(luò)丟包后,進(jìn)行重傳。
。2)有損協(xié)議+無損網(wǎng)絡(luò):
進(jìn)入到25G/100G網(wǎng)卡時(shí)代, 采用網(wǎng)卡硬化協(xié)議棧,解決對(duì)CPU的消耗。為了硬化協(xié)議棧,只能簡(jiǎn)化協(xié)議,從而依賴無損網(wǎng)絡(luò)。據(jù)測(cè)算,要吞吐25G~100G的數(shù)據(jù),要消耗服務(wù)器10%~30%左右的CPU;為了解決此問題,需要在智能網(wǎng)卡上硬化協(xié)議,硬化帶來的好處是高性能,但也會(huì)喪失協(xié)議的靈活性。業(yè)界采用RDMA協(xié)議,替代復(fù)雜的TCP, 便于網(wǎng)卡的硬化。RDMA協(xié)議對(duì)丟包極其敏感,2%的丟包就會(huì)造成網(wǎng)絡(luò)有效吞吐降到0。所以,無損網(wǎng)絡(luò)成為DCN的基本特征。
從TCP誕生之初,是為Internet設(shè)計(jì)的,考慮的是低速的,長(zhǎng)距(數(shù)百公里)的網(wǎng)絡(luò),圍繞流量控制技術(shù),出現(xiàn)了大量的創(chuàng)新。在進(jìn)入到400G DCN時(shí)代,環(huán)境發(fā)生了巨大的變化,從Internet的慢速鏈路到DCN 400G高速鏈路, 從數(shù)百公里的長(zhǎng)距Internet到百米的DCN網(wǎng)絡(luò),從全互聯(lián)的流量模型到Incast突發(fā)流量模型, TCP已經(jīng)不能適用這種變化,需要對(duì)流量控制技術(shù)在協(xié)議和網(wǎng)絡(luò)上重新定義,RDMA協(xié)議替代TCP,將成為必然。
擁塞控制,是通過網(wǎng)絡(luò)和端點(diǎn)協(xié)作,控制入網(wǎng)流量速率,使得入網(wǎng)流量和網(wǎng)絡(luò)帶寬匹配,滿而不溢。網(wǎng)絡(luò)擁塞通知的準(zhǔn)確性,對(duì)網(wǎng)絡(luò)利用率影響很大。過早擁塞通知,將導(dǎo)致計(jì)算側(cè)過度減速,網(wǎng)絡(luò)利用率低。過晚擁塞通知,將導(dǎo)致網(wǎng)絡(luò)過載,導(dǎo)致丟包。通過AI算法,預(yù)測(cè)流量模型,準(zhǔn)確的通知計(jì)算側(cè),控制入網(wǎng)流量。
更進(jìn)一步,網(wǎng)絡(luò)基于準(zhǔn)確的活躍流統(tǒng)計(jì),為每條流分配合適的速率,避免計(jì)算節(jié)點(diǎn)之間探測(cè)式發(fā)送,減少突發(fā),從而減少網(wǎng)絡(luò)的抖動(dòng)。這種基于Credit的擁塞機(jī)制,特別適合存儲(chǔ)等低抖動(dòng)網(wǎng)絡(luò)上。
在并行計(jì)算中, 存在木桶效應(yīng),即最長(zhǎng)完成的流,決定整個(gè)任務(wù)的完成時(shí)間。所以,對(duì)不同的流進(jìn)行差異化的調(diào)度,降低整個(gè)任務(wù)的完成時(shí)間。在關(guān)鍵流或者co-flow識(shí)別上, AI算法,可以發(fā)揮出重要的作用。
在大規(guī)模并行計(jì)算場(chǎng)景下,讓網(wǎng)絡(luò)深度參與到計(jì)算通信過程中,從而減少通信量和時(shí)間,提升應(yīng)用性能,稱為在網(wǎng)計(jì)算。
我們知道,并行計(jì)算下,多端點(diǎn)之間的通信是全互聯(lián)的關(guān)系,通信量存在N平方問題。造成隨著計(jì)算規(guī)模增大,計(jì)算性能下降,在網(wǎng)計(jì)算的思路是把網(wǎng)絡(luò)作為中間節(jié)點(diǎn),參與到計(jì)算參數(shù)過程中,即把部分計(jì)算的功能部署到網(wǎng)絡(luò)上。這樣,通信的復(fù)雜度從O(2(n-1))降為O(1);也就是消除計(jì)算規(guī)模增大的性能拐點(diǎn)。
在網(wǎng)計(jì)算,需要通信層和網(wǎng)絡(luò)協(xié)作,主流的并行計(jì)算通信層包括MPI和NCCL兩種,所以網(wǎng)絡(luò)也需要分別適配這兩種通信層。
華為提出業(yè)界首創(chuàng)的智能無損DCN,基于內(nèi)置的AI芯片和智能無損的iLossless調(diào)度算法,重定義流量控制技術(shù),重分布網(wǎng)絡(luò)計(jì)算功能, 100%釋放算力。作為業(yè)界唯一的0丟包的以太網(wǎng),經(jīng)過第三方Tolly的權(quán)威認(rèn)證,在計(jì)算和存儲(chǔ)場(chǎng)景,要比業(yè)界其他廠商的交換機(jī)提升30%的應(yīng)用性能。
計(jì)算虛擬化深入發(fā)展
驅(qū)動(dòng)DCN從SDN邁向自動(dòng)駕駛
- 計(jì)算虛擬化,打破了服務(wù)器物理邊界,計(jì)算資源可根據(jù)需求動(dòng)態(tài)伸縮。SDN的出現(xiàn),是為了解決網(wǎng)絡(luò)隨計(jì)算而動(dòng)的問題,即根據(jù)計(jì)算資源位置的變化,由SDN控制器動(dòng)態(tài)為其構(gòu)建一張邏輯網(wǎng)絡(luò),稱為部署自動(dòng)化。
- 部署自動(dòng)化階段,由原來的人-機(jī)接口,演進(jìn)到機(jī)-機(jī)接口,配置效率百倍提升,從小時(shí)級(jí)到分鐘級(jí)。
- 部署自動(dòng)化的第一步是簡(jiǎn)化;如果在復(fù)雜的網(wǎng)絡(luò)環(huán)境下部署自動(dòng)化,會(huì)適得其反,讓事情變得更復(fù)雜。因?yàn)樾枰ヅ涓鞣N組網(wǎng),梳理復(fù)雜的依賴關(guān)系,應(yīng)對(duì)各種流量模型。業(yè)界在SDN的實(shí)踐中也走過彎路,最終,遵循簡(jiǎn)化優(yōu)選的原則,網(wǎng)絡(luò)拓?fù)浜?jiǎn)化為L(zhǎng)eaf/Spine,轉(zhuǎn)發(fā)簡(jiǎn)化為VXLAN,協(xié)議簡(jiǎn)化為BGP-EVPN,網(wǎng)關(guān)簡(jiǎn)化為多活網(wǎng)關(guān),為自動(dòng)化打下堅(jiān)實(shí)基礎(chǔ)。
- 部署自動(dòng)化的第二步是標(biāo)準(zhǔn)化;特別是SDN北向接口的標(biāo)準(zhǔn)化,讓網(wǎng)絡(luò)融入到云計(jì)算的生態(tài)中。Openstack云平臺(tái)成為主流,使得Neutron成為事實(shí)標(biāo)準(zhǔn),加速SDN生態(tài)的成熟。
- 部署自動(dòng)化,一方面帶來百倍的部署效率提升,另一方面,也帶來兩大副作用:
高頻度變更,使得配置錯(cuò)誤存在放大效應(yīng)
傳統(tǒng)網(wǎng)絡(luò)以天計(jì)的變更頻度,讓管理員有充裕的時(shí)間進(jìn)行檢查。但SDN以分鐘計(jì)的高頻變更,讓一個(gè)小小的配置錯(cuò)誤,都放大數(shù)百倍,成為潛在的隱患。據(jù)谷歌披露【4】,數(shù)據(jù)中心網(wǎng)絡(luò)中68%的故障是由于網(wǎng)絡(luò)變更造成的。網(wǎng)絡(luò)驗(yàn)證技術(shù),在配置生效前,校驗(yàn)配置面的錯(cuò)誤、沖突以及數(shù)據(jù)面的環(huán)路和黑洞等,可提前消除配置風(fēng)險(xiǎn)。
高頻度變更,把壓縮運(yùn)維時(shí)間到分鐘級(jí)
當(dāng)網(wǎng)絡(luò)瞬息萬變,傳統(tǒng)靜態(tài)網(wǎng)絡(luò)的運(yùn)維方式都將失效。如何在幾分鐘之內(nèi),完成故障檢測(cè),定位和恢復(fù),成為核心需求。
智能運(yùn)維,基于海量數(shù)據(jù)采集和AI預(yù)測(cè)算法,提前預(yù)測(cè)故障,像扁鵲大哥一樣,在病情發(fā)作前,提前發(fā)現(xiàn),并下藥鏟除。當(dāng)故障發(fā)生時(shí), 采用融入專家經(jīng)驗(yàn)的知識(shí)圖譜, 撥開各種表面現(xiàn)象,找到根因,為故障恢復(fù)提供依據(jù)。
自動(dòng)駕駛網(wǎng)絡(luò),除了部署和運(yùn)維的自動(dòng)化,還包括規(guī)劃自動(dòng)化,建設(shè)自動(dòng)化和網(wǎng)絡(luò)自優(yōu)化,即“規(guī)建維優(yōu)”全生命周期自動(dòng)化。
如自動(dòng)駕駛汽車,自動(dòng)駕駛網(wǎng)絡(luò)根據(jù)自動(dòng)化程度也分為5級(jí),華為CloudFabric數(shù)據(jù)中心網(wǎng)絡(luò)的自動(dòng)駕駛能力已經(jīng)演進(jìn)到L3級(jí),即釋放運(yùn)維人員的手。未來會(huì)走向L4高度自治和L5完全自治網(wǎng)絡(luò),釋放運(yùn)維人員的眼和腦。走向L5的自動(dòng)駕駛,還有很長(zhǎng)的路要走,需要業(yè)界同仁的共同努力。
AI是使能器
支撐DCN向智能無損和自動(dòng)駕駛網(wǎng)絡(luò)演進(jìn)
無論是智能無損還是自動(dòng)駕駛網(wǎng)絡(luò),它的最終實(shí)現(xiàn)和落地離不開AI技術(shù)應(yīng)用。沒有AI算法的支撐,自動(dòng)駕駛網(wǎng)絡(luò)和智能無損將是空中樓閣。AI算法在語音、語言處理、圖像等領(lǐng)域獲得了巨大的成功,將AI技術(shù)和網(wǎng)絡(luò)結(jié)合,也將使得網(wǎng)絡(luò)煥發(fā)青春。
如下圖所示, 在識(shí)別、預(yù)測(cè)、調(diào)優(yōu)和質(zhì)量評(píng)估等方面, 學(xué)術(shù)界和工業(yè)界都投入了巨大的研究熱情,也初顯成效。
華為正在攜手學(xué)術(shù)界和工業(yè)界, 持續(xù)挖掘AI能力, 和網(wǎng)絡(luò)技術(shù)充分結(jié)合,持續(xù)提升計(jì)算效率,一起邁向全新的DCN時(shí)代。