中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所副所長(zhǎng)栗蔚以《從算力互聯(lián)互通到算力互聯(lián)網(wǎng)探索》為題,對(duì)中國(guó)信通院在算力互聯(lián)互通領(lǐng)域的研究成果進(jìn)行介紹。
算力互聯(lián)互通是必然趨勢(shì)
《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》中強(qiáng)調(diào),“系統(tǒng)優(yōu)化算力基礎(chǔ)設(shè)施布局,促進(jìn)東西部算力高效互補(bǔ)和協(xié)同聯(lián)動(dòng)。”!蛾P(guān)于加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見》提出,“支持開展全國(guó)性算力資源調(diào)度,加快建立完善云資源接入和一體化調(diào)度機(jī)制。”
栗蔚表示,構(gòu)建算力互聯(lián)互通體系,是落實(shí)中央國(guó)務(wù)院部署的重要舉措,也是信息通信高質(zhì)量發(fā)展的現(xiàn)實(shí)需求。
據(jù)了解,算力互聯(lián)互通是指以算力任務(wù)為流動(dòng)要素,對(duì)算力資源進(jìn)行感知匯聚,通過算網(wǎng)一體調(diào)度,實(shí)現(xiàn)算力基礎(chǔ)設(shè)施間架構(gòu)互通,高速互聯(lián),有效提高算力資源綜合利用水平,推動(dòng)經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展。
“當(dāng)前,算力互聯(lián)互通已成為信息通信產(chǎn)業(yè)發(fā)展的必然趨勢(shì)。”栗蔚介紹,在國(guó)際上,美國(guó)能源局發(fā)布了高性能數(shù)據(jù)基礎(chǔ)設(shè)施(HPDF)計(jì)劃,要求實(shí)現(xiàn)東西部海岸40多個(gè)機(jī)構(gòu)算力互聯(lián)互通;在國(guó)內(nèi),不管是地方政府還是服務(wù)商都推出了算力交易、算力服務(wù)、算力調(diào)度等產(chǎn)業(yè)生態(tài)創(chuàng)新。
從不同應(yīng)用場(chǎng)景看,也對(duì)算力互聯(lián)互通提出不同需求。以大模型訓(xùn)練場(chǎng)景為例,目前存在智算服務(wù)商20余家開發(fā)生態(tài)不統(tǒng)一,高性能算力大數(shù)據(jù)量傳輸速度與國(guó)際先進(jìn)水平差距在數(shù)十倍,算網(wǎng)云協(xié)同調(diào)度缺少統(tǒng)一操作系統(tǒng)等痛點(diǎn)。因此在算力原子層(GPU、CPU等模塊)需要算網(wǎng)云操作系統(tǒng)實(shí)現(xiàn)架構(gòu)互通、高速互聯(lián)。
另外在資源層面,也就是東數(shù)西算應(yīng)用場(chǎng)景,如果想要實(shí)現(xiàn)算力真正的像水電一樣服務(wù),用戶就需要一點(diǎn)接入、全算貫通。不過目前存在服務(wù)商數(shù)量多,各自為戰(zhàn);算力架構(gòu)種類多,接口不開放;算網(wǎng)調(diào)度能力弱等痛點(diǎn)。因此在算力資源層需要一個(gè)類似域名的公共平臺(tái)實(shí)現(xiàn)算力標(biāo)識(shí)感知、算網(wǎng)資源解析、一體化調(diào)度。
“三位一體”實(shí)現(xiàn)互聯(lián)互通
面對(duì)算力互聯(lián)互通的需求和挑戰(zhàn),業(yè)界提出算力互聯(lián)互通五層模型,在以太網(wǎng)層、算力網(wǎng)絡(luò)層之上,還有算力原子層、算力資源層、業(yè)務(wù)數(shù)據(jù)層。如何實(shí)現(xiàn)互聯(lián)互通?栗蔚介紹,中國(guó)信通院提出標(biāo)準(zhǔn)、算網(wǎng)云開源操作系統(tǒng)(CNCOS)和算力互聯(lián)互通平臺(tái),“三位一體”的實(shí)現(xiàn)路徑。
標(biāo)準(zhǔn)層面,規(guī)劃了三個(gè)大類的十項(xiàng)標(biāo)準(zhǔn)。總體功能部分,包括總體框架、網(wǎng)絡(luò)互聯(lián)、算力調(diào)度、業(yè)務(wù)互通、數(shù)據(jù)流動(dòng);算力資源層部分,包括算力標(biāo)識(shí)、度量計(jì)量;算力原子層部分,包括高性能算力服務(wù)遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù)、GPU架構(gòu)互通、DPU架構(gòu)互通。
栗蔚表示,在標(biāo)準(zhǔn)基礎(chǔ)上,通過算網(wǎng)云開源操作系統(tǒng)CNCOS,把標(biāo)準(zhǔn)進(jìn)行開源實(shí)現(xiàn)、技術(shù)落地。OpenCNC調(diào)度系統(tǒng)對(duì)應(yīng)算力資源層應(yīng)用,ODPU、oneRDMA和OGPU三個(gè)系統(tǒng),對(duì)應(yīng)算力原子層的標(biāo)準(zhǔn)實(shí)踐落地。
OpenCNC 1.0版本可以實(shí)現(xiàn)算力標(biāo)識(shí)注冊(cè)、算網(wǎng)參數(shù)調(diào)度、身份認(rèn)證管理、統(tǒng)一計(jì)費(fèi)度量等關(guān)鍵能力。該項(xiàng)目由中國(guó)信通院牽頭,以算網(wǎng)云開放社區(qū)為橋梁,建立算力互聯(lián)互通質(zhì)量保障基礎(chǔ),支撐算力互聯(lián)互通體系持續(xù)優(yōu)化發(fā)展。
ODPU開發(fā)框架1.0在DPU管理、計(jì)算卸載、存儲(chǔ)卸載、網(wǎng)絡(luò)卸載、安全卸載和RDMA支持等維度基于產(chǎn)業(yè)共識(shí)形成標(biāo)準(zhǔn)。OGPU1.0開發(fā)框架的目標(biāo)是打造統(tǒng)一GPU開發(fā)接口,納入各廠商的編程接口。oneRDMA1.0將實(shí)現(xiàn)國(guó)內(nèi)統(tǒng)一的高性能算力服務(wù)遠(yuǎn)程直接內(nèi)存訪問(RDMA)通信協(xié)議,兼容封裝層統(tǒng)一接入標(biāo)準(zhǔn)。
與此同時(shí),算力互聯(lián)互通平臺(tái)方面,通過提供算力注冊(cè)感知、算網(wǎng)參數(shù)調(diào)度、身份認(rèn)證管理、統(tǒng)一計(jì)費(fèi)度量等至公共服務(wù),構(gòu)建架構(gòu)互通、高速互聯(lián)的標(biāo)準(zhǔn)化環(huán)境,降低算力服務(wù)商間算力互聯(lián)互通成本,實(shí)現(xiàn)用戶“一點(diǎn)接入,全算貫通”,提高算力任務(wù)流動(dòng)和數(shù)據(jù)傳輸效率。
最后,栗蔚提出了對(duì)算力互聯(lián)網(wǎng)的初步設(shè)想,并期待未來能夠與產(chǎn)業(yè)各界共同探討算力互聯(lián)網(wǎng)五要素、分層模型及高性能算力服務(wù)遠(yuǎn)程內(nèi)存直接訪問(RDMA)技術(shù),并驗(yàn)證通過算網(wǎng)云開源操作系統(tǒng)(CNCOS)及算力互通平臺(tái)實(shí)現(xiàn)算力互聯(lián)網(wǎng)工程化落地的可行性。