Meta昨(24)日宣布正在打造全球最快AI超級電腦,志在用以訓(xùn)練數(shù)兆參數(shù)的大型模型,加速實現(xiàn)元宇宙(metaverse)愿景。
名為AI Research SuperCluster(RSC)的超級電腦預(yù)計2022年中打造完成。Meta執(zhí)行長Mark Zuckerberg表示目前RSC是全球運行中最快AI超級電腦之一,但等建造完成時將成為全球最快。
目前Meta研究人員已經(jīng)用RSC來訓(xùn)練自然語言處理(NLP)及電腦視覺(computer vision)研究使用的大型模型。他們希望RSC未來可以處理數(shù)兆參數(shù)的模型。
Meta表示由于有些實驗要進(jìn)行好幾個星期,且涉及數(shù)千個GPU,因此RSC架構(gòu)必須極穩(wěn)定,此外又必須好操作以支援研究人員進(jìn)行各種AI模型的訓(xùn)練。
RSC由數(shù)個運算節(jié)點組成,并以高速網(wǎng)絡(luò)串連而成。Meta表示RSC目前已包含760個Nvidia DGX A100系統(tǒng)節(jié)點,總和達(dá)6,080顆GPU。和Meta現(xiàn)有訓(xùn)練系統(tǒng)相較,早期標(biāo)竿測試顯示RSC的電腦視覺作業(yè)運算速度提升20倍,執(zhí)行Nvidia Collective Communication Library(NCCL)的速度快9倍有余,而訓(xùn)練大型NLP模型的效能則提升3倍。這表示一個擁有數(shù)百億參數(shù)的模型訓(xùn)練完成時間,可以從過去的9個星期縮短為3周。
其他規(guī)格方面,RSC每座DGX節(jié)點透過Nvidia Quantum 1600 Gb/s InfiniBand 二層Clos網(wǎng)絡(luò)架構(gòu)串連,以減少網(wǎng)絡(luò)超載(oversubscription)問題。RSC儲存系統(tǒng)將采用175 PB的Pure Storage FlashArray、46 PB的Penguin Altus快取儲存及10 PB Pure Storage FlashBlade。
等年中打造完成時,RSC將搭載1.6萬顆GPU,而混合精度運算(mixed precision compute)效能達(dá)到將近5 Exaflops,使其成為全球最快超級電腦AI。RSC的快取及儲存系統(tǒng)設(shè)計,未來計畫可提供16TB/s頻寬及1 Exabyte儲存容量。
目前RSC已經(jīng)和去年5月美國國家能源研究科學(xué)計算中心(National Energy Research Scientific Computing Center,NERSC)揭示的勞倫斯伯克利國家實驗室的AI超級電腦Perlmutter相當(dāng),后者采用了6,159顆Nvidia A100 GPU。
HPCwire估計,據(jù)現(xiàn)行Top500超級電腦排名,Meta RSC第一階段約為第4名,完成后浮點運算速度約為227 petaflop/s,可望躍居全球第2快。