每當(dāng)向Amazon問起其AWS數(shù)據(jù)中心時,大家得到的回應(yīng)都是:Amazon方面不會討論與其數(shù)據(jù)中心有關(guān)的話題。然而就在當(dāng)下,該公司首席技術(shù)官終于打破了這一僵局。
一身全黑著裝證實了AWS所使用的可不止是“白”盒設(shè)備
Werner Vogels在本周三剛剛閉幕的倫敦AWS峰會上為與會者們開啟了一扇小窗,而我們也借此機(jī)會得以通過他作出的題為《AWS在數(shù)據(jù)中心領(lǐng)域的創(chuàng)新》的演講中一窺Amazon數(shù)據(jù)中心的神秘真容。
Vogels在會上身穿清一色黑色長褲、夾克及襯衫(他在自己上午的主題演講中穿著的則是一件阿明。范。比倫的主題T恤),并象征性地掀起了自己的夾克、開始大談AWS業(yè)務(wù)背后隱藏多年的技術(shù)體系。
AWS如今已經(jīng)實現(xiàn)了許多當(dāng)初只有Windows才取得過的成就:一臺用于承載業(yè)務(wù)的通用型平臺。作為起步目標(biāo),AWS最初僅僅是希望幫助企業(yè)客戶從自行構(gòu)建服務(wù)器體系所帶來的諸多煩惱當(dāng)中解脫出來。然而時至今日,AWS已經(jīng)開始為使用者提供種類繁多的新型服務(wù)。
客戶基礎(chǔ)中的另一大重要群體屬于純粹的互聯(lián)網(wǎng)企業(yè),他們并不需要建立并運(yùn)行屬于自己的服務(wù)器及相關(guān)基礎(chǔ)設(shè)施。其中包括以Just Giving為代表的個人及團(tuán)體資金籌集類在線服務(wù)以及Omnifore——由SiriusXM及索尼音樂有限公司共同建立的音樂流基礎(chǔ)設(shè)施體系——等服務(wù)項目。
Just Giving與Omnifore恰好介于客戶以及原始AWS基礎(chǔ)設(shè)施之間,事實上非技術(shù)人員很難把這二者聯(lián)系在一起。雙方業(yè)務(wù)正常運(yùn)行所依托的數(shù)十萬臺服務(wù)器及網(wǎng)絡(luò)交換機(jī)全部由Amazon方面負(fù)責(zé)定制設(shè)計與構(gòu)建,并由后者同英特爾及其它廠商協(xié)同完成。大量服務(wù)器集合起來就構(gòu)成了——沒錯,數(shù)據(jù)中心。其中包括Amazon的Availability Zones,而其本身又構(gòu)成了多個區(qū)域組成部分——具體來講,其中共包含十大區(qū)域與二十八個分區(qū)。
Vogels在此次AWS峰會上探討了宏觀布局背后的架構(gòu)設(shè)計思路。很明顯,根據(jù)Vogels的說法,Amazon公司經(jīng)常會收到大量針對其數(shù)據(jù)中心所提出的問題。
每個區(qū)域由兩個或者更多Availability Zones所構(gòu)成,而每個分區(qū)都至少擁有一座數(shù)據(jù)中心。沒有任何一座數(shù)據(jù)中心同時服務(wù)于兩個Availability Zones,而且某些Zones甚至擁有六座數(shù)據(jù)中心作為資源支撐。這些數(shù)據(jù)中心必須隸屬于不同電網(wǎng)體系,這是為了保證任何供電中斷狀況都不至于一次性令整個分區(qū)陷入癱瘓。
三個R:復(fù)制、復(fù)制、還是復(fù)制
Availability Zones正是AWS用于解決備份及延遲等一直困擾著遠(yuǎn)距離大范圍計算體系難題的答案。從傳統(tǒng)角度看,位于紐約的企業(yè)往往會將災(zāi)難備份設(shè)施設(shè)立在新澤西州,但其數(shù)據(jù)同時也會橫跨整個美國比復(fù)制到洛杉磯地區(qū)作為冗余。
不過根據(jù)Vogels的說法:“這種老式復(fù)制機(jī)制事實上并不適應(yīng)規(guī)模化體系下的實際情況。如何單一事務(wù)的傳輸過程會耗時1到2毫秒,那么復(fù)制過程將令延遲猛增至100毫秒。在此之后,如果大家需要從紐約指向洛杉磯以實現(xiàn)故障轉(zhuǎn)移,那么噩夢般的狀況將隨即出現(xiàn)——故障之后的負(fù)載回歸甚至更加糟糕。總而言之,將發(fā)生了故障的系統(tǒng)整合到實時系統(tǒng)當(dāng)中本身就是一場災(zāi)難。”
為了解決延遲問題,Amazon公司將數(shù)組緊密耦合在一起的數(shù)據(jù)中心共同構(gòu)建成Availability Zones。該分區(qū)內(nèi)的每座數(shù)據(jù)中心在進(jìn)行彼此交互時都擁有低于25毫秒的延遲水平,而數(shù)據(jù)包的整體網(wǎng)絡(luò)傳輸能力則為102Tbps。
AWS需要解決的另一大難題則是跳動,這主要是因為各虛擬化應(yīng)用程序會相互爭奪對原始I/O的訪問、進(jìn)而拖慢處理速度。Amazon給出的答案非常明確——構(gòu)建自己的網(wǎng)絡(luò)設(shè)備。
“這種跳動狀況在虛擬化情況下成了大問題——也就是對受控網(wǎng)絡(luò)訪問權(quán)的激烈爭奪。大家實際感受到的就是網(wǎng)絡(luò)狀況經(jīng)常跳動、無法實現(xiàn)平順與穩(wěn)定,因此我們下了一番力氣將其徹底清除出AWS體系之外。為了實現(xiàn)這一點(diǎn),我們將網(wǎng)絡(luò)處理負(fù)載從服務(wù)器端轉(zhuǎn)移到專用的網(wǎng)卡當(dāng)中,從而發(fā)揮其單一根I/O虛擬化技術(shù),最終帶來了堅實而具備統(tǒng)一性的網(wǎng)絡(luò)性能。這讓TCP/IP性能順利實現(xiàn)了平衡表現(xiàn),”Vogels表示。他同時補(bǔ)充稱:
“我們能夠為大家?guī)砣缣┥桨銕h然不動的延遲表現(xiàn)。”
這些數(shù)據(jù)中心每座都擁有最高八萬臺服務(wù)器的可容納能力——這一數(shù)字為優(yōu)化的最高極限——而且其實際服務(wù)器容納量至少為五萬臺。這些服務(wù)器由Amazon公司親自構(gòu)建,并與英特爾及其它制造商合作完成。別誤會,這些設(shè)備可絕不是什么便宜的地攤貨,Vogels強(qiáng)調(diào)稱。
“別以為這些都是白盒服務(wù)器,”他指出。“這些服務(wù)器都是能夠滿足最為嚴(yán)苛的企業(yè)級需求的好貨色。”
Amazon公司已經(jīng)通過與英特爾方面的合作進(jìn)行了芯片調(diào)整以獲得更為出色的性能表現(xiàn)。就以最近剛剛推出的C4實例為例,其配備有英特爾的Haswell處理器家族,所采用的生產(chǎn)規(guī)格能夠以更低的CPU功耗水平滿足AWS對于高性能表現(xiàn)提出的諸多要求。
Amazon方面還去掉了當(dāng)前標(biāo)準(zhǔn)化現(xiàn)成服務(wù)器當(dāng)中那些不必要的功能。音頻芯片與電源變壓裝置都被剔除了出去,這不僅有助于降低功耗水平、同時也幫助AWS顯著節(jié)約了冷卻成本。“在傳統(tǒng)服務(wù)器環(huán)境下,仍有很多元素的存在讓我感到莫名其妙,”Vogels總結(jié)道。