今天為大家撰文的大咖,是我們的AWS企業(yè)容災(zāi)解決方案業(yè)務(wù)拓展經(jīng)理——王宇老師。
王宇
AWS企業(yè)容災(zāi)解決方案業(yè)務(wù)拓展經(jīng)理
王宇目前負(fù)責(zé)AWS中國區(qū)的混合云、容災(zāi)和DevOps產(chǎn)品和解決方案。曾服務(wù)于VMware等傳統(tǒng)私有云廠商,熟悉傳統(tǒng)IT架構(gòu)和私有云、混合云、公有云的解決方案融合。
在我們談?wù)撊轂?zāi)時
我們在談些什么?
容災(zāi)是一個非常傳統(tǒng)的話題,是在產(chǎn)生IT系統(tǒng)的第一天開始就必須要考慮的問題?偟膩碚f它主要是指“數(shù)據(jù)中心災(zāi)難、區(qū)域性災(zāi)難和人為誤操作”三個方面造成對IT系統(tǒng)的災(zāi)難時的恢復(fù)工作。
在中國,“兩地三中心”的容災(zāi)架構(gòu)已經(jīng)廣泛的被企業(yè)級用戶認(rèn)可,成為企業(yè)級容災(zāi)架構(gòu)的標(biāo)準(zhǔn),但由于建設(shè)成本高,周期長等原因,實(shí)際按照此標(biāo)準(zhǔn)建設(shè)的企業(yè)少之又少。而AWS的混合云容災(zāi)架構(gòu),就是在AWS的云環(huán)境中實(shí)現(xiàn)“兩地三中心”,同時利用AWS云中資源的彈性大幅度降低資源成本和建設(shè)以及運(yùn)維的復(fù)雜性。
軟件定義一切AWS云容災(zāi)解放企業(yè)IT生產(chǎn)力
如果企業(yè)客戶已經(jīng)在自己的數(shù)據(jù)中心中完成了容災(zāi)環(huán)境的搭建,勢必消耗了大量了資源,包括機(jī)架空間、電力、IT資源、人力資源等等,而容災(zāi)環(huán)境本身是一個并不產(chǎn)生經(jīng)濟(jì)效應(yīng)的保障性系統(tǒng),對企業(yè)資源的占用巨大。AWS云資源池通過軟件定義的方式,能夠打造與企業(yè)內(nèi)部完全相同的復(fù)雜IT環(huán)境,實(shí)現(xiàn)企業(yè)級應(yīng)用的完整鏡像,隨著應(yīng)用容災(zāi)系統(tǒng)遷移至AWS云中,可以將企業(yè)現(xiàn)有的容災(zāi)中心轉(zhuǎn)變成生產(chǎn)中心,從而擴(kuò)大客戶自建數(shù)據(jù)中心的承載能力,或大幅降低IT資源的運(yùn)營成本。
隨時容災(zāi)演練確保備用環(huán)境可用性
在傳統(tǒng)的容災(zāi)環(huán)境中,容災(zāi)演練是一個令人頭疼的大問題,因?yàn)槿轂?zāi)環(huán)境的建設(shè)不是“一錘子買賣”,隨著生產(chǎn)環(huán)境和數(shù)據(jù)的不斷變化,容災(zāi)環(huán)境必須跟隨生產(chǎn)環(huán)境改變,否則在發(fā)生災(zāi)難時就無法實(shí)現(xiàn)業(yè)務(wù)的快速切換和啟動,因此,定期的容災(zāi)演練是必須的。而傳統(tǒng)環(huán)境中的容災(zāi)演練要配合硬件和軟件廠商,耗時耗力,效果還往往不盡如人意。在AWS云環(huán)境中,能夠輕松實(shí)現(xiàn)容災(zāi)環(huán)境的復(fù)制,從而與生產(chǎn)環(huán)境并行的實(shí)現(xiàn)容災(zāi)環(huán)境的測試演練,通過實(shí)際的演練來驗(yàn)證容災(zāi)環(huán)境的可用性以及數(shù)據(jù)的完整性,在演練結(jié)束后可以隨時將演練環(huán)境刪除或關(guān)停,演練成本和復(fù)雜程度都大幅降低。
AWS云容災(zāi)實(shí)現(xiàn)秒級回滾解決人為錯誤
在生產(chǎn)環(huán)境中,由于人為的誤操作、系統(tǒng)升級、補(bǔ)丁等操作造成的對IT系統(tǒng)以及數(shù)據(jù)的破壞很難防范,尤其是有一些操作和BUG導(dǎo)致系統(tǒng)在運(yùn)行一段時間后才能發(fā)現(xiàn)故障,而此時容災(zāi)環(huán)境的數(shù)據(jù)有可能已經(jīng)被覆蓋,難以恢復(fù)。在AWS云中實(shí)現(xiàn)的容災(zāi)環(huán)境能夠借助數(shù)據(jù)快照、數(shù)據(jù)日志等功能,除了能夠保存最新的業(yè)務(wù)數(shù)據(jù)意外,還能夠?qū)崿F(xiàn)數(shù)據(jù)的秒級回滾。在發(fā)現(xiàn)系統(tǒng)出現(xiàn)故障后,不但能夠切換到容災(zāi)環(huán)境中的最新數(shù)據(jù),還能夠選擇過去24小時中的任意時間點(diǎn)進(jìn)行恢復(fù),從而解決了容災(zāi)系統(tǒng)中的臟數(shù)據(jù)問題。
利用AWS容災(zāi)環(huán)境切換實(shí)現(xiàn)生產(chǎn)系統(tǒng)的平滑上云
現(xiàn)有的IT生產(chǎn)系統(tǒng)環(huán)境往往錯綜復(fù)雜且數(shù)據(jù)量大,讓這樣的系統(tǒng)上云往往需要冗長的數(shù)據(jù)搬遷和環(huán)境搭建時間,生產(chǎn)系統(tǒng)面臨長時間的停機(jī),無法接受。AWS容災(zāi)解決方案能夠與生產(chǎn)系統(tǒng)并行地傳輸生產(chǎn)數(shù)據(jù),并在云中搭建與企業(yè)內(nèi)部結(jié)構(gòu)相同的生產(chǎn)系統(tǒng)鏡像環(huán)境,待云中數(shù)據(jù)與生產(chǎn)中心數(shù)據(jù)同步一致后,以容災(zāi)切換的方式使生產(chǎn)業(yè)務(wù)切換至AWS云上,最大限度地降低了生產(chǎn)環(huán)境的停機(jī)時間,實(shí)現(xiàn)了平滑上云。
AWS云中容災(zāi)只為實(shí)際使用量買單
從容災(zāi)系統(tǒng)的TCO上看,AWS容災(zāi)解決方案更是具備明顯優(yōu)勢。無需前期對硬件、軟件的采購和安裝,省去了大量前提投入成本。更重要的是,容災(zāi)方案中AWS云中資源可以選擇不開機(jī)或只開啟少量小機(jī)型資源,對于不開機(jī)的資源將完全不收取EC2虛擬機(jī)資源的費(fèi)用,又能保持EC2虛擬機(jī)的狀態(tài)和后臺數(shù)據(jù)的增量更新。經(jīng)過我們的測算,一個典型的容災(zāi)系統(tǒng)項(xiàng)目,以5年為周期進(jìn)行計(jì)算,TCO只需花費(fèi)原有私有云容災(zāi)環(huán)境的1/3,而第一年的投入資金更是傳統(tǒng)項(xiàng)目的1/10。
總結(jié)
容災(zāi)雖然是一個非常古老和傳統(tǒng)的IT業(yè)務(wù),但隨著云計(jì)算技術(shù)的不斷成熟和普及,它恰恰成為了一個非常適合率先在公有云中實(shí)現(xiàn)的業(yè)務(wù)。首先它的建設(shè)風(fēng)險(xiǎn)低,與生產(chǎn)系統(tǒng)完全并行,前期投入小,無需提前采購,而且它還能夠成為企業(yè)上云過程中建設(shè)自身團(tuán)隊(duì)云能力的一個絕好機(jī)會,經(jīng)過云容災(zāi)項(xiàng)目之后,企業(yè)對AWS云資源、云技術(shù)都會有一個全面的了解,且能夠利用這個機(jī)會驗(yàn)證AWS云環(huán)境承載企業(yè)生產(chǎn)系統(tǒng)的能力到底如何,再逐步實(shí)現(xiàn)企業(yè)級IT環(huán)境的云轉(zhuǎn)型。