容災(zāi)—讓BOSS更美好
南京聯(lián)創(chuàng)科技股份有限公司 戴寧海 2004/05/24
隨著信息技術(shù)的發(fā)展,電信運(yùn)營商越來越依賴于計算機(jī)系統(tǒng)來進(jìn)行它的商業(yè)行為,保證其在業(yè)界的競爭力。業(yè)務(wù)支撐系統(tǒng)的高可靠性和高可用性越來越成為運(yùn)營商關(guān)注的重點(diǎn)。
對電信運(yùn)營商來說,如果發(fā)生數(shù)據(jù)丟失,輕則影響業(yè)務(wù)的開展以及客戶滿意度,嚴(yán)重的將會使整個企業(yè)的生產(chǎn)過程癱瘓。有研究顯示,企業(yè)在遭受災(zāi)難之后,如果無法在14天內(nèi)恢復(fù)數(shù)據(jù),有75%的公司業(yè)務(wù)會完全停頓,43%的公司再也無法重新開業(yè),有20%的企業(yè)在兩年之內(nèi)被迫宣告破產(chǎn)。造成這些損失的原因不僅僅是火災(zāi)、水災(zāi)、地震等自然災(zāi)害,還有諸如戰(zhàn)爭、蓄意破壞、嚴(yán)重誤操作等人為因素。因此,在限定時間內(nèi)成功的災(zāi)難恢復(fù)應(yīng)作為電信運(yùn)營商企業(yè)戰(zhàn)略中的一個關(guān)鍵組成部分。
BOSS系統(tǒng)是移動運(yùn)營商的業(yè)務(wù)支撐系統(tǒng),其中各個子系統(tǒng)的重要性有所差別,因此,在考慮BOSS系統(tǒng)容災(zāi)時,就要針對不同子系統(tǒng)采用不同的容災(zāi)策略。首先,營帳系統(tǒng)直接面向最終用戶,是業(yè)務(wù)受理和用戶感受移動服務(wù)的直接窗口,其重要性不言而喻。所以,最先考慮的應(yīng)是營帳系統(tǒng)的容災(zāi),保證在遭受災(zāi)難之后,營業(yè)活動能在最短時間內(nèi)恢復(fù);其次,計費(fèi)系統(tǒng)涉及到用戶的實際費(fèi)用的收取,是用戶帳單產(chǎn)生的主要來源之一,尤其是現(xiàn)在很多移動運(yùn)營商基于計費(fèi)系統(tǒng)開展了很多省內(nèi)預(yù)付費(fèi)業(yè)務(wù),如果計費(fèi)系統(tǒng)處理不及時,將會造成大量話費(fèi)損失,因此計費(fèi)系統(tǒng)的容災(zāi)也是勢在必行;再者,聯(lián)機(jī)指令直接關(guān)系到用戶業(yè)務(wù)受理的最終實現(xiàn),也必須考慮納入容災(zāi)系統(tǒng)的建設(shè)范圍。其他諸如統(tǒng)計查詢等非關(guān)鍵業(yè)務(wù)則可根據(jù)運(yùn)營商各自的情況來具體考慮。
容災(zāi)可分為數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi)。數(shù)據(jù)容災(zāi)可保證數(shù)據(jù)不丟失,但不能保證服務(wù)不中斷;應(yīng)用容災(zāi)則更上一層樓,它在異地建立一套與本地數(shù)據(jù)系統(tǒng)相當(dāng)?shù)娜哂嘞到y(tǒng),當(dāng)災(zāi)難出現(xiàn)后,遠(yuǎn)程系統(tǒng)可迅速承接本地應(yīng)用系統(tǒng)的業(yè)務(wù),保證服務(wù)基本不中斷。根據(jù)對系統(tǒng)實時性、中斷敏感性、數(shù)據(jù)更新頻度、數(shù)據(jù)量大小、相關(guān)條件等不同要求,容災(zāi)備份可采用各種技術(shù)或多種技術(shù)的組合。以下就對各種常用的容災(zāi)備份技術(shù)作一簡單介紹。
利用磁帶拷貝進(jìn)行數(shù)據(jù)備份和恢復(fù)是常見的傳統(tǒng)災(zāi)難備份方式。使用這種方式的數(shù)據(jù)拷貝通常是存儲在盤式磁帶或盒式磁帶上,并存放在遠(yuǎn)離生產(chǎn)系統(tǒng)的某個安全地點(diǎn)。磁帶通常是在夜間存儲數(shù)據(jù),然后被送到儲藏之處。而在災(zāi)難或各種故障出現(xiàn)系統(tǒng)需要立即恢復(fù),將磁帶提取出來,并運(yùn)送到恢復(fù)地點(diǎn),數(shù)據(jù)恢復(fù)到磁盤上,然后再恢復(fù)應(yīng)用程序。這種方式的實現(xiàn)過程復(fù)雜,恢復(fù)效率低,已越來越不適合用戶不斷發(fā)展的業(yè)務(wù)系統(tǒng)的需要。
對數(shù)據(jù)庫系統(tǒng)可采用遠(yuǎn)程數(shù)據(jù)庫復(fù)制技術(shù)來實現(xiàn)容災(zāi)。這種技術(shù)是由數(shù)據(jù)庫系統(tǒng)軟件來實現(xiàn)數(shù)據(jù)庫的遠(yuǎn)程復(fù)制和同步;跀(shù)據(jù)庫的復(fù)制方式可分為實時復(fù)制、定時復(fù)制和存儲轉(zhuǎn)發(fā)復(fù)制,并且在復(fù)制過程中,還有自動沖突檢測和解決的手段,以保證數(shù)據(jù)一致性不受破壞。其實質(zhì)是實現(xiàn)主、備用系統(tǒng)的數(shù)據(jù)庫的數(shù)據(jù)同步(實時或者準(zhǔn)實時同步),即是將主用系統(tǒng)數(shù)據(jù)庫操作Log實時或者周期性地復(fù)制到備用系統(tǒng)數(shù)據(jù)庫中執(zhí)行,實現(xiàn)二者數(shù)據(jù)的一致性。遠(yuǎn)程數(shù)據(jù)庫復(fù)制對主機(jī)的性能有一定影響,可能增加對磁盤存儲容量的需求(包括對Log的存儲),但系統(tǒng)運(yùn)行恢復(fù)較簡單,在實時復(fù)制方式時數(shù)據(jù)一致性較好,所以對于一些對數(shù)據(jù)一致性要求較高、數(shù)據(jù)修改更新較頻繁的應(yīng)用可采用基于數(shù)據(jù)庫的容災(zāi)備份方案。利用這種技術(shù)實現(xiàn)容災(zāi)的解決方案有Oracle的Data
Guard和Quest的SharePlex。
目前業(yè)內(nèi)實施比較多的容災(zāi)是基于智能存儲系統(tǒng)的遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù)。它是由智能存儲系統(tǒng)自身實現(xiàn)數(shù)據(jù)的遠(yuǎn)程復(fù)制和同步,即智能存儲系統(tǒng)將對本系統(tǒng)中的存儲器I/O操作請求復(fù)制到遠(yuǎn)端的存儲系統(tǒng)中并執(zhí)行,保證數(shù)據(jù)的一致性。由于這種方式下數(shù)據(jù)復(fù)制軟件運(yùn)行在存貯系統(tǒng)內(nèi),因此,較容易實現(xiàn)主中心和容災(zāi)備份中心的操作系統(tǒng)、數(shù)據(jù)庫、系統(tǒng)庫和目錄的實時拷貝維護(hù)能力,且不會影響主中心主機(jī)系統(tǒng)的性能。如果在系統(tǒng)恢復(fù)場所具備了實時數(shù)據(jù),那么就可能做到在災(zāi)難發(fā)生的同時及時開始應(yīng)用處理過程的恢復(fù)。但這種方案也有開放性差(不同廠家的存儲設(shè)備系統(tǒng)一般不能配合使用)、對于主備中心之間的網(wǎng)絡(luò)條件(穩(wěn)定性、帶寬、鏈路空間距離)要求較苛刻等缺點(diǎn)。HP的CA、IBM的PPRC、EMC的SRDF以及HDS的TrueCopy技術(shù)都用于實現(xiàn)基于智能存儲系統(tǒng)的遠(yuǎn)程數(shù)據(jù)復(fù)制。
最后要說的是基于邏輯磁盤卷的遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù)。我們通常將物理存儲設(shè)備劃分為一個或者多個邏輯磁盤卷(Volume),便于數(shù)據(jù)的存儲規(guī)劃和管理。邏輯磁盤卷可理解為在物理存儲設(shè)備和操作系統(tǒng)之間增加一個邏輯存儲管理層。基于邏輯磁盤卷的遠(yuǎn)程數(shù)據(jù)復(fù)制是指根據(jù)需要將一個或多個卷進(jìn)行遠(yuǎn)程同步(或者異步)復(fù)制。該方案通常通過軟件來實現(xiàn),基本配置包括卷管理軟件和遠(yuǎn)程復(fù)制控制管理軟件。遠(yuǎn)程復(fù)制控制管理軟件將主用節(jié)點(diǎn)系統(tǒng)的卷上每次I/O的操作數(shù)據(jù)實時(或準(zhǔn)實時或延時)復(fù)制到遠(yuǎn)程節(jié)點(diǎn)的相應(yīng)卷上,從而實現(xiàn)遠(yuǎn)程兩個卷之間的數(shù)據(jù)同步(或準(zhǔn)同步)。主、備節(jié)點(diǎn)之間通常需要配置相應(yīng)帶寬的IP通道;谶壿嫶疟P卷的遠(yuǎn)程數(shù)據(jù)復(fù)制會增加各節(jié)點(diǎn)主機(jī)的一些處理性能需求,在此前提下且通信帶寬保證時,遠(yuǎn)程復(fù)制效率和數(shù)據(jù)一致性可得到保證;谶壿嫶疟P卷的遠(yuǎn)程數(shù)據(jù)復(fù)制因為是基于邏輯存儲管理技術(shù),一般可與主機(jī)系統(tǒng)、物理存儲系統(tǒng)設(shè)備無關(guān),對物理存儲系統(tǒng)自身的管理功能要求不高,有較好的可管理性,也便于主、備系統(tǒng)的擴(kuò)充和發(fā)展。同時,也可方便做到多個節(jié)點(diǎn)對一個節(jié)點(diǎn)或一對多的遠(yuǎn)程數(shù)據(jù)復(fù)制。利用這種方式的典型解決方案是Veritas的VxVM+VVR。
容災(zāi)的方式和技術(shù)這么多,那么對于移動運(yùn)營商來說應(yīng)如何實現(xiàn)BOSS系統(tǒng)的容災(zāi)呢?這個問題要從多種角度去看。從硬件平臺的角度來看,如果生產(chǎn)中心和容災(zāi)中心選用同一廠商甚至同一型號的設(shè)備,那么采用基于智能存儲系統(tǒng)的遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù)就可優(yōu)先考慮;相反,如果是異構(gòu)平臺,無法在磁盤陣列的層面實現(xiàn)數(shù)據(jù)復(fù)制,那就需要考慮從數(shù)據(jù)庫或磁盤卷的層面上去實施容災(zāi)了。另外,從BOSS系統(tǒng)本身來看,不同的子系統(tǒng)可采用不同的容災(zāi)方式。比如可利用應(yīng)用的解決方式,將批價后等待入庫的文件傳遞多份,實現(xiàn)計費(fèi)系統(tǒng)的容災(zāi);而對于營帳系統(tǒng)的容災(zāi),可利用智能存儲的底層復(fù)制技術(shù)來實現(xiàn)。
對于容災(zāi),還有一個重要的問題需要明確,那就是容災(zāi)不僅僅是技術(shù),而是一個工程。目前很多客戶對容災(zāi)的關(guān)注還停留在技術(shù)上,而對容災(zāi)的流程、規(guī)范以及實施的具體過程還不太清楚。另外實現(xiàn)災(zāi)難恢復(fù)方案將會是一個漫長的過程,
不管采用何種技術(shù),必須確保解決方案的可行性,要經(jīng)過不斷地測試、演習(xí)來完善容災(zāi)的流程。
中國計費(fèi)網(wǎng)(www.billingchina.com)
相關(guān)鏈接: