山西通信集中計(jì)費(fèi)容災(zāi)系統(tǒng)建設(shè)
侯存恩 2004/05/14
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的日新月異以及計(jì)算機(jī)系統(tǒng)處理能力的飛速提高,網(wǎng)絡(luò)帶寬和系統(tǒng)處理能力已經(jīng)不再成為制約企業(yè)IT化集中建設(shè)的因素。同時(shí),隨著企業(yè)信息化數(shù)據(jù)共享的需求日益迫切,全面解決企業(yè)中廣泛存在的"信息孤島"問(wèn)題,建設(shè)集中的計(jì)算機(jī)業(yè)務(wù)系統(tǒng)的需求也日益迫切,集中化已經(jīng)成為當(dāng)今系統(tǒng)建設(shè)的一個(gè)潮流。
針對(duì)電信企業(yè),建設(shè)全省集中的計(jì)費(fèi)帳務(wù)系統(tǒng)已成為大勢(shì)所趨。在當(dāng)今電信運(yùn)營(yíng)企業(yè)以客戶服務(wù)為中心、以靈活方便的用戶服務(wù)政策為經(jīng)營(yíng)發(fā)展重點(diǎn)的形勢(shì)下,計(jì)費(fèi)帳務(wù)系統(tǒng)集中化建設(shè)為之提供了堅(jiān)強(qiáng)的后臺(tái)支撐保障。集中化的企業(yè)計(jì)費(fèi)數(shù)據(jù)一方面為客戶提供了綜合的、全省性的、全業(yè)務(wù)的資費(fèi)政策,另一方面也為企業(yè)自身提供了寶貴的數(shù)據(jù)資源,為數(shù)據(jù)挖掘和經(jīng)營(yíng)分析提供了技術(shù)保障,為企業(yè)全面提高經(jīng)營(yíng)管理水平,更好地服務(wù)電信客戶起到了舉足輕重的作用。
正是因?yàn)榻ㄔO(shè)集中的計(jì)費(fèi)系統(tǒng)才帶來(lái)了容災(zāi)系統(tǒng)建設(shè)的問(wèn)題,隨著企業(yè)系統(tǒng)集中化的建設(shè),企業(yè)對(duì)系統(tǒng)依賴程度也大幅度提高,對(duì)系統(tǒng)可用度要求日益苛刻,針對(duì)集中系統(tǒng)建設(shè)應(yīng)用級(jí)容災(zāi)系統(tǒng)已經(jīng)成為建設(shè)集中系統(tǒng)中的一項(xiàng)不可缺少的內(nèi)容。建設(shè)應(yīng)用級(jí)容災(zāi)系統(tǒng)的思想也是近幾年發(fā)展起來(lái)的,以往并沒(méi)有太多的 經(jīng)驗(yàn)可以借鑒,山西通信在2001年開(kāi)始建設(shè)全省集中的計(jì)費(fèi)帳務(wù)系統(tǒng)及容災(zāi)系統(tǒng),起步較早,也積累了一些經(jīng)驗(yàn)。下面針對(duì)山西通信容災(zāi)系統(tǒng)建設(shè)的幾個(gè)方面作一個(gè)概述。
一、 集中方案的提出背景
山西通信全省集中計(jì)費(fèi)及容災(zāi)系統(tǒng)建設(shè)的提出是在2000年9月在詳細(xì)討論了全省各本地網(wǎng)計(jì)費(fèi)現(xiàn)狀及相關(guān)廠商的軟硬件特點(diǎn)提出的,方案充分考慮了當(dāng)時(shí)電總新的計(jì)費(fèi)規(guī)范和相關(guān)軟硬件的新的技術(shù)特點(diǎn),在較高的系統(tǒng)建設(shè)水平上提出的設(shè)想。通過(guò)建設(shè)集中系統(tǒng)可以有效地解決各本地網(wǎng)之間用戶量以及對(duì)系統(tǒng)需求方面的差異,使我們可以采用當(dāng)今高端技術(shù)與設(shè)備來(lái)建設(shè)計(jì)費(fèi)系統(tǒng);另一方面,采用全省集中的計(jì)費(fèi)系統(tǒng),在業(yè)務(wù)管理、資費(fèi)統(tǒng)一、機(jī)房場(chǎng)地、系統(tǒng)維護(hù)等方面都有十分明顯的優(yōu)勢(shì)。雖然采用集中方案后帶來(lái)了一些新的問(wèn)題與挑戰(zhàn),比如,集中系統(tǒng)的安全運(yùn)行需要一個(gè)堅(jiān)強(qiáng)的軟硬件支持、需要建設(shè)一個(gè)高效、安全、方便、綜合的應(yīng)用級(jí)容災(zāi)系統(tǒng)作保障、需要建立全省標(biāo)準(zhǔn)化的業(yè)務(wù)流程和管理模式、需要依靠高質(zhì)量的容災(zāi)系統(tǒng)軟件、應(yīng)用軟件、完善的系統(tǒng)架構(gòu)和全省堅(jiān)強(qiáng)的計(jì)費(fèi)業(yè)務(wù)管理。
二、 集中計(jì)費(fèi)容災(zāi)系統(tǒng)的容災(zāi)目標(biāo)
在建設(shè)全省集中的計(jì)費(fèi)帳務(wù)系統(tǒng)中,容災(zāi)備用系統(tǒng)的建設(shè)起著舉足輕重的作用。建設(shè)全省集中的計(jì)費(fèi)帳務(wù)系統(tǒng)在中國(guó)電信固網(wǎng)運(yùn)營(yíng)商中史無(wú)前例,而且建設(shè)容災(zāi)備用系統(tǒng)在國(guó)內(nèi)、國(guó)際的大型計(jì)算機(jī)系統(tǒng)中也是最近幾年才逐步采用的方案,因?yàn)閼?yīng)用級(jí)容災(zāi)技術(shù)的高難度和復(fù)雜性,其中絕大多數(shù)僅是完成數(shù)據(jù)級(jí)容災(zāi)功能。數(shù)據(jù)級(jí)容災(zāi)是建設(shè)容災(zāi)系統(tǒng)的基礎(chǔ),但對(duì)于同步數(shù)據(jù)的可用性驗(yàn)證以及利用容災(zāi)備用系統(tǒng)減輕主運(yùn)行系統(tǒng)的負(fù)擔(dān)等方面存在不足;同時(shí)在系統(tǒng)出現(xiàn)嚴(yán)重故障和災(zāi)難時(shí),也無(wú)法保證應(yīng)用系統(tǒng)的正常運(yùn)行。因此對(duì)于山西通信全省集中的計(jì)費(fèi)系統(tǒng)來(lái)說(shuō),只有建設(shè)應(yīng)用級(jí)容災(zāi)備用系統(tǒng),才能滿足集中計(jì)費(fèi)帳務(wù)的業(yè)務(wù)需求。
根據(jù)集中計(jì)費(fèi)系統(tǒng)的特點(diǎn)以及容災(zāi)系統(tǒng)軟硬件的實(shí)際狀況,我們定出了山西通信集中計(jì)費(fèi)帳務(wù)系統(tǒng)的容災(zāi)指標(biāo)。
1. 災(zāi)難的定義:
目前凡是主中心系統(tǒng)突然失去70%以上的業(yè)務(wù)運(yùn)行能力或全系統(tǒng)業(yè)務(wù)停止可能超過(guò)1天以上的故障認(rèn)為是災(zāi)難。
2. 切換時(shí)間指標(biāo)(RTO):
從決定進(jìn)行切換到備用系統(tǒng)完全運(yùn)行之間不超過(guò)30分鐘的目標(biāo)。
3. 容災(zāi)系統(tǒng)數(shù)據(jù)保護(hù)的指標(biāo)(RPO) :
在一般情況下應(yīng)做到不丟失數(shù)據(jù),但相應(yīng)可能會(huì)增加恢復(fù)時(shí)間,因此數(shù)據(jù)損失越少,恢復(fù)時(shí)間將越長(zhǎng),因而系統(tǒng)可用度將越低。
容災(zāi)系統(tǒng)一開(kāi)始提出的初衷主要是備用,即出現(xiàn)主運(yùn)行中心系統(tǒng)不能正常運(yùn)行時(shí),由容災(zāi)備用中心完成系統(tǒng)功能。但在具體建設(shè)容災(zāi)系統(tǒng)時(shí)將面臨我們具體要容什么災(zāi)的問(wèn)題,這將直接影響到容災(zāi)系統(tǒng)機(jī)房的選址問(wèn)題。對(duì)于集中計(jì)費(fèi)系統(tǒng),容災(zāi)系統(tǒng)不應(yīng)當(dāng)針對(duì)自然災(zāi)進(jìn)行設(shè)計(jì),而應(yīng)當(dāng)根據(jù)容災(zāi)設(shè)備的技術(shù)特點(diǎn)適當(dāng) 考慮地理因素進(jìn)行建設(shè),避免產(chǎn)生不必要的網(wǎng)絡(luò)投資以及給后續(xù)維護(hù)帶來(lái)麻煩。針對(duì)容災(zāi)系統(tǒng)要容什么災(zāi),概括如下。
1) 自然災(zāi):主要是地震、洪水、火災(zāi)或供電故障等外界因素造成的災(zāi)害,出現(xiàn)機(jī)率微乎其微。
2) 硬件災(zāi):主要是系統(tǒng)硬件系統(tǒng)大面積損壞造成的整個(gè)系統(tǒng)癱瘓,目前在硬件系統(tǒng)的建設(shè)中有眾多的技術(shù)可以保證硬件系統(tǒng)具有極高的可靠性及冗余故障的能力,山西通信使用了IBM最高端P680服務(wù)器,并采用了雙機(jī)集群,存貯設(shè)備使用EMC專(zhuān)業(yè)存貯服務(wù)器Symmetrix8730,并采用Raid0+1技術(shù)。但畢竟在應(yīng)用數(shù)據(jù)上還是單點(diǎn)。在網(wǎng)絡(luò)的設(shè)計(jì)中采用多路由的冗余技術(shù),因此在硬件上出現(xiàn)大面積故障或存貯設(shè)備出現(xiàn)故障的可能性不太大,但這類(lèi)型的故障出現(xiàn)也是正常的,對(duì)系統(tǒng)運(yùn)行將是致命的,要提高其可靠性還得要增加設(shè)備,并最終建設(shè)容災(zāi)系統(tǒng)。
3) 軟件災(zāi):主要包括操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件、應(yīng)用軟件、人為誤操作(包括黑客行為)造成的整個(gè)系統(tǒng)癱瘓,出現(xiàn)的可能性比前兩種要多許多,人為誤操作是最容易出現(xiàn)的災(zāi)害,我們的系統(tǒng)高度集中,數(shù)據(jù)庫(kù)、應(yīng)用軟件兩者的配合現(xiàn)在還無(wú)法達(dá)到嚴(yán)格的安全級(jí)別,網(wǎng)絡(luò)及操作系統(tǒng)及數(shù)據(jù)被攻擊的實(shí)例屢見(jiàn)不鮮。
對(duì)于我們的計(jì)費(fèi)系統(tǒng),主要容的是后兩種災(zāi)。如果沒(méi)有這兩種考慮,我們沒(méi)有必要花巨資建設(shè)容災(zāi)系統(tǒng)。這兩種災(zāi)是我們建設(shè)高級(jí)別容災(zāi)系統(tǒng)(應(yīng)用級(jí)容災(zāi))的原因所在。
三、 建設(shè)省集中計(jì)費(fèi)的容災(zāi)系統(tǒng)所起的作用
山西通信建設(shè)容災(zāi)備用系統(tǒng)的方案經(jīng)過(guò)近一年的討論以及相關(guān)專(zhuān)家、廠商的論證,認(rèn)為目前的容災(zāi)方案成熟可行,和分散方案與建立全省三大區(qū)方案相比,節(jié)約了資金投入。在容災(zāi)方面也考慮到容災(zāi)系統(tǒng)的特點(diǎn),進(jìn)行了合理的設(shè)備配置,將根據(jù)網(wǎng)間結(jié)算系統(tǒng)的特點(diǎn)將其移到容災(zāi)中心運(yùn)行;容災(zāi)中心基于EMC的BCV以及SRDF技術(shù)對(duì)Symmetrix8730存貯服務(wù)器的磁盤(pán)不使用Raid保護(hù)等,節(jié)約了投資,使容災(zāi)系統(tǒng)發(fā)揮最大作用。容災(zāi)備用系統(tǒng)在整個(gè)系統(tǒng)所起的作用是多方面的,它的作用決不僅僅限于容災(zāi)作用,其建設(shè)為集中系統(tǒng)的安全實(shí)現(xiàn)提供了堅(jiān)強(qiáng)的后備保障基礎(chǔ),還為系統(tǒng)建設(shè)的前期、中期、后期提供多方面的支持,容災(zāi)系統(tǒng)主要作用表現(xiàn)在如下方面。
1.完成運(yùn)行數(shù)據(jù)的可靠實(shí)時(shí)復(fù)制,確保應(yīng)用所有數(shù)據(jù)的安全。
2.完成應(yīng)用軟件及數(shù)據(jù)的脫機(jī)備份,從根本上將備份工作從生產(chǎn)系統(tǒng)中解放出來(lái),提高了備份效率,降低了備份工作對(duì)主運(yùn)行系統(tǒng)的性能影響。
3.利用容災(zāi)備用系統(tǒng)的可分離生產(chǎn)備份數(shù)據(jù)(BCV)可以從很高級(jí)別上解決數(shù)據(jù)級(jí)容災(zāi)中存在的備份數(shù)據(jù)可用性不能進(jìn)行驗(yàn)證的問(wèn)題。同時(shí),可以進(jìn)行應(yīng)用一級(jí)的數(shù)據(jù)備份與恢復(fù)(EXP&IMP等)。
4.容災(zāi)系統(tǒng)不應(yīng)僅僅是容災(zāi)、備用和備份,它還可以完成一些在主中心難以完成的事情,并可以降低主中心的運(yùn)行負(fù)荷。這主要是將利用空分和時(shí)分的原理將主中心的部分業(yè)務(wù)(時(shí)效性不十分強(qiáng),但最消耗資源,如查詢、統(tǒng)計(jì)、數(shù)據(jù)挖掘等)分流到容災(zāi)備用系統(tǒng)上運(yùn)行,當(dāng)容災(zāi)中心有問(wèn)題時(shí)移回主中心工作。
5.作為每個(gè)本地網(wǎng)開(kāi)通前的驗(yàn)證場(chǎng)所,同時(shí)也為測(cè)試提供最貼近的應(yīng)用數(shù)據(jù)真實(shí)環(huán)境,最大程度保證了每個(gè)本地網(wǎng)進(jìn)入集中系統(tǒng)時(shí)的可靠性,降低對(duì)主系統(tǒng)帶來(lái)的風(fēng)險(xiǎn)。
6.在計(jì)費(fèi)系統(tǒng)以后的擴(kuò)展中,不便在主中心建設(shè)的系統(tǒng),可以在容災(zāi)備用系統(tǒng)(準(zhǔn)確點(diǎn)應(yīng)叫作輔系統(tǒng))上建設(shè),可以利用主系統(tǒng)存貯設(shè)備進(jìn)行數(shù)據(jù)級(jí)容災(zāi),因此,建設(shè)一個(gè)完整的容災(zāi)備用系統(tǒng)對(duì)以后系統(tǒng)的擴(kuò)展具有極大的靈活性。
7.以后針對(duì)計(jì)費(fèi)數(shù)據(jù)分析系統(tǒng)(數(shù)據(jù)倉(cāng)庫(kù)技術(shù))的建設(shè)可以十分容易地?cái)U(kuò)展容災(zāi)備用中心的硬盤(pán)后建成,而不用另建系統(tǒng)或在主系統(tǒng)上進(jìn)行擴(kuò)容,在主系統(tǒng)再建立數(shù)據(jù)挖掘系統(tǒng)將是一個(gè)十分危險(xiǎn)的事情;另建設(shè)一個(gè)系統(tǒng)效果一定不好,因?yàn)檫@些系統(tǒng)的基礎(chǔ)數(shù)據(jù)基本都是計(jì)費(fèi)系統(tǒng)數(shù)據(jù),大數(shù)據(jù)的遷移很困難,實(shí)時(shí)性無(wú)法保障。
8.應(yīng)用級(jí)容災(zāi)系統(tǒng)從最高水平上達(dá)到計(jì)費(fèi)業(yè)務(wù)的連續(xù)性。
9.容災(zāi)備用系統(tǒng)與主系統(tǒng)在空間的分割可以有效地防止火災(zāi)、電源故障、大部分自然災(zāi)害和全部的硬件、軟件故障引起的業(yè)務(wù)停頓。
四、 建立容災(zāi)系統(tǒng)后要重點(diǎn)注意的事情
1.建設(shè)容災(zāi)系統(tǒng)后對(duì)容災(zāi)系統(tǒng)的運(yùn)行效果和狀況的了解至關(guān)重要,隨著系統(tǒng)集中化程度的提高,數(shù)據(jù)同步以及備份的復(fù)雜度也在提高,因此要加強(qiáng)對(duì)數(shù)據(jù)可用性的驗(yàn)證工作,并定期進(jìn)行容災(zāi)系統(tǒng)的模擬演練。
2.建立完善的容災(zāi)操作流程,在容災(zāi)模擬演練中逐步完善,確保在災(zāi)難發(fā)生時(shí)各項(xiàng)操作做到有條不紊。
3.應(yīng)用級(jí)容災(zāi)更大要求業(yè)務(wù)的連續(xù)性,因此在建設(shè)容災(zāi)系統(tǒng)時(shí)單純依靠硬件及存貯的數(shù)據(jù)同步與復(fù)制功能還遠(yuǎn)遠(yuǎn)不夠,多種類(lèi)、多級(jí)別、自動(dòng)化的備份是提高容災(zāi)水平的一項(xiàng)重要措施。
4.盡量減小主系統(tǒng)與容災(zāi)系統(tǒng)、生產(chǎn)數(shù)據(jù)與備份數(shù)據(jù)之間的耦合度和關(guān)聯(lián)性,在數(shù)據(jù)恢復(fù)和災(zāi)難切換方面要注意人的因素,制定切實(shí)可靠的針對(duì)不同情況的數(shù)據(jù)恢復(fù)及容災(zāi)切換方案。
(作者為山西省通信公司計(jì)費(fèi)結(jié)算中心高級(jí)技術(shù)經(jīng)理)
作者供稿
原文刊登于中國(guó)計(jì)費(fèi)網(wǎng)(www.billingchina.com)
相關(guān)鏈接: