【中國傳動網 企業動態】 無人期盼災難的來臨,但是災難如守信的信使一般總是遵守墨菲定律,他偏愛在你最不愿意他光臨的雨夜敲門。
因此我們有必要為時間還來得及的時候,安排好一切。災難恢復計劃Disasterrecoveryplan以簡單描述成DRP就是幫助一個數據中心領導人或組織,在運營之初就為災難做好準備計劃,這種計劃不能避免災難的發生,但是極為有助于大幅減少災難發生后的產生的影響和提高在災難發生過程中,數據中心業務持續運行不受影響。
DRP之緣起
自2017年以來,我國陸續建成了一批超大型數據中心,面積在一萬平米以上或者機柜數量在2000機柜以上。這些數據中心陸續投入運行以后,可以說是新聞迭出,被光纜施工、水患災難甚至是市政電力系統的升級所影響甚至停業的數據中心案例層出不窮,我們數據中心運營的從業者需要對災難加以評估、準備和計劃,一切尚不晚,而縱觀我們多數的數據中心運營者甚至連DRP的概念都還沒有形成,因此本文力圖在這方面給出一定的提醒和參考。
可能會有人對DRP與EOP兩個計劃的概念混淆不清EOP(EmergencyOperatingProcedure)應急運行計劃,是對已知的、已經驗證的災難加以演練并制定已經計劃,而DRP則更多關注災難已經發生,我們應該如何組織自救、恢復生產,確保在在災難發生過程中生產如何安全、持續的運行。
那么我們將在多大的范圍或多高的位置討論這個計劃呢?一個具體的數據中心場地,而不是多個,因為每一個數據中心場地都是不一樣的,恢復計劃不能簡單套用。災難恢復計劃的最高負責人又是誰呢?災難恢復小組組長,請不要誤會這個組長是一個常設的小職務,他通常應該是這個場站的運維經理,在國內可能是一個企業的運維總監或者基礎設施總監,他日常的職務可能主管多個支持部門,包括物理設施運維部、IT設施運營部、工程建設部等。
災難恢復小組組長責任重大(出于某種考慮,可以再設置副組長一名),他決定是否啟動或結束災難恢復計劃。
一個災難恢復計劃的模板應該包括如下信息:
災難恢復計劃本身的信息必須由DRP恢復小組組長任命的現場經理及時更新,當現場經理發現任何不正確、丟失應立即通知現場相關的管理人員加以糾正直至信息完全準備并記錄在案。
我們還需要對災難這個詞本身進行一個定義,這里的災難指的是導致數據中心的服務遭受損失,災難的程度可以分級,是數據中心服務減少了?還是根本停止了?以及這個災難可能導致的后果是什么?比如火災、水患、恐怖襲擊、人為錯誤還是軟硬件故障等等。
一個災難恢復計劃的成功實施,是需要一個數據中心站場內的各個部門相互協同的,一個災難恢復小組都有哪些人員或組織組成呢?小組成員通常包含以下幾個部門:首先是災難恢復小組組長,通常由場地的運維經理(總監級)擔任,在國內也許是這個數據中心的總經理;其次是現場運維組長,國內應該是運維經理,網絡小組組長(國內為IT運維經理);物理設施運維組長(國內是主管機電系統的運維經理);總監(國內則應該是集團公司的COO或者IDC公司的COO);異地備份人員(同樣包括基礎設施和IT)。
從上面的組織配置我們應該看出,DRP計劃從組織結構的建立上就是一個不依賴任何單人或單體組織的計劃,那從組織結構上強調雙冗余或雙活的機制,強調異地備份和組織鏡像。
DRP大軍的組建
現在我們有了一個災難管理團隊的成員,下面一步則是根據不同的工作任務,分成若干的團隊并定義每個小組成員的工作職責。
01
災難管理團隊
DisasterManagementTeam
(工作地點應設置在數據中心的指揮中心或ECC)
災難管理團隊的主要職責:
1)災難管理團隊負責提供數據中心恢復操作的總體方向;
2)負責確立損壞程度和激活恢復組織,負責通知各團隊領導人;
3)監測和指導恢復工作;
4)負責決定是否需要引入災難恢復程序。如果決定這么做,那么在程序所定義的實施過程中,災難管理小組所作出的決定將取代任何現有的行政管理機構。
這里面引用一個香港著名電影《寒戰》里面的案例,在電影中香港可能受到了恐怖襲擊的潛在威脅,災難恢復計劃由管理小組的幾位成員投票決定啟動,災難管理小組有權在程序運行期間,任免警員、調用特警、動用后備資源、管理公共信息發布等等。
災難管理團隊的職責分解如下:
1)為最終用戶提供可以量化、可以識別的業務服務水平說明文件,并在文件中說明災難管理計劃中管理團隊所肩負的啟動災難恢復計劃的職責和可能的處理;
2)管理所有救援團隊、聯系公司總部、聯系用戶;
3)在災難恢復計劃執行過程中保持隨時審計、安全控制;
4)控制和記錄緊急費用和開支。
災難管理團隊的具體責任如下:
1)評估問題的程度和潛在的后果;
2)通知高級管理人員的災難、恢復進展和問題;
3)啟動災難恢復程序;
4)協調恢復操作;
5)監控恢復操作,并確保計劃的進度;
6)記錄恢復操作;
7)用戶管理;
8)監督授權支出的其它團隊;
9)記錄緊急非凡的成本和支出;
10)對保險索賠的損害進行了詳細會計處理:
①確保在數據中心恢復運營是根據充分的審計控制,記錄提供可靠性和一致性;
②監控數據中心的安全標準;
③確保適當的安排,以恢復網站,并恢復在緊急模式處理允許的時間范圍內的現狀;
④宣布數據中心恢復時,災難恢復計劃不再生效。
02
運營團隊
OperationsTeam
運營團隊的主要職責:
1)負責數據中心環境和IT設施日常運營工作;
2)在災難恢復計劃中承擔具體操作任務。
運營團隊的職責分解如下:
1)負責所有歷史的和當前的數據中心環境所產生的數據和系統,并對系統進行更新,以保持其是最新的版本;
2)按照滿足最終客戶定義要求,為數據中心的恢復、數據控制、安全防范、磁帶或介質存放提供管理和配置人員;
3)支持所有環境關鍵應用所需的可操作版本,以滿足最低運行要求。
運營團隊的具體職責如下:
1)為數據中心關鍵機電系統提供持續技術支持;
2)與IT網絡團隊合作,恢復本地和廣域數據通信服務,以滿足最低的處理要求;
3)為異地存儲獲得所有必要的備份;
4)機電系統重啟動服務;
5)重新建立軟件庫和數據庫,及時備份最后版本;
6)為機電系統提供足夠的日常操作人員;
7)建立安全防范平臺和數據中心控制設施;
8)對設施進行日常管理,以達到客戶的要求;
9)安排采購和提供IT設備必要的日常耗材;
10)確保所有文件的標準化、操作記錄、維護記錄、應用程序都存放在一個安全的環境區域,并配備必要的重建設施。
03
網絡團隊
NetworksTeam
網絡團隊的主要任務:
負責所有數據中心的網絡系統和通訊。
網絡團隊的職責分解:
1)為關鍵客戶安排所有新的本地或廣域網的通信設施和網絡搭建;
2)如果需要的話,為客戶提供基于網絡的語音通訊服務或其他語音通信服務。
網絡團隊的具體職責:
1)評估語音和網絡通訊服務,并負責與電信運營商協調備用通信措施;
2)負責重建網絡設施所需的一切操作;
3)與用戶定義在網絡恢復中的優先事項;
4)與要求訂購語音和網絡通信設備;
5)提供必要的網絡文檔;
6)提供持續支持業務的網絡設備;
7)災難恢復后,重新建立網站的網絡。
04
設施團隊
FacilitiesTeam
設施團隊的主要職責:
負責所有IT房外環境區域,包括建筑本身環境服務,該團隊負責安全、健康和建筑設施的更換。
設施團隊的職責分解:
1)管理重建現場的環境和運營;
2)管理現場的物流和運輸;
3)負責設施所在場地的安全(根據需要,增加物理安全措施)。
設施團隊的具體職責:
1)與災害管理團隊一起,進行損害的評估和確定可回收設備;
2)與網絡團隊合作,準備好快速激活的線路;
3)清理災難現場,確保該網站,以防止進一步的損害;
4)提供發起保險索賠的信息;
5)確保保險賠償安排及時滿足災難發生時的情況(即任何可更換設備立即得到更新等);
6)準備重新使用數據中心的網絡;
7)保證配置的數據中心符合使用的需要,包括但不限于下面的設施:
空調系統,配電系統,市電供應及連接的有效,隔斷和地板,災難區域的安全控制,各支持辦公環境,工作員工的安全和福利、勞保。
05
通信團隊
CommunicationsTeam
通信團隊的主要職責:
負責對內外的通訊。
通信團隊的職責分解:
通信團隊負責從災難管理團隊獲取通信指令,并在災難和恢復階段向員工、供應商、客戶和媒體(包括:新聞、電視、廣播)傳遞信息。
通信團隊的具體職責如下:
1)從災難管理團隊獲得指令,并保持通訊的持續和對外溝通的暢通;
2)適當的向當地、國內、國際披露信息;
3)通知供應商和客戶潛在的延誤;
4)通知員工恢復進度的時間表;
5)確保沒有誤解,可能傷害公司形象;
6)其他的公共關系。
06
其他恢復團隊
OtherRecoveryTeam
其他恢復團隊的職責:
包括在災難恢復計劃中被認為是必要的其他團隊的一部分。確保你描述每個團隊的職責和活動。
具體團隊描述:
1)人力和采購團隊;
2)業務團隊;
3)損傷評估小組。