IT基礎(chǔ)設(shè)施災(zāi)難恢復(fù)指南
什么是災(zāi)難?
災(zāi)難是一種具有挑戰(zhàn)性的麻煩,它會(huì)立即超出可用人力、IT、財(cái)務(wù)和其他資源的能力,并導(dǎo)致寶貴資產(chǎn)(例如,文檔、知識產(chǎn)權(quán)對象、數(shù)據(jù)或硬件)的重大損失。
在大多數(shù)情況下,災(zāi)難是一系列突發(fā)事件造成的非典型威脅,一旦災(zāi)難開始,就很難或不可能停止。根據(jù)災(zāi)難的類型,組織需要以特定的方式做出反應(yīng)。
有三種主要類型的災(zāi)難:
天災(zāi)
技術(shù)和人為災(zāi)難
混合災(zāi)害
當(dāng)你聽到“災(zāi)難”這個(gè)詞時(shí),你首先想到的可能是自然災(zāi)害。不同類型的自然災(zāi)害包括洪水、地震、森林火災(zāi)、異常高溫、強(qiáng)降雪、暴雨、颶風(fēng)和龍卷風(fēng)以及海洋風(fēng)暴。
技術(shù)災(zāi)難是任何與技術(shù)基礎(chǔ)設(shè)施故障、人為錯(cuò)誤或惡意相關(guān)的后果。該列表可以包括任何問題,從組織中的軟件中斷到給整個(gè)城市、地區(qū)甚至整個(gè)國家?guī)砝щy的發(fā)電廠問題。
這些災(zāi)難包括全球軟件中斷、關(guān)鍵硬件故障、斷電和供電問題、惡意軟件滲透(包括勒索軟件攻擊)、電信問題(包括網(wǎng)絡(luò)隔離)、軍事沖突、恐怖主義事件、大壩故障、化學(xué)事故。
要提到的第三類災(zāi)害描述了結(jié)合了自然和技術(shù)因素特征的混合災(zāi)害。例如,大壩潰決可能引發(fā)洪水,導(dǎo)致整個(gè)地區(qū)或國家的停電和通信問題。
什么是災(zāi)難恢復(fù)?
災(zāi)難恢復(fù)(災(zāi)難恢復(fù))是一組操作(方法),組織在發(fā)生全球性中斷事件后應(yīng)采取這些操作來恢復(fù)運(yùn)營。重大災(zāi)難恢復(fù)活動(dòng)側(cè)重于恢復(fù)對數(shù)據(jù)、硬件、軟件、網(wǎng)絡(luò)設(shè)備、連接和電源的訪問。災(zāi)難恢復(fù)措施還包括重建物流,以及在資產(chǎn)受損或毀壞的情況下重新安置員工和辦公設(shè)備。
要?jiǎng)?chuàng)建災(zāi)難恢復(fù)計(jì)劃,您需要考慮在這些期間要完成的操作順序:
- 災(zāi)難發(fā)生前(構(gòu)建、維護(hù)和測試災(zāi)難恢復(fù)系統(tǒng)和策略)。
- 災(zāi)難期間(應(yīng)用即時(shí)響應(yīng)措施以避免或減輕資產(chǎn)損失)。
- 災(zāi)難發(fā)生后(應(yīng)用災(zāi)難恢復(fù)系統(tǒng)恢復(fù)運(yùn)營,聯(lián)系客戶、合作伙伴和官員,分析損失和恢復(fù)效率)。
- 以下是災(zāi)難恢復(fù)計(jì)劃中應(yīng)包含的要點(diǎn)。
業(yè)務(wù)影響分析和風(fēng)險(xiǎn)評估數(shù)據(jù)
在這一步,您將研究對您的組織來說最典型和最危險(xiǎn)的威脅和漏洞。有了這些知識,您還可以計(jì)算特定災(zāi)難發(fā)生的概率,衡量對生產(chǎn)的潛在影響,并更輕松地實(shí)施合適的災(zāi)難恢復(fù)解決方案。
恢復(fù)目標(biāo):定義的RPO和RTO
RPO是恢復(fù)點(diǎn)目標(biāo):該參數(shù)定義了在不顯著影響生產(chǎn)的情況下可以丟失的數(shù)據(jù)量。RTO是恢復(fù)時(shí)間目標(biāo):您的組織可以容忍的最長停機(jī)時(shí)間,因此也是您可以完成恢復(fù)工作流的最長時(shí)間。
責(zé)任分配
了解每個(gè)成員在災(zāi)難發(fā)生時(shí)的職責(zé)的團(tuán)隊(duì)是高效災(zāi)難恢復(fù)計(jì)劃的必備組件。組建一個(gè)專門的災(zāi)難恢復(fù)團(tuán)隊(duì),為每個(gè)員工分配特定的角色,并培訓(xùn)他們在真正的災(zāi)難發(fā)生之前履行自己的職責(zé)。當(dāng)需要采取實(shí)際行動(dòng)來拯救組織的資產(chǎn)和生產(chǎn)時(shí),這是避免混亂和遺漏環(huán)節(jié)的方法。
災(zāi)難恢復(fù)站點(diǎn)創(chuàng)建
任何規(guī)?;蛐再|(zhì)的災(zāi)難都會(huì)嚴(yán)重?fù)p壞您的主服務(wù)器和生產(chǎn)辦公室,使恢復(fù)那里的操作變得不可能或非常耗時(shí)。在這種情況下,具有關(guān)鍵工作負(fù)載副本的準(zhǔn)備好的災(zāi)難恢復(fù)站點(diǎn)是最大限度減少RTO并在緊急情況期間和之后繼續(xù)為組織的客戶端提供服務(wù)的最佳選擇。
故障回復(fù)準(zhǔn)備
回切是在主數(shù)據(jù)中心再次運(yùn)行時(shí)將工作負(fù)載返回到主站點(diǎn)的過程,在規(guī)劃災(zāi)難恢復(fù)時(shí)可能會(huì)被忽略。
然而,預(yù)先建立回切序列有助于使整個(gè)過程更加平穩(wěn),并避免否則可能發(fā)生的少量數(shù)據(jù)丟失。此外,請記住,災(zāi)難恢復(fù)站點(diǎn)通常不是為支持您的基礎(chǔ)架構(gòu)長期運(yùn)行而設(shè)計(jì)的。
關(guān)鍵文檔和資產(chǎn)的遠(yuǎn)程存儲(chǔ)
如今,即使是小型組織也會(huì)產(chǎn)生和處理大量關(guān)鍵數(shù)據(jù)。丟失硬拷貝或數(shù)字文檔會(huì)使其恢復(fù)非常耗時(shí)、昂貴,甚至不可能。
因此,準(zhǔn)備遠(yuǎn)程存儲(chǔ)(例如,用于數(shù)字文檔的VPS云存儲(chǔ)和用于硬拷貝資產(chǎn)的受保護(hù)物理存儲(chǔ))是確保重要數(shù)據(jù)在發(fā)生災(zāi)難時(shí)可訪問性的可靠選擇。如果您愿意,可以立即查看適用于VMware災(zāi)難恢復(fù)的一體化解決方案。
注意設(shè)備要求
此災(zāi)難恢復(fù)計(jì)劃元素需要審核支持您組織的IT基礎(chǔ)架構(gòu)運(yùn)行的節(jié)點(diǎn)。這包括計(jì)算機(jī)、物理服務(wù)器、網(wǎng)絡(luò)路由器、硬盤、基于云的服務(wù)器托管設(shè)備等。
這些知識使您能夠查看災(zāi)難發(fā)生后恢復(fù)IT環(huán)境原始狀態(tài)所需的要素。此外,您還可以看到至少支持任務(wù)關(guān)鍵型工作負(fù)載并在主要資源不可用時(shí)確保生產(chǎn)連續(xù)性所需的設(shè)備列表。
定義的溝通渠道
確保為您的員工、管理層和災(zāi)難恢復(fù)團(tuán)隊(duì)提供穩(wěn)定可靠的內(nèi)部通信系統(tǒng)。設(shè)置通信通道的使用順序,以便在災(zāi)難發(fā)生后立即處理主服務(wù)器和內(nèi)部網(wǎng)絡(luò)不可用的情況。
概述的響應(yīng)程序
在災(zāi)難恢復(fù)計(jì)劃中,最初幾個(gè)小時(shí)至關(guān)重要。創(chuàng)建關(guān)于如何執(zhí)行災(zāi)難恢復(fù)活動(dòng)、監(jiān)控和實(shí)施流程、故障轉(zhuǎn)移順序、系統(tǒng)恢復(fù)驗(yàn)證等的分步說明。如果盡管采取了所有預(yù)防措施,災(zāi)難仍然襲擊生產(chǎn)中心,對特定事件的集中和快速響應(yīng)有助于減輕損失。
向利益相關(guān)者報(bào)告事故
在災(zāi)難發(fā)生并中斷您的生產(chǎn)后,不僅應(yīng)該通知災(zāi)難恢復(fù)團(tuán)隊(duì)成員。您還需要通知關(guān)鍵利益相關(guān)方,包括您的營銷團(tuán)隊(duì)、第三方供應(yīng)商、合作伙伴和客戶。
作為災(zāi)難恢復(fù)計(jì)劃的一部分,創(chuàng)建大綱和腳本,向您的員工展示如何告知每個(gè)關(guān)鍵團(tuán)隊(duì)他們所關(guān)注的問題。此外,事先準(zhǔn)備一份基本的新聞稿可以幫助你在實(shí)際事故中不浪費(fèi)時(shí)間。
災(zāi)難恢復(fù)計(jì)劃測試和調(diào)整
成功的組織會(huì)隨著時(shí)間的推移而變化和擴(kuò)展,他們的災(zāi)難恢復(fù)計(jì)劃應(yīng)該根據(jù)相關(guān)需求和恢復(fù)目標(biāo)進(jìn)行調(diào)整。完成計(jì)劃后立即測試它,并在每次引入變更時(shí)執(zhí)行額外的測試。因此,您可以衡量災(zāi)難恢復(fù)計(jì)劃的效率,并確保資產(chǎn)的可恢復(fù)性。
應(yīng)用最佳災(zāi)難恢復(fù)策略
災(zāi)難恢復(fù)策略可以在DIY(自己動(dòng)手)的基礎(chǔ)上實(shí)施,也可以委托給第三方供應(yīng)商。前一種選擇是為了經(jīng)濟(jì)而犧牲可靠性,而后一種選擇可能更昂貴但更有效。
災(zāi)難恢復(fù)策略的選擇完全取決于您組織的特征,包括團(tuán)隊(duì)規(guī)模、IT基礎(chǔ)架構(gòu)復(fù)雜性、預(yù)算、風(fēng)險(xiǎn)因素和期望的可靠性等。
摘要
災(zāi)難是一種突然發(fā)生的破壞性事件,會(huì)導(dǎo)致一個(gè)組織無法運(yùn)作。自然災(zāi)害、人為災(zāi)害和混合災(zāi)害具有不同程度的可預(yù)測性,但它們在組織層面上幾乎是不可預(yù)防的。確保組織安全的唯一方法是根據(jù)組織的特定需求創(chuàng)建可靠的災(zāi)難恢復(fù)計(jì)劃。
災(zāi)難恢復(fù)計(jì)劃的關(guān)鍵要素包括:
- 風(fēng)險(xiǎn)評估和影響分析
- 定義的RPO和RTO
- 災(zāi)難恢復(fù)團(tuán)隊(duì)職責(zé)已分配
- 災(zāi)難恢復(fù)站點(diǎn)創(chuàng)建
- 故障回復(fù)的準(zhǔn)備工作
- 遠(yuǎn)程存儲(chǔ)
- 設(shè)備清單
- 已建立的溝通渠道
- 即時(shí)反應(yīng)序列
- 事故報(bào)告說明
- 災(zāi)難恢復(fù)測試和調(diào)整
- 最佳災(zāi)難恢復(fù)策略選擇