云部署的高可用性和災(zāi)難恢復(fù)的四個專家提示
了解如何使用高可用性 (HA) 和災(zāi)難恢復(fù) (DR) 方法在停機的情況下繼續(xù)不間斷地運行。
業(yè)務(wù)連續(xù)性是指公司在停機情況下繼續(xù)不間斷運營的能力。在云環(huán)境中,這通常包括高可用性 (HA) 和災(zāi)難恢復(fù) (DR)。
他們的最終目標是盡可能減少所有停機風險,以便您可以在中斷的情況下正常運行關(guān)鍵服務(wù)。
繼續(xù)閱讀以了解有關(guān) HA 和 DR 以及如何提高云中業(yè)務(wù)連續(xù)性的更多信息。
高可用性意味著什么?
高可用性的基本理念是讓您的基于云的服務(wù)和工具可以按需訪問和工作。但是,HA 的概念所指的遠比僅僅讓您的云資源在您需要時隨時可用更具體。
可用性是您的云基礎(chǔ)架構(gòu)保持運行以達到其目的的時間百分比,通常以九位表示。例如,“五乘九”表示系統(tǒng)在 99.999% 的時間內(nèi)完全運行,平均每年有 5.5 分鐘的停機時間。
如果您希望為您的云部署實現(xiàn)高可用性,您需要通過系統(tǒng)冗余來消除單點故障。HA 還需要編排云系統(tǒng)以自動路由網(wǎng)絡(luò)流量并減少用戶和應(yīng)用程序的停機時間。
災(zāi)難恢復(fù)意味著什么?
災(zāi)難恢復(fù)是預(yù)測和解決可能導(dǎo)致 IT 系統(tǒng)崩潰的問題的過程。
DR 可以像從備份中恢復(fù)一樣簡單,但也可以根據(jù)恢復(fù)時間目標 (RTO) 和恢復(fù)點目標 (RPO) 變得更加復(fù)雜。
RTO 是系統(tǒng)在再次完全運行之前可以關(guān)閉的最長時間。有些設(shè)置可以停機數(shù)小時甚至數(shù)天而不會造成損害,但對于關(guān)鍵任務(wù)元素,RTO 通常以秒為單位。
RPO 是可容忍的數(shù)據(jù)丟失量。雖然在某些設(shè)置中丟失一天的數(shù)據(jù)可能是可以接受的,但在更關(guān)鍵的系統(tǒng)中,這可能是幾分鐘。
RTO 和 RPO 的可容忍長度會顯著影響您的災(zāi)難恢復(fù)計劃。它們需要的時間越短,您就越需要注意活動數(shù)據(jù)復(fù)制、更多冗余或更頻繁的備份等因素。
所有這些都會轉(zhuǎn)化為更高的賬單——成本通常是阻止組織推動高可用性和縮短 RTO 和 RPO 的主要因素。達到最佳平衡點需要平衡費用和潛在系統(tǒng)停機時間的影響——在某些情況下,HA 和較短的 DR 值可能是不必要的。
這里有四個專家提示,可幫助您增強云部署的業(yè)務(wù)連續(xù)性。
高可用性和災(zāi)難恢復(fù)的四個技巧
1. 操作可觀察性
了解云部署的整體健康狀況對于云環(huán)境的高可用性至關(guān)重要。
操作可觀察性是指將日志記錄、指標和跟蹤與用于診斷和故障排除的工具一起聚合的能力。
根據(jù)經(jīng)驗,您的云部署應(yīng)該集成用于可視化、警報和通知的日志記錄和關(guān)鍵指標。
為此,您可以使用云服務(wù)提供商的本地監(jiān)控和可觀察性工具。例如,AWS 有一個名為CloudWatch 的工具集,GCP — Google Cloud 的 Operations Suite(以前稱為 StackDriver),以及 Azure — Azure Monitor。然而,這些并不是免費的,它們的成本取決于指標的數(shù)量和處理的日志數(shù)據(jù)量。
您還可以從眾多第三方工具中進行選擇,例如 DataDog、New Relic、Dynatrace 等。來自Grafana和 Elasticsearch的開源解決方案也是受歡迎的選擇。
根據(jù)您的需要選擇合適的工具后,最好通過基礎(chǔ)架構(gòu)即代碼(IaC) 部署它。
2.使用IaC進行備份和恢復(fù)
運行 IaC 工具的一個顯著優(yōu)勢是它允許您在云中重新創(chuàng)建所有最終工件和組件以實現(xiàn)完全恢復(fù)。
使用 IaC,您只需要 Git 存儲庫級別的傳統(tǒng)備份/恢復(fù)過程。敏感的備份活動必須轉(zhuǎn)移到確保您有足夠的代碼存儲庫備份策略。您可以使用 Git 工具和跨區(qū)域存儲解決方案來實現(xiàn)這一點。
每個區(qū)域云部署都包含需要備份的數(shù)據(jù)。文件系統(tǒng)、對象存儲桶和塊存儲卷等應(yīng)用程序可以使用各種存儲解決方案。
每個工件都需要獨立于您的云部署的備份和保留策略。您需要為每個遷移的應(yīng)用程序和關(guān)聯(lián)的存儲組件解決這些問題。
3.使用IaC進行災(zāi)難恢復(fù)
IaC 的另一個顯著優(yōu)勢是它可以在最少的人工干預(yù)下自動重建整個云區(qū)域。
但是,為了滿足您所需的 RTO 和 RPO,您可能需要數(shù)據(jù)同步解決方案。
您的部署應(yīng)包括一個具有最低限度定義的基礎(chǔ)架構(gòu)的冷備用云區(qū)域。主要目標是同步關(guān)鍵基礎(chǔ)設(shè)施組件的存儲和數(shù)據(jù)庫以及任何特定于應(yīng)用程序的存儲和數(shù)據(jù)庫資產(chǎn)。
4. 學習如何引導(dǎo)一個區(qū)域
讓我們想象一下您的整個云區(qū)域出現(xiàn)故障的情況。您的目標是為您的云部署記錄平均恢復(fù)時間,最好以小時為單位,而不是幾天或幾周。
快速引導(dǎo)區(qū)域的能力證明您可以從高影響可用性事件中快速恢復(fù)。實例化部署會有所幫助,尤其是因為只有幾個與網(wǎng)絡(luò)連接相關(guān)的硬性先決條件。
即使缺少數(shù)據(jù)中心連接,您仍然可以在測試期間快速連續(xù)地啟動和拆除大部分云部署組件。您的目標應(yīng)該是創(chuàng)建一個通過 GitOps 和基礎(chǔ)架構(gòu)即代碼驅(qū)動的可重復(fù)流程。
概括
高可用性和災(zāi)難恢復(fù)都針對同一個問題:在出現(xiàn)中斷和其他可能性的情況下保持云系統(tǒng)正常運行。
HA 處理操作系統(tǒng)中的問題,而 DR 則側(cè)重于在發(fā)生故障后進行恢復(fù)。它們共同提高了您的業(yè)務(wù)連續(xù)性,并有助于確保您的云部署保持全面運行。
我們希望以上四個技巧能夠激發(fā)您的云遷移策略并使其更加順利。
- 上一篇
云、數(shù)據(jù)中心和邊緣基礎(chǔ)設(shè)施的四大趨勢
Gartner公司強調(diào)2023年影響云、數(shù)據(jù)中心和邊緣基礎(chǔ)設(shè)施的四大趨勢,因為基礎(chǔ)設(shè)施和運營(I&O)團隊在經(jīng)濟不確定的一年中轉(zhuǎn)向支持新技術(shù)和工作方式。
- 下一篇
企業(yè)專用無線:利用邊緣計算實現(xiàn)安全、可靠的通信
利用邊緣功能的專用無線解決方案可以為企業(yè)提供數(shù)字化轉(zhuǎn)型需求。這些解決方案包括安全、可靠的連接,消除了傳統(tǒng)解決方案不必要的復(fù)雜性,并減少了對傳統(tǒng)運營商的依賴。