從數(shù)據(jù)倉庫到數(shù)據(jù)結構:數(shù)據(jù)架構的演變之路
在上個世紀,從電子商務巨頭到醫(yī)療服務機構和政府部門,數(shù)據(jù)已成為每家組織的生命線。有效地收集和管理這些數(shù)據(jù)可以為組織提供寶貴的洞察力,以幫助決策,然而這是一項艱巨的任務。
盡管數(shù)據(jù)很重要,但CIOinsight聲稱,只有10%的組織認為自己擅長數(shù)據(jù)分析管理。組織認識到數(shù)據(jù)利用方面的這一重大缺口后,積極采用現(xiàn)代數(shù)據(jù)架構來縮小缺口。
數(shù)據(jù)架構是結構化的框架和系統(tǒng),它們定義了如何在組織內組織、集成和訪問數(shù)據(jù)。架構為數(shù)據(jù)及其在數(shù)據(jù)存儲系統(tǒng)中的流動明確了藍圖,并確立了指導原則。
本文討論了數(shù)據(jù)架構的演變、基本原則以及采用現(xiàn)代數(shù)據(jù)架構有效管理組織數(shù)據(jù)的優(yōu)點。
數(shù)據(jù)架構的演變
多年來,數(shù)據(jù)架構不斷發(fā)展,以適應不斷增長的業(yè)務需求。下面討論的一個值得注意的轉變是數(shù)據(jù)架構由邏輯倉庫向數(shù)據(jù)結構(Data Fabrics)轉變。
1. 邏輯倉庫
邏輯倉庫又叫數(shù)據(jù)倉庫,幾十年來一直是數(shù)據(jù)管理的基礎。這些數(shù)據(jù)倉庫是中央存儲庫,旨在存儲來自不同來源(比如事務系統(tǒng)、應用程序日志文件或關系數(shù)據(jù)庫等)的數(shù)據(jù),從而提供信息的統(tǒng)一視圖。
通常,邏輯倉庫使用提取、轉換和加載(ETL)流程從源系統(tǒng)提取數(shù)據(jù),對其進行轉換以確保一致性,并加載到倉庫中。邏輯倉庫僅用于執(zhí)行查詢和分析,常常含有大量的歷史數(shù)據(jù)。
邏輯倉庫面臨的挑戰(zhàn)
雖然邏輯倉庫發(fā)揮了其作用,但隨著數(shù)據(jù)量增加,它們面臨幾個挑戰(zhàn)。一些主要的限制包括如下:
- 數(shù)據(jù)孤島:邏輯倉庫通常會導致數(shù)據(jù)孤島,即不同的部門或團隊會維護各自孤立的數(shù)據(jù)集,從而導致不一致和重復。
- 性能:由于數(shù)據(jù)必須經過多個流程和階段才能用于分析,這大大影響了數(shù)據(jù)倉庫的性能。
- 可擴展性:由于硬件限制,實施數(shù)據(jù)倉庫既復雜又昂貴。它還需要數(shù)據(jù)建模、ETL流程和數(shù)據(jù)庫管理方面的專業(yè)知識,因而更難處理急劇增加的數(shù)據(jù)。
2. 數(shù)據(jù)湖
為了應對數(shù)據(jù)倉庫的挑戰(zhàn),數(shù)據(jù)湖架構在2010年被引入。雖然數(shù)據(jù)湖架構與數(shù)據(jù)倉庫非常相似,但兩者的不同之處在于數(shù)據(jù)湖還適用于半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。
數(shù)據(jù)湖以自然或原始格式存儲大量數(shù)據(jù)的功能幫助我們:
- 使用來自多個數(shù)據(jù)源的數(shù)據(jù),不用考慮數(shù)據(jù)類型(非結構化、半結構化、結構化);
- 創(chuàng)建數(shù)據(jù)的重點部分,以滿足特定用例的需求;
- 利用先進的分析和機器學習技術發(fā)現(xiàn)新的洞察力,而不受預定義模式的限制。
數(shù)據(jù)湖面臨的挑戰(zhàn)
數(shù)據(jù)湖的這種開放格式特性使其比數(shù)據(jù)倉庫更受歡迎。然而,數(shù)據(jù)湖帶來了挑戰(zhàn),因為沒有嚴格標準化而攝取的數(shù)據(jù)導致數(shù)據(jù)庫中出現(xiàn)不一致。此外,存儲在數(shù)據(jù)湖中的數(shù)據(jù)需要大量的轉換和集成工作,然后才能用于復雜又耗時的分析。
3. 數(shù)據(jù)網格
數(shù)據(jù)網格架構是一種新興的方法,它為中央數(shù)據(jù)湖架構提供了另一種選擇。數(shù)據(jù)網格是由Zhamak Dehghani在2019年創(chuàng)造的,這種分散的數(shù)據(jù)架構按特定的業(yè)務領域組織數(shù)據(jù)。
通過引入面向領域的數(shù)據(jù)所有權,負責各領域的團隊對其數(shù)據(jù)和產品負責,從而提高數(shù)據(jù)質量和治理。
傳統(tǒng)的數(shù)據(jù)湖在處理大量數(shù)據(jù)時常常遇到可擴展性和性能方面的挑戰(zhàn)。然而,數(shù)據(jù)網格架構通過其分散的自助式數(shù)據(jù)基礎設施解決了這些可擴展性問題。
由于每個領域都可以自主地選擇最適合其需求的技術和工具,數(shù)據(jù)網格允許團隊獨立地擴展其數(shù)據(jù)存儲和處理系統(tǒng)。
4. 數(shù)據(jù)結構
數(shù)據(jù)結構是一種自適應、靈活又安全的集成式數(shù)據(jù)架構。它是一種架構方法和技術框架,通過提供跨各種數(shù)據(jù)源的統(tǒng)一集成數(shù)據(jù)視圖來解決數(shù)據(jù)湖挑戰(zhàn)。
通過應對數(shù)據(jù)集成、轉換和移動中涉及的技術復雜性,數(shù)據(jù)結構允許更快速、更有效地訪問數(shù)據(jù),以便任何人都可以使用它。
現(xiàn)代數(shù)據(jù)架構原則
據(jù)Dataversity聲稱,數(shù)據(jù)架構原則指一系列策略,以監(jiān)管用于收集、集成和管理數(shù)據(jù)資產的企業(yè)數(shù)據(jù)框架和操作規(guī)則。這些原則幫助我們創(chuàng)建一致、可靠又高效的數(shù)據(jù)架構,使其與組織的目標和目的保持一致。
為了有效地利用數(shù)據(jù)作為一種有競爭力的資產,以下是需要遵循的幾個常見現(xiàn)代數(shù)據(jù)架構原則:
- 數(shù)據(jù)質量(DQ):數(shù)據(jù)質量對于任何數(shù)據(jù)架構都必不可少;建立數(shù)據(jù)質量標準和流程可確保數(shù)據(jù)的準確性、完整性和可靠性。數(shù)據(jù)質量原則指導我們實施數(shù)據(jù)分析、清理和驗證技術,以立即識別和糾正數(shù)據(jù)問題,從而避免低劣的數(shù)據(jù)質量。有效管理和可靠的數(shù)據(jù)對于開發(fā)準確模型和可靠模式以提取寶貴的洞察力至關重要。
- 數(shù)據(jù)治理(DG):Experian數(shù)據(jù)質量報告表明,全球78%的組織受到數(shù)據(jù)治理不善的困擾,這導致人們對數(shù)據(jù)和從數(shù)據(jù)獲得的洞察力產生不信任。數(shù)據(jù)治理告訴我們,在數(shù)據(jù)生命周期的任何時候,數(shù)據(jù)消費者都應該知道數(shù)據(jù)的位置、格式、使用關系以及與數(shù)據(jù)相關的任何其他相關信息,以避免數(shù)據(jù)債務。數(shù)據(jù)治理與數(shù)據(jù)質量密切相關,使數(shù)據(jù)架構能夠確保數(shù)據(jù)完整性,并提高數(shù)據(jù)質量。
- 爭取確保一致性:這條數(shù)據(jù)原則強調面對整個組織的所有數(shù)據(jù)結構、格式和流程,確保一致性。使用標準術語和詞匯表可以確保數(shù)據(jù)在不同系統(tǒng)之間定義一致,從而使開發(fā)人員和非開發(fā)人員更容易就同一項目進行協(xié)作??缃M織數(shù)據(jù)表示的一致性為團隊提供了“事實的單一版本”,從而使數(shù)據(jù)和數(shù)據(jù)分析易于被公司內的廣泛用戶理解。
- 使數(shù)據(jù)成為可共享的資產:使數(shù)據(jù)成為可共享的資產強調我們將數(shù)據(jù)視為一種有價值的資源,可以在不同的系統(tǒng)之間共享和訪問。該原則旨在消除數(shù)據(jù)孤島,并鼓勵設計有助于高效共享數(shù)據(jù)的數(shù)據(jù)架構。這么做確保所有利益相關者全面了解公司及數(shù)據(jù),以便于合作和明智的決策。
- 數(shù)據(jù)安全和隱私:現(xiàn)代數(shù)據(jù)架構必須確保數(shù)據(jù)的機密性和完整性,同時保護敏感信息免遭未經授權的訪問、破壞或濫用。
現(xiàn)代數(shù)據(jù)架構的特點
下面討論現(xiàn)代數(shù)據(jù)架構的一些特點:
- 自動化:現(xiàn)代數(shù)據(jù)架構使用自動化的流程、工具和技術,以優(yōu)化與數(shù)據(jù)相關的任務和操作。與傳統(tǒng)系統(tǒng)不同,現(xiàn)代數(shù)據(jù)架構可以使用基于云的工具在數(shù)小時或數(shù)天內構建好復雜的流程。
- 適應性:現(xiàn)代數(shù)據(jù)架構必須靈活,以響應不斷變化的業(yè)務需求。它必須支持多種類型的用戶、查詢操作和部署、數(shù)據(jù)處理引擎以及管道等。
- 可擴展性:可擴展性是現(xiàn)代數(shù)據(jù)架構的一個關鍵特點,它允許我們在業(yè)務需求發(fā)生變化時快速且經濟地擴展或縮小規(guī)模。
- 具有成本效益:利用可擴展基礎設施的現(xiàn)代數(shù)據(jù)架構使我們得以輕松地適應未來不斷增長的需求,無需一開始過度購買硬件。此外,現(xiàn)代數(shù)據(jù)架構有時采用“按需付費模式”的云計算平臺,這樣我們只需為實際使用的資源付費。
現(xiàn)代數(shù)據(jù)架構的好處
在討論了現(xiàn)代數(shù)據(jù)架構及其特點之后,下面討論現(xiàn)代數(shù)據(jù)架構給企業(yè)和組織帶來的好處。
- 提供全面的公司視圖:由于數(shù)據(jù)集成可以實現(xiàn)來自組織內各種數(shù)據(jù)源和系統(tǒng)的數(shù)據(jù)無縫集成,因而可以一致地收集和存儲數(shù)據(jù)。這種集成確保了任何時候的數(shù)據(jù)都能提供公司的全面視圖,即“事實的單一來源”。
- 減少冗余:通過收集和協(xié)調不同的數(shù)據(jù)和數(shù)據(jù)源,數(shù)據(jù)集成減少了組織中數(shù)據(jù)字段的重疊。
- 改進的數(shù)據(jù)質量:現(xiàn)代數(shù)據(jù)架構包含數(shù)據(jù)清理和驗證、數(shù)據(jù)標準化、數(shù)據(jù)質量監(jiān)控和修復等技術,以確保數(shù)據(jù)可靠性。
結論
數(shù)據(jù)在組織中越來越重要,這推動了數(shù)據(jù)架構的發(fā)展。從傳統(tǒng)的數(shù)據(jù)倉庫到現(xiàn)代的數(shù)據(jù)網格和數(shù)據(jù)結構方法,這些架構解決了特定的挑戰(zhàn),帶來了新的機遇。
通過采用現(xiàn)代數(shù)據(jù)架構,組織可以得益于改進的數(shù)據(jù)質量和全面的數(shù)據(jù)洞察力,從而全面釋放數(shù)據(jù)的潛力,并在當今世界保持競爭力。
原文標題:From data warehouse to data fabric: the evolution of data architecture
- 上一篇
一種衡量轉型進展的新方法
在本文中,我們將探討示例性轉型的共同特征,以及追求這條道路的企業(yè)可以獲得的價值。我們從提出關于整體績效和業(yè)務再造的十個類別的正確問題開始,揭示了一種分析轉型進程的新方法,這種方法可以為領導者提供一個準確的基線,說明他們在哪些方面的轉型努力取得了成功,哪些方面則有更多的工作要做。
- 下一篇
如何利用傳統(tǒng)IT系統(tǒng)進行云遷移以克服障礙
到2023年,73%的企業(yè)已經擁有混合IT基礎設施。37%的企業(yè)計劃在未來12個月內采用云計算技術。這意味著對于大多數(shù)企業(yè)來說,學習如何有效而安全地使用云計算服務是至關重要的。