2023年數(shù)據(jù)架構(gòu)要關(guān)注的五個重要方面
2023 年已經(jīng)過去五個月,我想談?wù)?2023 年需要關(guān)注的一些數(shù)據(jù)架構(gòu)趨勢。
介紹
在本文中,我將討論五種數(shù)據(jù)趨勢,我認(rèn)為它們將成為 2023 年以后數(shù)據(jù)公司的首要任務(wù)。
2023 年趨勢
- Lakehouse Architecture
- Data Mesh
- Data Governance
- Real-time Processing/Streaming
- Data Architecture & Data Modeling
湖倉架構(gòu)
那么什么是湖倉架構(gòu)呢?湖倉是什么意思?湖倉架構(gòu)是一種數(shù)據(jù)存儲和管理架構(gòu),結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)點。它旨在解決傳統(tǒng)數(shù)據(jù)倉庫和數(shù)據(jù)湖的局限性,并提供一種更高效、更具成本效益的數(shù)據(jù)管理方法。
數(shù)據(jù)倉庫:用于“商業(yè)智能目的”的大規(guī)模數(shù)據(jù)存儲。數(shù)據(jù)倉庫存儲來自各種來源的數(shù)據(jù),并針對查詢和分析進行了優(yōu)化,通常使用維度數(shù)據(jù)模型。數(shù)據(jù)倉庫支持更快、更高效的報告和數(shù)據(jù)分析,幫助根據(jù)數(shù)據(jù)驅(qū)動的洞察力做出更好的決策。
數(shù)據(jù)湖:數(shù)據(jù)湖是一個集中式存儲庫,以其本機格式存儲來自各種來源的原始、未處理的數(shù)據(jù)。數(shù)據(jù)湖提供了存儲和分析大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)(包括文本、圖像和視頻)的靈活性。數(shù)據(jù)湖旨在處理在存儲時用例未知的數(shù)據(jù),以便以后可以探索和分析數(shù)據(jù)。與數(shù)據(jù)倉庫不同,數(shù)據(jù)湖不需要預(yù)先對數(shù)據(jù)進行結(jié)構(gòu)化或轉(zhuǎn)換,因此更適合探索性或“臨時”分析。
在湖倉架構(gòu)中,數(shù)據(jù)以原始格式存儲在中央存儲庫中,類似于數(shù)據(jù)湖。但是,就像數(shù)據(jù)倉庫一樣,數(shù)據(jù)也是經(jīng)過組織和索引的。這允許更快、更有效地查詢數(shù)據(jù),以及處理和分析數(shù)據(jù)的方式的靈活性。
此外,湖倉架構(gòu)通常包括數(shù)據(jù)版本控制、數(shù)據(jù)沿襲和數(shù)據(jù)治理等功能,以幫助確保數(shù)據(jù)質(zhì)量和一致性。
近年來,由于數(shù)據(jù)爆炸以及組織需要能夠?qū)崟r存儲、管理和分析大量數(shù)據(jù),湖倉架構(gòu)越來越受歡迎。一些流行的湖倉架構(gòu)技術(shù)包括 Apache Spark、Delta Lake 和 Databricks。
大多數(shù)組織現(xiàn)在都在尋求構(gòu)建湖倉而不是數(shù)據(jù)倉庫和數(shù)據(jù)湖,并且所有主要數(shù)據(jù)平臺現(xiàn)在都有用于實現(xiàn)湖倉的產(chǎn)品/功能。
- Databricks
- Apache Iceberg
- Snowflake
數(shù)據(jù)網(wǎng)格
Data Mesh 聽起來有點抽象,那到底是什么呢?
Data Mesh 是設(shè)計和操作分布式數(shù)據(jù)架構(gòu)的一種相對較新的方法。它基于這樣一種理念,即數(shù)據(jù)應(yīng)被視為產(chǎn)品并作為跨多個部門的分布式自助服務(wù)系統(tǒng)進行管理,而不是作為集中式 IT 功能進行管理。
在數(shù)據(jù)網(wǎng)格架構(gòu)中,數(shù)據(jù)被組織成特定領(lǐng)域的數(shù)據(jù)集,這些數(shù)據(jù)集由最接近數(shù)據(jù)的團隊擁有和管理。這些團隊負(fù)責(zé)他們管理的數(shù)據(jù)的質(zhì)量、治理和安全性。數(shù)據(jù)被視為商品,數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費者之間有明確的合同。
該架構(gòu)旨在支持團隊的可擴展性、靈活性和自主性。它鼓勵使用數(shù)據(jù)標(biāo)準(zhǔn)、API 和定義明確的合同,以便跨多個域輕松安全地訪問數(shù)據(jù)。
Data Mesh 是對傳統(tǒng)集中式數(shù)據(jù)架構(gòu)緩慢、僵化和難以擴展的局限性的回應(yīng)。通過分散數(shù)據(jù)管理,Data Mesh 的目標(biāo)是擴大數(shù)據(jù)民主化、加速創(chuàng)新并提高數(shù)據(jù)的整體質(zhì)量。
整個 2022 年,我們一直在聽說數(shù)據(jù)網(wǎng)格架構(gòu),似乎每個現(xiàn)代數(shù)據(jù)公司都在討論并計劃實施它們。但這并不容易。
Data Mesh 不僅僅是一種架構(gòu)變化,它是一種組織協(xié)作,它需要轉(zhuǎn)變關(guān)于誰擁有和管理數(shù)據(jù)以及如何擁有和管理數(shù)據(jù)的思維方式,因此 Data Mesh 的成功將取決于維護和運營管理的系統(tǒng)的程度.
Data Mesh 建立在四個關(guān)鍵基礎(chǔ)之上。
領(lǐng)域所有權(quán)——領(lǐng)域團隊對自己的數(shù)據(jù)負(fù)責(zé)。
數(shù)據(jù)作為一種產(chǎn)品——領(lǐng)域團隊?wèi)?yīng)該將他們的數(shù)據(jù)視為一種產(chǎn)品,并將其提供給其他領(lǐng)域或下游消費者。
自助數(shù)據(jù)基礎(chǔ)架構(gòu)——一個專門的團隊來管理數(shù)據(jù)平臺并使領(lǐng)域團隊能夠?qū)⑵溆糜谒麄兊挠美?/p>
聯(lián)合治理——跨域標(biāo)準(zhǔn)化數(shù)據(jù)產(chǎn)品,使它們更易于管理、共享并遵守行業(yè)和監(jiān)管標(biāo)準(zhǔn)。
數(shù)據(jù)治理
數(shù)據(jù)治理是一個需要討論和理解的廣泛話題。數(shù)據(jù)治理包含許多不同的方式,可以更好地管理數(shù)據(jù)。
以下是對數(shù)據(jù)治理的簡要說明數(shù)據(jù)治理是一組政策、程序和控制措施,用于管理組織如何收集、存儲、管理和使用其數(shù)據(jù)資產(chǎn)。這包括定義和執(zhí)行與數(shù)據(jù)相關(guān)的標(biāo)準(zhǔn)、確保數(shù)據(jù)質(zhì)量和準(zhǔn)確性、管理數(shù)據(jù)安全和隱私,以及確保遵守法規(guī)要求。
數(shù)據(jù)治理提供了一個框架,用于將數(shù)據(jù)作為戰(zhàn)略資產(chǎn)進行管理,確保數(shù)據(jù)可靠、一致、及時并且可供合適的人員訪問。這使組織能夠降低與數(shù)據(jù)泄露、違規(guī)和聲譽損害相關(guān)的風(fēng)險。
數(shù)據(jù)治理還可以通過清楚地了解哪些數(shù)據(jù)可用、數(shù)據(jù)的結(jié)構(gòu)以及如何用于支持業(yè)務(wù)目標(biāo)來幫助組織優(yōu)化其數(shù)據(jù)資產(chǎn)并改進決策。
數(shù)據(jù)治理的一些步驟包括:
- 數(shù)據(jù)質(zhì)量——驗證和改進
- 元數(shù)據(jù)管理和數(shù)據(jù)發(fā)現(xiàn)
- 數(shù)據(jù)審計和數(shù)據(jù)沿襲
- 訪問控制和安全數(shù)據(jù)共享
- 主數(shù)據(jù)管理定期審查流程
- 實時處理/流媒體
傳統(tǒng)數(shù)據(jù)倉庫在一天結(jié)束時 (EoD) 或一天開始時 (SoD) 以批處理的方式進行填充。BI 用戶很高興他們每天可以看到一次他們的準(zhǔn)確和完整的數(shù)據(jù)。但時代變了,現(xiàn)在的決策更加實時。一個典型的例子是股票市場。
我們現(xiàn)在需要有關(guān)信用卡欺詐或未經(jīng)授權(quán)訪問的即時警報。我們還需要實時電影推薦或閃購提醒,以便快速做出決策。以下是幾個示例:
- 金融服務(wù):實時處理用于監(jiān)控股市數(shù)據(jù)并實時識別交易機會。它還用于欺詐檢測和風(fēng)險管理,其中需要快速處理和分析數(shù)據(jù)以防止欺詐活動。
- 電子商務(wù):電子商務(wù)中使用實時處理來跟蹤客戶行為,例如搜索查詢、點擊和購買,以及實時個性化產(chǎn)品推薦和促銷。
- 醫(yī)療保健:實時處理用于監(jiān)測患者數(shù)據(jù),包括生命體征和病史,以識別潛在的健康問題并提供及時的醫(yī)療干預(yù)。
- 電信:電信中使用實時處理來監(jiān)控網(wǎng)絡(luò)流量并檢測和防止網(wǎng)絡(luò)中斷或故障。
- 交通:實時處理用于交通監(jiān)控交通狀況,優(yōu)化路線,提高交通網(wǎng)絡(luò)的整體效率。
隨著世界向更多實時用例發(fā)展,對實施可支持這些流分析的架構(gòu)的需求將越來越大。2023 年,許多組織將開始致力于支持流式處理、近實時或微批處理用例。
數(shù)據(jù)架構(gòu)和數(shù)據(jù)建模
這些是實現(xiàn)數(shù)據(jù)平臺的構(gòu)建塊。從長遠(yuǎn)來看,擁有正確的架構(gòu)藍(lán)圖和適當(dāng)?shù)臄?shù)據(jù)存儲建模策略可以幫助企業(yè)更好的管理數(shù)據(jù)。
隨著 Hadoop 的興起,數(shù)據(jù)建模已經(jīng)退居二線。各種形狀和形式的數(shù)據(jù)在沒有任何建模指導(dǎo)的情況下被發(fā)送到數(shù)據(jù)湖。結(jié)果是數(shù)據(jù)沼澤很快變得很難發(fā)現(xiàn)和使用。
自去年以來,我聽過許多行業(yè)專家談?wù)撨m當(dāng)架構(gòu)和建模的必要性。數(shù)據(jù)建模師又回來了,現(xiàn)在公司似乎希望使用最合適的建模方法將數(shù)據(jù)存儲在數(shù)據(jù)湖和數(shù)據(jù)倉庫中:維度模型或數(shù)據(jù)存儲。這絕對是構(gòu)建數(shù)據(jù)平臺的一個重要方面。
