談?wù)勂髽I(yè)需要什么樣的數(shù)據(jù)架構(gòu)
在大數(shù)據(jù)和數(shù)據(jù)科學(xué)的新時代,企業(yè)擁有一個與業(yè)務(wù)流程保持一致的集中式數(shù)據(jù)架構(gòu)至關(guān)重要,該架構(gòu)可以隨著業(yè)務(wù)增長而擴(kuò)展,并隨著技術(shù)進(jìn)步而發(fā)展。一個成功的數(shù)據(jù)架構(gòu)可以清晰地展示數(shù)據(jù)的各個方面,從而使數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、業(yè)務(wù)人員能夠高效地處理可信賴的數(shù)據(jù)并解決復(fù)雜的業(yè)務(wù)問題。它還使組織能夠通過利用新興技術(shù)快速應(yīng)對新的商業(yè)機(jī)會,并通過管理整個企業(yè)的復(fù)雜數(shù)據(jù)和信息交付來提高運(yùn)營效率。
與信息架構(gòu)、系統(tǒng)架構(gòu)和軟件架構(gòu)相比,數(shù)據(jù)架構(gòu)相對較新。數(shù)據(jù)架構(gòu)師的角色也一直模糊不清,落在了高級業(yè)務(wù)分析師、ETL 開發(fā)人員和數(shù)據(jù)科學(xué)家的肩上。盡管如此,Data Architect 主要指那些為組織設(shè)計數(shù)據(jù)架構(gòu)的數(shù)據(jù)管理專業(yè)人員。
在談?wù)摷軜?gòu)時,我們通常會想到與建筑架構(gòu)的類比。傳統(tǒng)的建筑架構(gòu)師計劃、設(shè)計和審查建筑物的建造。設(shè)計過程涉及與客戶合作以充分收集要求,了解當(dāng)?shù)氐姆珊铜h(huán)境限制,并與工程師、測量師和其他專家合作以確保設(shè)計切合實際并在預(yù)算范圍內(nèi)。這項工作的復(fù)雜性確實與數(shù)據(jù)架構(gòu)師的角色非常相似。但是,這兩個架構(gòu)師角色之間存在一些根本差異:
- 建筑架構(gòu)是自上而下設(shè)計的,而數(shù)據(jù)架構(gòu)通常是可能已經(jīng)存在的組件或系統(tǒng)的集成過程。
- 建筑架構(gòu)師在建造建筑之前必須了解全部要求并定義整個范圍。數(shù)據(jù)架構(gòu)的范圍可以很廣并且很容易改變。因此,一個成功的數(shù)據(jù)架構(gòu)應(yīng)該被設(shè)計成靈活的并且能夠預(yù)測未來的變化。
- 建筑架構(gòu)師具有精確的教育和專業(yè)要求,應(yīng)具備商業(yè)、藝術(shù)、結(jié)構(gòu)物理和建筑材料方面的深入知識。大多數(shù)數(shù)據(jù)架構(gòu)師來自 IT 背景,在少數(shù)公司或行業(yè)擁有專業(yè)經(jīng)驗,對業(yè)務(wù)的接觸有限。因此,他們應(yīng)該意識到他們的設(shè)計可能存在偏差,并且他們需要根據(jù)組織中業(yè)務(wù)和技術(shù)專業(yè)知識的反饋對其進(jìn)行調(diào)整。
- 建筑設(shè)計幾乎總是針對從頭開始建造的新建筑。因此,建筑設(shè)計師可以完全根據(jù)新要求和新材料進(jìn)行規(guī)劃和設(shè)計。數(shù)據(jù)架構(gòu)師沒有這種奢侈。他們很少能從頭開始,而是在為未來設(shè)計時需要了解現(xiàn)有的平臺和數(shù)據(jù)庫。
盡管有這些差異,數(shù)據(jù)架構(gòu)師仍然可以向建筑架構(gòu)師學(xué)習(xí),特別是采用他們自上而下的方法來改進(jìn)數(shù)據(jù)架構(gòu)設(shè)計。在許多組織中,一直缺乏系統(tǒng)的、集中的、端到端的數(shù)據(jù)架構(gòu)設(shè)計。下面列出了一些主要原因:
- 一家公司有多個 IT 部門,他們使用自己的數(shù)據(jù)標(biāo)準(zhǔn)和架構(gòu)在孤島中工作。
- 應(yīng)用程序和流程是根據(jù)個人業(yè)務(wù)需求構(gòu)建的,沒有可遵循的數(shù)據(jù)架構(gòu)標(biāo)準(zhǔn)。
- 數(shù)據(jù)架構(gòu)師的角色只關(guān)注有限的技術(shù)領(lǐng)域,并且數(shù)據(jù)業(yè)務(wù)知識有限。
- IT 項目的管理沒有將數(shù)據(jù)架構(gòu)作為設(shè)計階段的一部分;數(shù)據(jù)科學(xué)家和工程師在沒有一致的數(shù)據(jù)管理流程的情況下按照自己的方式進(jìn)行編碼。
由于存在這些不足,我們經(jīng)常會看到一家公司的數(shù)據(jù)系統(tǒng)脫節(jié),團(tuán)隊和部門之間存在差距。這些差異導(dǎo)致系統(tǒng)性能不佳,有很多交接,出現(xiàn)生產(chǎn)數(shù)據(jù)問題時需要很長時間進(jìn)行故障排除,缺乏跨系統(tǒng)達(dá)成正確解決方案的責(zé)任感,以及缺乏評估影響的能力變化。最后,當(dāng)遷移或重新設(shè)計到下一代平臺時,脫節(jié)的系統(tǒng)可能會導(dǎo)致分析和研究的巨大努力。
鑒于所有這些,一個成功的企業(yè)需要有一個基于業(yè)務(wù)流程和操作設(shè)計的自上而下的連貫數(shù)據(jù)架構(gòu)。特別是,就像建筑架構(gòu)師所做的那樣,企業(yè)數(shù)據(jù)架構(gòu)師需要先在概念和邏輯層面構(gòu)建藍(lán)圖,然后再將技術(shù)應(yīng)用到詳細(xì)的應(yīng)用程序設(shè)計和實現(xiàn)中。
1. 基于業(yè)務(wù)流程和運(yùn)營的概念級數(shù)據(jù)架構(gòu)設(shè)計
在現(xiàn)代 IT 中,業(yè)務(wù)流程由數(shù)據(jù)實體、數(shù)據(jù)流和應(yīng)用于數(shù)據(jù)的業(yè)務(wù)規(guī)則來支持和驅(qū)動。因此,數(shù)據(jù)架構(gòu)師需要具備深入的業(yè)務(wù)知識,包括財務(wù)、營銷、產(chǎn)品以及業(yè)務(wù)流程的行業(yè)特定專業(yè)知識,例如健康、保險、制造商和零售商。然后,可以通過設(shè)計代表每個業(yè)務(wù)領(lǐng)域的數(shù)據(jù)實體和分類法以及業(yè)務(wù)流程下的數(shù)據(jù)流,在企業(yè)級別正確構(gòu)建數(shù)據(jù)藍(lán)圖。特別是,在這個概念階段需要考慮和規(guī)劃以下領(lǐng)域:
- 核心數(shù)據(jù)實體和數(shù)據(jù)元素,例如有關(guān)客戶、產(chǎn)品、銷售的數(shù)據(jù)。
- 客戶和顧客需要的輸出數(shù)據(jù)。
- 要收集和轉(zhuǎn)換或引用以生成輸出數(shù)據(jù)的源數(shù)據(jù)。
- 每個數(shù)據(jù)實體的所有權(quán)以及如何根據(jù)業(yè)務(wù)用例使用和分配它。
- 應(yīng)用于每個數(shù)據(jù)實體的安全策略。
- 數(shù)據(jù)實體之間的關(guān)系,如引用完整性、業(yè)務(wù)規(guī)則、執(zhí)行順序。
- 標(biāo)準(zhǔn)數(shù)據(jù)分類和分類法。
- 數(shù)據(jù)質(zhì)量、操作和服務(wù)水平協(xié)議 (SLA) 的標(biāo)準(zhǔn)。
此概念設(shè)計級別由支持每個業(yè)務(wù)功能的底層數(shù)據(jù)實體組成。藍(lán)圖對于企業(yè)和系統(tǒng)架構(gòu)的成功設(shè)計和實施及其未來的擴(kuò)展或升級至關(guān)重要。在許多組織中,這種概念設(shè)計通常嵌入到由單個項目驅(qū)動的業(yè)務(wù)分析中,而沒有從企業(yè)端到端解決方案和標(biāo)準(zhǔn)的角度進(jìn)行指導(dǎo)。
2. 邏輯層數(shù)據(jù)架構(gòu)設(shè)計
通過考慮使用哪種類型的數(shù)據(jù)庫或數(shù)據(jù)格式,這種設(shè)計級別有時稱為數(shù)據(jù)建模。它將業(yè)務(wù)需求連接到底層技術(shù)平臺和系統(tǒng)。然而,考慮到數(shù)據(jù)建模者的孤立角色,大多數(shù)組織只在特定的數(shù)據(jù)庫或系統(tǒng)中設(shè)計數(shù)據(jù)建模。一個成功的數(shù)據(jù)架構(gòu)應(yīng)該通過綜合方法開發(fā),考慮適用于每個數(shù)據(jù)庫或系統(tǒng)的標(biāo)準(zhǔn),以及這些數(shù)據(jù)系統(tǒng)之間的數(shù)據(jù)流。特別是以下5個領(lǐng)域需要協(xié)同設(shè)計:
命名約定和數(shù)據(jù)完整性
數(shù)據(jù)實體和元素的命名約定應(yīng)該一致地應(yīng)用于每個數(shù)據(jù)庫。此外,如果相同的數(shù)據(jù)必須駐留在多個數(shù)據(jù)庫中,則應(yīng)強(qiáng)制執(zhí)行數(shù)據(jù)源及其引用之間的完整性。最終,這些數(shù)據(jù)元素在數(shù)據(jù)架構(gòu)的概念設(shè)計中應(yīng)該屬于一個數(shù)據(jù)實體,然后可以根據(jù)業(yè)務(wù)需求進(jìn)行協(xié)同和準(zhǔn)確的更新或修改。
數(shù)據(jù)歸檔/保留政策
數(shù)據(jù)歸檔和保留策略往往直到生產(chǎn)的每個后期才考慮或建立,這造成了資源浪費(fèi)、不同數(shù)據(jù)庫之間的數(shù)據(jù)狀態(tài)不一致以及數(shù)據(jù)查詢和更新性能不佳。為了加強(qiáng)數(shù)據(jù)完整性,數(shù)據(jù)架構(gòu)師應(yīng)根據(jù)操作標(biāo)準(zhǔn)在數(shù)據(jù)架構(gòu)中定義數(shù)據(jù)歸檔和保留策略。
隱私和安全信息
隱私和安全成為邏輯數(shù)據(jù)庫設(shè)計的重要方面。雖然概念設(shè)計已經(jīng)定義了哪些數(shù)據(jù)組件是敏感信息,但邏輯設(shè)計應(yīng)該在數(shù)據(jù)庫中保護(hù)機(jī)密信息,并通過有限訪問、受限數(shù)據(jù)復(fù)制、特定數(shù)據(jù)類型和安全數(shù)據(jù)流來保護(hù)信息。
數(shù)據(jù)復(fù)制
數(shù)據(jù)復(fù)制是實現(xiàn)三個目標(biāo)需要考慮的一個關(guān)鍵方面:1) 高可用性;2) 避免數(shù)據(jù)通過網(wǎng)絡(luò)傳輸?shù)男阅埽?) 解耦以最小化對下游的影響。但是,過多的數(shù)據(jù)復(fù)制會導(dǎo)致混亂、數(shù)據(jù)質(zhì)量差和性能差。任何數(shù)據(jù)復(fù)制都應(yīng)由數(shù)據(jù)架構(gòu)師檢查并應(yīng)用原則和紀(jì)律。
數(shù)據(jù)流和管道
數(shù)據(jù)如何在不同的數(shù)據(jù)庫系統(tǒng)和應(yīng)用程序之間流動應(yīng)該在這個層次上被明確定義。同樣,此流程與業(yè)務(wù)流程和數(shù)據(jù)架構(gòu)師概念級別中說明的流程一致。此外,數(shù)據(jù)攝取的頻率、管道中的數(shù)據(jù)轉(zhuǎn)換以及針對輸出數(shù)據(jù)的數(shù)據(jù)訪問模式應(yīng)在邏輯設(shè)計的集成視圖中加以考慮。例如,如果上游數(shù)據(jù)源是實時進(jìn)來的,而下游系統(tǒng)主要用于聚合信息的數(shù)據(jù)訪問,索引繁重(例如,頻繁更新和插入的代價高昂),則需要在兩者之間設(shè)計數(shù)據(jù)管道以優(yōu)化性能。
3. 數(shù)據(jù)治理是數(shù)據(jù)架構(gòu)持續(xù)成功的關(guān)鍵
由于數(shù)據(jù)架構(gòu)反映并支持業(yè)務(wù)流程和流程,因此只要業(yè)務(wù)流程發(fā)生變化,它就會發(fā)生變化。隨著底層數(shù)據(jù)庫系統(tǒng)的改變,數(shù)據(jù)架構(gòu)也需要調(diào)整。因此,數(shù)據(jù)架構(gòu)不是靜態(tài)的,而是需要持續(xù)管理、增強(qiáng)和審計。因此,應(yīng)采用數(shù)據(jù)治理來確保在啟動每個新項目時正確設(shè)計和實施企業(yè)數(shù)據(jù)架構(gòu)。
結(jié)論
在成功的數(shù)據(jù)架構(gòu)中,基于業(yè)務(wù)流程的概念設(shè)計是最重要的組成部分,其次是強(qiáng)調(diào)所有數(shù)據(jù)庫和數(shù)據(jù)管道的一致性、完整性和效率的邏輯設(shè)計。建立數(shù)據(jù)架構(gòu)后,組織可以查看哪些數(shù)據(jù)駐留在何處,并確保數(shù)據(jù)安全、高效存儲和準(zhǔn)確處理。此外,當(dāng)一個數(shù)據(jù)庫或組件發(fā)生變化時,數(shù)據(jù)架構(gòu)可以讓組織快速評估影響并指導(dǎo)所有相關(guān)團(tuán)隊進(jìn)行設(shè)計和實施。最后,數(shù)據(jù)架構(gòu)是企業(yè)系統(tǒng)的實時文檔,保證是最新的,并提供清晰的端到端視圖。
- 上一篇
現(xiàn)在是制造商實施數(shù)字化轉(zhuǎn)型的時候了
制造商對更可持續(xù)的制造工藝的需求從未如此迫切,而且對于那些尋求競爭優(yōu)勢的制造商來說,其預(yù)期日期將比政府部門確認(rèn)的日期早得多。與此同時,隨著應(yīng)對不斷上漲的能源賬單和供應(yīng)鏈中費(fèi)用的上漲,制造商正在努力實現(xiàn)凈零目標(biāo)與降低經(jīng)營成本之間的平衡。
- 下一篇
大數(shù)據(jù)分析如何重塑智慧城市的未來
隨著全球城市中心利用數(shù)據(jù)的力量來改善基礎(chǔ)設(shè)施、公共服務(wù)和整體生活質(zhì)量,大數(shù)據(jù)分析在可持續(xù)智慧城市的發(fā)展中發(fā)揮著至關(guān)重要的作用。