如何構(gòu)建六層大數(shù)據(jù)堆棧架構(gòu)
面對(duì)大數(shù)據(jù)挑戰(zhàn)而擴(kuò)展其傳統(tǒng)基礎(chǔ)設(shè)施的企業(yè)應(yīng)考慮使用專門構(gòu)建的軟件產(chǎn)品和服務(wù)來(lái)構(gòu)建大數(shù)據(jù)堆棧架構(gòu)。
大數(shù)據(jù)堆棧是一套互補(bǔ)的軟件技術(shù),用于管理和分析對(duì)于傳統(tǒng)技術(shù)來(lái)說(shuō)太大或太復(fù)雜的數(shù)據(jù)集。大數(shù)據(jù)堆棧技術(shù)——最常用于分析——是專門為應(yīng)對(duì)數(shù)據(jù)大小、速度和種類的增長(zhǎng)而設(shè)計(jì)的。大數(shù)據(jù)產(chǎn)品和服務(wù)通常用于管理數(shù)據(jù)管道中的數(shù)據(jù),以提供及時(shí)高效的業(yè)務(wù)洞察。
企業(yè)可以考慮幾個(gè)流行的大數(shù)據(jù)堆棧,每個(gè)堆棧都有一套技術(shù)和開(kāi)源替代方案,無(wú)論他們是選擇套裝堆棧還是構(gòu)建自己的堆棧,大數(shù)據(jù)堆棧都已成為現(xiàn)代數(shù)據(jù)架構(gòu)的主要組成部分。
大數(shù)據(jù)面臨的挑戰(zhàn)
大數(shù)據(jù)通常被描述為規(guī)模和復(fù)雜性,這帶來(lái)了獨(dú)特的挑戰(zhàn),稱為三個(gè)V:
數(shù)據(jù)量-人和機(jī)器生成的數(shù)據(jù)量,通常,機(jī)器生成的數(shù)據(jù)(例如傳感器數(shù)據(jù))量遠(yuǎn)遠(yuǎn)大于人類生成的交易數(shù)據(jù),海量的靜態(tài)和動(dòng)態(tài)數(shù)據(jù)給企業(yè)帶來(lái)了挑戰(zhàn)。
速度-數(shù)據(jù)的速率,機(jī)器生成的數(shù)據(jù)通常比人類生成的數(shù)據(jù)產(chǎn)生的頻率更高,挑戰(zhàn)在于企業(yè)收集和處理數(shù)據(jù)的巨大速度,尤其是在實(shí)時(shí)流架構(gòu)中。
多種多樣-數(shù)據(jù)的多樣性,數(shù)據(jù)采用的三種主要形式包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化。各種各樣的結(jié)構(gòu)不同的數(shù)據(jù)——通常需要不同的方法——帶來(lái)了新的挑戰(zhàn)。
傳統(tǒng)軟件技術(shù)無(wú)法處理的三種情況中的任何一種都被認(rèn)為是大數(shù)據(jù)。
大數(shù)據(jù)堆棧的架構(gòu)層
要應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn),企業(yè)必須將目光投向傳統(tǒng)數(shù)據(jù)處理基礎(chǔ)設(shè)施以外的領(lǐng)域,求助的一個(gè)領(lǐng)域是特殊用途的大數(shù)據(jù)軟件技術(shù),當(dāng)配合使用時(shí),大數(shù)據(jù)技術(shù)可以克服大數(shù)據(jù)面臨的挑戰(zhàn)。
以下6層是成功的大數(shù)據(jù)堆棧架構(gòu)的關(guān)鍵:
1、收集
大數(shù)據(jù)堆棧架構(gòu)的第一步是數(shù)據(jù)收集。數(shù)據(jù)采集可以從各種內(nèi)部和外部數(shù)據(jù)源進(jìn)行推送或拉取。數(shù)據(jù)源的一些示例包括交易系統(tǒng)、物聯(lián)網(wǎng)設(shè)備、社交媒體和靜態(tài)日志文件。
大數(shù)據(jù)攝取軟件處理大型靜態(tài)數(shù)據(jù)集、小型實(shí)時(shí)數(shù)據(jù)集以及每個(gè)數(shù)據(jù)集的各種數(shù)據(jù)格式。大的數(shù)據(jù)集到達(dá)得很慢,小的數(shù)據(jù)集到達(dá)得很快。將模式和質(zhì)量驗(yàn)證推遲到管道中的更遠(yuǎn)有助于更高的吞吐量。
2、儲(chǔ)存
一旦收集,原始數(shù)據(jù)通常以文件的形式存儲(chǔ)在數(shù)據(jù)湖中,該數(shù)據(jù)湖針對(duì)將數(shù)據(jù)輸入分析管道進(jìn)行了優(yōu)化。原生格式存儲(chǔ)庫(kù)既是批量數(shù)據(jù)的著陸區(qū),也是時(shí)間敏感型探索性查詢的沙盒。
大數(shù)據(jù)存儲(chǔ)軟件存儲(chǔ)各種格式的大文件和小文件,通常采用對(duì)象存儲(chǔ)等分布式文件系統(tǒng)的形式。非瞬時(shí)數(shù)據(jù)可以在較長(zhǎng)的保留期內(nèi)持續(xù)存在,并且需要在數(shù)據(jù)的整個(gè)生命周期中使用自動(dòng)分層的軟件。
3、處理
處理包括準(zhǔn)備靜態(tài)的批量數(shù)據(jù)集和流動(dòng)的動(dòng)態(tài)數(shù)據(jù)以供分析。數(shù)據(jù)管理可以包括清理、整合、豐富、集成、過(guò)濾、聚合和以其他方式準(zhǔn)備用于分析的數(shù)據(jù)。
大數(shù)據(jù)處理軟件運(yùn)行在大批量數(shù)據(jù)上,延遲更高,計(jì)算更復(fù)雜,需要長(zhǎng)時(shí)間運(yùn)行的高效率計(jì)算。使用分布式處理軟件對(duì)較小的分區(qū)數(shù)據(jù)片段進(jìn)行操作可以實(shí)現(xiàn)這一點(diǎn)。
大數(shù)據(jù)處理軟件也可以處理高速的流數(shù)據(jù),延遲更低,計(jì)算相對(duì)簡(jiǎn)單。流數(shù)據(jù)處理需要通過(guò)持續(xù)可用的流服務(wù)實(shí)現(xiàn)有保證的耐用性、訂購(gòu)和交付。
通過(guò)軟件并行性、就地處理和讀取時(shí)架構(gòu)實(shí)現(xiàn)批處理和流性能。關(guān)鍵的大數(shù)據(jù)堆棧策略包括將數(shù)據(jù)和處理劃分為同時(shí)執(zhí)行的小單元,以及在分析存儲(chǔ)加載期間最大限度地減少模式驗(yàn)證。
4、提煉
分析數(shù)據(jù)存儲(chǔ)處理或提煉數(shù)據(jù)以供分析。數(shù)據(jù)存儲(chǔ)的示例包括基于SQL的多維數(shù)據(jù)倉(cāng)庫(kù)、NoSQL技術(shù)和具有抽象層的分布式數(shù)據(jù)存儲(chǔ),該抽象層用于通過(guò)接口訪問(wèn)各種數(shù)據(jù)類型。
大數(shù)據(jù)分析商店支持多種存儲(chǔ)方法和技術(shù),稱為多語(yǔ)言持久性。專用單一模型數(shù)據(jù)庫(kù)通過(guò)優(yōu)化數(shù)據(jù)存儲(chǔ)和處理特定數(shù)據(jù)類型來(lái)提供性能和可擴(kuò)展性。基本策略包括數(shù)據(jù)處理、并行執(zhí)行和數(shù)據(jù)分區(qū)。
5、分析
分析檢查分析數(shù)據(jù)存儲(chǔ)和原始存儲(chǔ),處于交互環(huán)境中的人類用戶使用BI工具通過(guò)可視化獲得洞察力,先進(jìn)的分析工具處理數(shù)據(jù)以提取情報(bào),機(jī)器學(xué)習(xí)使用人工智能直接處理數(shù)據(jù)來(lái)自我學(xué)習(xí)。
大數(shù)據(jù)分析軟件處理從簡(jiǎn)單的即席查詢到復(fù)雜的預(yù)測(cè)分析和機(jī)器學(xué)習(xí)操作的查詢。用戶范圍包括臨時(shí)分析師、數(shù)據(jù)科學(xué)家和機(jī)器。由于數(shù)據(jù)通常是分散的,就地分析是必不可少的,因此軟件應(yīng)該通過(guò)數(shù)據(jù)交換矩陣的虛擬化向用戶呈現(xiàn)數(shù)據(jù)生態(tài)系統(tǒng)的統(tǒng)一視圖。
6、編排
大數(shù)據(jù)堆棧通常使用工作流技術(shù)來(lái)管理源數(shù)據(jù)收集、原始數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理等數(shù)據(jù)操作,運(yùn)營(yíng)還包括將精煉數(shù)據(jù)移動(dòng)到分析數(shù)據(jù)存儲(chǔ),以及將洞察力直接推送到商業(yè)智能應(yīng)用程序,如報(bào)告和儀表板。
大數(shù)據(jù)協(xié)調(diào)軟件可自動(dòng)化數(shù)據(jù)管道,從而最大限度地減少延遲并縮短實(shí)現(xiàn)價(jià)值的時(shí)間。工作流軟件提供了易于使用的管理界面和架構(gòu)組件之間的無(wú)縫集成。
選擇大數(shù)據(jù)堆棧
在選擇大數(shù)據(jù)技術(shù)或堆棧之前,企業(yè)應(yīng)量化其當(dāng)前和未來(lái)的數(shù)據(jù)挑戰(zhàn),了解傳統(tǒng)軟件的局限性,并注意大數(shù)據(jù)行業(yè)趨勢(shì)。他們應(yīng)該定期重新評(píng)估自己的評(píng)估,因?yàn)榇髷?shù)據(jù)和技術(shù)演變是不斷變化的目標(biāo)。
重要的是要確保技術(shù)選擇是模塊化的和松散耦合的,以允許即插即用策略中的更改,而對(duì)其他堆棧軟件的影響最小或沒(méi)有影響。專注于專門為解決體系結(jié)構(gòu)中的獨(dú)特挑戰(zhàn)而設(shè)計(jì)的軟件,而不是多用途軟件。
數(shù)據(jù)驅(qū)動(dòng)型企業(yè)了解處理大數(shù)據(jù)是一項(xiàng)核心能力。專用大數(shù)據(jù)軟件可以應(yīng)對(duì)規(guī)模性和復(fù)雜性的數(shù)據(jù)挑戰(zhàn)。與傳統(tǒng)數(shù)據(jù)軟件一起,大數(shù)據(jù)堆棧有助于管理數(shù)據(jù)并提供及時(shí)的業(yè)務(wù)洞察。
- 上一篇
關(guān)于數(shù)字化轉(zhuǎn)型戰(zhàn)略,你需要知道的一切
數(shù)字化轉(zhuǎn)型戰(zhàn)略闡明了企業(yè)想要實(shí)現(xiàn)的目標(biāo),并就如何利用數(shù)字技術(shù)實(shí)現(xiàn)這些目標(biāo)提供了高層次的指導(dǎo),還應(yīng)包括業(yè)務(wù)流程改進(jìn)計(jì)劃和任何必要的組織文化轉(zhuǎn)變。Protiviti Digital的董事總經(jīng)理兼全球解決方案主管Joan Smith表示:“它需要有足夠的細(xì)節(jié),這樣企業(yè)才能理解它?!?/p>
- 下一篇
從數(shù)據(jù)池或大數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖
這篇博文討論了從數(shù)據(jù)池/大數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖的演變。它探討了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的局限性以及數(shù)據(jù)湖在可擴(kuò)展性、敏捷性和自助服務(wù)方面的優(yōu)勢(shì)
相關(guān)資訊
- AI技術(shù)對(duì)于家居生活的影響如何?
- 云計(jì)算的發(fā)展現(xiàn)狀如何?
- 國(guó)內(nèi)大模型發(fā)展趨勢(shì)與挑戰(zhàn):尋找AI
- 2024年學(xué)計(jì)算機(jī)還是人工智能?
- 工業(yè)自動(dòng)化時(shí)代技能差距的八個(gè)嚴(yán)
- 生成式人工智能:開(kāi)啟知識(shí)工作自動(dòng)
- 如何使用增強(qiáng)分析簡(jiǎn)化復(fù)雜數(shù)據(jù)?
- 云計(jì)算如何幫助企業(yè)實(shí)現(xiàn)環(huán)境可持
- 七個(gè)領(lǐng)先數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)的深入
- 如何檢測(cè)機(jī)器學(xué)習(xí)中的概念漂移