大數(shù)據(jù)分析的理解和探索
如今,云計算的熱潮似乎還沒散去,行業(yè)廠商就已經(jīng)開始關(guān)注下一個熱點:大數(shù)據(jù)。而與以往的炒作周期一樣,現(xiàn)在的大數(shù)據(jù)對于用戶來說其來源比較混亂,因為供應(yīng)商提出了自己獨特的,并且經(jīng)常相互矛盾的定義和術(shù)語。
大數(shù)據(jù)定議之所以混亂的最常見的原因,是人們將大數(shù)據(jù)存儲與大數(shù)據(jù)分析的結(jié)果混為一談。“大數(shù)據(jù)”一詞起源于開源社區(qū),其開發(fā)和分析過程比傳統(tǒng)的數(shù)據(jù)倉庫速度更快,擴展性更強,并且可以通過網(wǎng)絡(luò)在用戶每天產(chǎn)生的大量非結(jié)構(gòu)化數(shù)據(jù)中提取價值。
大數(shù)據(jù)的存儲是相關(guān)的,其旨在解決大量的非結(jié)構(gòu)化數(shù)據(jù),助長企業(yè)級的數(shù)據(jù)增長。而擴展NAS和對象存儲這些技術(shù)支撐大數(shù)據(jù)存儲,已經(jīng)存在了多年,并且人們對此有著充分的了解。
在一個非常簡單的層面上,大數(shù)據(jù)存儲無非是存儲用于產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序處理的大量數(shù)據(jù)。這包括高清晰度視頻流,油氣勘探,基因組學(xué)等數(shù)據(jù)。
一個大型存儲廠商的一位營銷高管表示,其公司正在考慮將“海量數(shù)據(jù)”作為其大數(shù)據(jù)存儲條目的名稱。
大數(shù)據(jù)分析是比較緊急的和多方面的,但IT人員對其理解較少。大數(shù)據(jù)分析發(fā)展過程在歷史上一直受到網(wǎng)絡(luò)的推動。然而,大數(shù)據(jù)分析的應(yīng)用程序正在發(fā)生在所有主要垂直行業(yè)領(lǐng)域,現(xiàn)在的快速增長是一個增長的機會,值得所有供應(yīng)商進行炒作。
大數(shù)據(jù)分析是快速增長的多樣化的區(qū)域。因此,試圖確定它有什么用可能是無益的。但是,可以識別和鑒定大數(shù)據(jù)分析的技術(shù)特征和共同點。這些包括:
•在可擴展性方面,傳統(tǒng)的數(shù)據(jù)倉庫處理速度太慢,而且有限制;
•融合來自多個數(shù)據(jù)源的數(shù)據(jù)的能力,其中包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù);
•從數(shù)據(jù)來源獲取信息是至關(guān)重要的,其中包括越來越多的移動設(shè)備、無線射頻識別技術(shù)、網(wǎng)絡(luò),以及自動化技術(shù)。
此外,在多樣性大數(shù)據(jù)分析中可以找到至少四個主要發(fā)展片段。這些片段是MapReduce,可擴展的數(shù)據(jù)庫,實時流處理和大數(shù)據(jù)應(yīng)用。
(1)MapReduce
ApacheHadoop是MapReduce段開始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件,描述了一種用于并行網(wǎng)絡(luò)的數(shù)據(jù)處理稱為MapReduce的概念。此后不久,ApacheHadoop的誕生成為一個開源實現(xiàn)MapReduce的過程。周圍的社區(qū)正在快速成長,生產(chǎn)加載項擴展了企業(yè)數(shù)據(jù)中心內(nèi)的ApacheHadoop的可用性。
Apache的Hadoop的用戶通常在商用服務(wù)器建立自己的并行計算集群,各有專門存儲在一個小型磁盤陣列的形式,最近,也開始采用固態(tài)硬盤(SSD)的形式。這些通常被稱為“無共享”架構(gòu)。而存儲區(qū)域網(wǎng)絡(luò)(SAN)和網(wǎng)絡(luò)附加存儲(NAS)的可擴展性和彈性,通常被視為缺乏I/O性能,這些集群需要超越標準的數(shù)據(jù)倉庫的能力。因此,Hadoop的存儲是直接連接存儲(DAS)。然而,使用SAN和NAS的“二次”存儲正在成為新興的形式。
一個潛在的Hadoop用戶面臨的采購選擇,從單純的開源到高度商業(yè)化的版本,其范圍內(nèi)越來越廣泛。Apache的Hadoop和相關(guān)的工具都可以免費在ApacheHadoop的網(wǎng)站下載。Cloudera的公司提供了一個商業(yè)版本,其中包括一些Cloudera的插件和支持。其他開放源代碼的變種,如Facebook的distribution,也可以從Cloudera公司獲得。其商業(yè)版本包括MAPR,EMC公司現(xiàn)在將其合并成一個Hadoop應(yīng)用。
(2)可擴展的數(shù)據(jù)庫
而Hadoop已經(jīng)攫取了大部分的頭條新聞,因為它在數(shù)據(jù)倉庫環(huán)境下具有非結(jié)構(gòu)化數(shù)據(jù)的處理能力,更有向大數(shù)據(jù)分析的發(fā)展空間。
結(jié)構(gòu)化數(shù)據(jù)也得到了大量的關(guān)注。一個充滿活力和快速增長的社區(qū)圍繞NoSQL,這是一個開源的、非關(guān)系型、分布和橫向擴展的數(shù)據(jù)庫集合的結(jié)構(gòu),可以滿足網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)庫設(shè)計的高流量的網(wǎng)站和流媒體的需要。面向文檔的實現(xiàn)包括MongoDB(如“humongous”DB)和Terrastore。
開源社區(qū)所產(chǎn)生的另一種面向分析的數(shù)據(jù)庫是正在開發(fā)使用的scidb,包括環(huán)境觀測和監(jiān)測,射電天文學(xué)和地震,等等。
傳統(tǒng)的數(shù)據(jù)倉庫供應(yīng)商并沒有袖手旁觀。甲骨文公司正在打造其“下一代”大數(shù)據(jù)平臺,將利用其分析平臺和內(nèi)存計算的實時信息傳遞。Teradata公司最近收購了ASTER數(shù)據(jù)系統(tǒng)公司,將ASTER數(shù)據(jù)的SQLMapReduce添加到其產(chǎn)品組合中。
(3)實時流處理
對于多個數(shù)據(jù)流進行實時分析的StreamSQL從2003年開始使用,然而到現(xiàn)在為止,StreamSQL只能夠滲透到一些比較小的小眾市場,如金融服務(wù),監(jiān)視和通信網(wǎng)絡(luò)監(jiān)控等領(lǐng)域。而隨著行業(yè)廠商和用戶對大數(shù)據(jù)的興趣不斷增長,StreamSQL勢必會得到更多的關(guān)注和尋找更多的市場機會。
Streamsql是生長計算研究的一個區(qū)域稱為復(fù)雜事件處理(CEP),對真實世界的事件數(shù)據(jù)的低延遲處理技術(shù)。無論是IBM,還是InfoSphereStreams公司,以及StreamBase系統(tǒng)公司的產(chǎn)品都在這個領(lǐng)域中。
(4)大數(shù)據(jù)應(yīng)用
作為大數(shù)據(jù)分析的興趣擴展到企業(yè)數(shù)據(jù)中心,供應(yīng)商群體看到了一個機會,把一起大數(shù)據(jù)“家電”。這些設(shè)備的服務(wù)器,網(wǎng)絡(luò)和存儲設(shè)備集成到加速信息傳遞到一個機箱和運行分析軟件用戶。這些設(shè)備針對企業(yè)買家都會看重大數(shù)據(jù)設(shè)備易用性和價值,以及其固有的實施和使用的特點而推出的。圍繞Greenplum數(shù)據(jù)庫引擎這個領(lǐng)域的廠商,其中包括EMC公司,IBM和Netezza公司,MAPR公司最近推出了Hadoop商業(yè)化版本,預(yù)集成系統(tǒng),內(nèi)置設(shè)備,可與甲骨文和Teradata公司的版本相媲美。
大數(shù)據(jù)分析的大數(shù)據(jù)存儲
大數(shù)據(jù)分析過程的從業(yè)人員一般都不喜歡共享存儲。他們喜歡DAS的各種形式,從SSD到其內(nèi)部并行處理節(jié)點的高容量的SATA硬盤。共享存儲體系結(jié)構(gòu),如SAN和NAS,通常被認為是相對緩慢的復(fù)雜的,首先,是其價格昂貴。這些特點都不選用于大數(shù)據(jù)分析系統(tǒng)的系統(tǒng)性能,不能滿足商品基礎(chǔ)設(shè)施的低成本的蓬勃發(fā)展。
實時或接近實時信息傳遞是大數(shù)據(jù)分析的定義特征之一,因此,延遲是可以避免的,無論何時何地。在內(nèi)存中的數(shù)據(jù)是良好的,至少比采用光纖傳輸?shù)綑C械式硬盤要好,但也許比其他任何事情都更加糟糕,SAN在規(guī)模需要分析應(yīng)用的成本讓人望而卻步。
在大數(shù)據(jù)分析中,有一個共享存儲的案例。然而,存儲廠商和一般的存儲社區(qū)還沒有成為大數(shù)據(jù)分析的實踐者。這個例子可以在ParAccel的分析數(shù)據(jù)庫(PADB)與NetAppSAN存儲中看到。
數(shù)據(jù)存儲技術(shù)的開發(fā)人員表示將存儲看作從物理設(shè)備遷移到一個更虛擬和抽象的實體的實現(xiàn)。其結(jié)果是,共享存儲環(huán)境可以并且應(yīng)該被大數(shù)據(jù)從業(yè)者視為他們可以找到潛在有價值的數(shù)據(jù)服務(wù),如:
(1)數(shù)據(jù)保護和系統(tǒng)可用性:基于存儲的復(fù)制功能可以不需要數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)副本,當系統(tǒng)故障和數(shù)據(jù)損壞事件發(fā)生時,重新啟動可以恢復(fù)系統(tǒng)。
(2)縮短部署新應(yīng)用程序和自動化流程的時間:通過可重復(fù)使用的數(shù)據(jù)副本,當新的應(yīng)用程序都可以在網(wǎng)上迅速被建立,提高業(yè)務(wù)靈活性。
(3)變更管理:共享存儲可以幫助保持一個“永遠在線”的能力,可能減少所需的改變和升級,以及對在線生產(chǎn)環(huán)境的影響。
(4)生命周期管理:當共享存儲可以作為記錄的數(shù)據(jù)庫時,系統(tǒng)的演化變得更加容易管理,并且那些已經(jīng)廢棄的應(yīng)用變得更加容易丟棄。
(5)節(jié)約成本:使用共享存儲作為一個無共享架構(gòu),可以輔助DAS降低成本和處理器節(jié)點的復(fù)雜性。
以上提到的好處每個人都可以被映射到無共享架構(gòu)的分析。我們可以期望看到更多的存儲廠商這樣做一段時間。例如,雖然尚未公布,EMC公司可以憑借其基于MAPR設(shè)備整合Isilon或Atmos公司的存儲。
大數(shù)據(jù)是一個大問題
傳統(tǒng)的數(shù)據(jù)倉庫是一個大而相對較慢的生產(chǎn)商信息的業(yè)務(wù)分析。它從有限的數(shù)據(jù)資源,并依賴于反復(fù)的提取、轉(zhuǎn)換和加載(ETL)過程??蛻粼诳焖賹ふ耀@取信息的基礎(chǔ)上,從多個數(shù)據(jù)源同時淘汰掘金。大數(shù)據(jù)分析可以被定義,在一定程度上,需要從多個數(shù)據(jù)源解析大數(shù)據(jù)集,并產(chǎn)生實時或接近實時的信息。
大數(shù)據(jù)分析代表了一個巨大的機會。IT組織都在探索上述來自社交網(wǎng)絡(luò)的繁榮,解析基于網(wǎng)絡(luò)的數(shù)據(jù)源和提取價值分析技術(shù)。然而,現(xiàn)在有了一個更大的機會,那就是物聯(lián)網(wǎng)成為了一種新興的數(shù)據(jù)源。思科系統(tǒng)公司估計全球目前約有350億個可以連接到互聯(lián)網(wǎng)的電子設(shè)備。任何電子設(shè)備可以(有線或無線)連接到互聯(lián)網(wǎng),甚至汽車制造商正在建設(shè)連接到車輛的互聯(lián)網(wǎng)。“連接的”汽車將在2020年成為司空見慣的事情,并產(chǎn)生數(shù)以百萬計的瞬態(tài)數(shù)據(jù)流。
理解大數(shù)據(jù)分析
利用多個數(shù)據(jù)源,如物聯(lián)網(wǎng)的力量將會遠遠超出傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)。這將需要模仿人類大腦功能的過程。我們的大腦需要大量的感官數(shù)據(jù)流,并創(chuàng)建必要的相關(guān)關(guān)系,讓我們知道我們在哪里,我們在做什么,最終我們在想什么,所有這些都是實時的。
- 上一篇
重新思考淘汰和替換:中間件和數(shù)字化轉(zhuǎn)型
隨著 DX 領(lǐng)域的不斷發(fā)展,新的方法和技術(shù)不斷涌現(xiàn),例如人工智能 (AI)、機器學(xué)習 (ML)、開發(fā)、安全和運營 (DevSecOps)、自動化和低代碼解決方案。
- 下一篇
大數(shù)據(jù)和物聯(lián)網(wǎng)之間的關(guān)系以及如何互相幫助
大數(shù)據(jù)和物聯(lián)網(wǎng)(IoT)有時被有些人混淆,特別是因為它們經(jīng)常被放在一起討論。但實際上,它們代表著兩個截然不同的技術(shù)領(lǐng)域,而且經(jīng)常重疊。