為什么改變?nèi)藗儗?duì)數(shù)據(jù)庫技術(shù)的誤解很重要?
數(shù)據(jù)庫是任何組織技術(shù)生態(tài)系統(tǒng)的核心。云技術(shù)的出現(xiàn),使得數(shù)據(jù)庫具備了高性價(jià)比的數(shù)據(jù)存儲(chǔ)、可伸縮計(jì)算、以利用率為基礎(chǔ)的定價(jià)和完全管理的服務(wù)交付等功能。隨著遠(yuǎn)程辦公模式的增加,許多企業(yè)開始采用現(xiàn)代數(shù)據(jù)庫技術(shù)來處理海量數(shù)據(jù)。這樣一來,IT研發(fā)持續(xù)轉(zhuǎn)向云計(jì)算,加速了企業(yè)創(chuàng)數(shù)字化轉(zhuǎn)型的進(jìn)程。
雖然在向云的過度中伴隨著許多挑戰(zhàn),但是對(duì)于那些尋求尖端數(shù)據(jù)庫技術(shù)的企業(yè)來說,終歸是利大于弊。對(duì)于數(shù)據(jù)領(lǐng)導(dǎo)者來說,增強(qiáng)他們對(duì)共同障礙、創(chuàng)造數(shù)據(jù)庫策略及上云的了解至關(guān)重要。如果數(shù)據(jù)庫的領(lǐng)導(dǎo)者誤解了數(shù)據(jù)庫的成本、遷移的復(fù)雜性、數(shù)據(jù)安全性和靈活性,他們就不愿意采用現(xiàn)代化的解決方案。因此,更好地了解這些誤區(qū),對(duì)于企業(yè)的成功至關(guān)重要。
一、混合云系統(tǒng)增強(qiáng)數(shù)據(jù)庫的倉儲(chǔ)能力
混合云連接了私有數(shù)據(jù)中心和公有云,使數(shù)據(jù)和應(yīng)用可以共享來自內(nèi)部部署系統(tǒng)和云計(jì)算系統(tǒng)的信息。混合云計(jì)劃能幫助企業(yè)利用多云和本地?cái)?shù)據(jù)中心,具備更加靈活的優(yōu)勢(shì)。。公有云、私有云和本地?cái)?shù)據(jù)資源結(jié)合,并通過人工智能和機(jī)器學(xué)習(xí)來支持敏捷性并改進(jìn)報(bào)告。
二、了解常見的數(shù)據(jù)庫誤解
對(duì)云數(shù)據(jù)庫的誤解可能會(huì)導(dǎo)致IT專業(yè)人員對(duì)是否采用新的數(shù)據(jù)庫系統(tǒng)和是否上云產(chǎn)生疑惑。
以下是關(guān)于這些誤解的真相。
1、數(shù)據(jù)庫只適用于對(duì)過去的數(shù)據(jù)進(jìn)行業(yè)務(wù)分析。其實(shí),使用現(xiàn)代化工具,數(shù)據(jù)庫就可以進(jìn)行實(shí)時(shí)數(shù)據(jù)分析。當(dāng)考慮到企業(yè)數(shù)據(jù)庫實(shí)時(shí)報(bào)告和分析的傳統(tǒng)設(shè)計(jì)時(shí),使用像Oracle Goldengate和Shareplex這樣的數(shù)據(jù)復(fù)制技術(shù)是一個(gè)明智的選擇。這些集成數(shù)據(jù)存儲(chǔ)工具的數(shù)據(jù)庫,能夠?qū)⒃诰€交易處理的數(shù)據(jù)復(fù)制到數(shù)據(jù)庫,同時(shí)幫助提取、轉(zhuǎn)換、加載,以及在線提取、加載和邏輯轉(zhuǎn)換數(shù)據(jù)。
在現(xiàn)代數(shù)據(jù)庫中,Kafka Spark streaming將在數(shù)據(jù)庫環(huán)境下完成實(shí)時(shí)數(shù)據(jù)分析。因?yàn)閷?shí)時(shí)定義的延遲性會(huì)根據(jù)企業(yè)實(shí)時(shí)定義方案的不同而有所不同,所以計(jì)劃和管理實(shí)時(shí)定義的延遲性就顯得非常重要。而企業(yè)的責(zé)任就是決定和定義實(shí)時(shí)數(shù)據(jù)復(fù)制的延遲性,并在確定的時(shí)間內(nèi)配置實(shí)時(shí)數(shù)據(jù)。如果企業(yè)決定定義實(shí)時(shí)數(shù)據(jù)的延遲時(shí)間是幾小時(shí),那么實(shí)時(shí)數(shù)據(jù)處理可以通過傳統(tǒng)的批量處理來實(shí)現(xiàn)。
2、傳統(tǒng)數(shù)據(jù)庫沒有通用的結(jié)構(gòu)化查詢語言(下文稱SQL)引擎去處理數(shù)據(jù)庫中所有類型的數(shù)據(jù),而在現(xiàn)代化數(shù)據(jù)庫環(huán)境下就能建立一個(gè)通用的SQL引擎。如果企業(yè)要處理結(jié)構(gòu)化的數(shù)據(jù),或者使用一個(gè)數(shù)據(jù)湖選項(xiàng)去自定義和處理結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),他們就會(huì)依賴企業(yè)自己的數(shù)據(jù)庫解決方案。
一些企業(yè)用單一的SQL引擎,像Snowflake 或者Databricks ,作為統(tǒng)一的數(shù)據(jù)庫引擎來使用數(shù)據(jù)庫系統(tǒng)。然而,這些解決方案需要探索成本、性能和數(shù)據(jù)處理的屬性。比如, Spark引擎最適合批量處理,但不適合低吞吐量的單一SQL。更好的數(shù)據(jù)庫結(jié)構(gòu)會(huì)基于數(shù)據(jù)模式來分析商業(yè)要求,然后建立一個(gè)合理的SQL引擎。例如,一個(gè)單一數(shù)據(jù)庫方案用presto 引擎去處理低吞吐量的簡單SQL,并且用Spark引擎來處理批量數(shù)據(jù)。
3、現(xiàn)代化數(shù)據(jù)庫只能通過云端供應(yīng)商來實(shí)現(xiàn)?,F(xiàn)代化數(shù)據(jù)庫需要基于企業(yè)數(shù)據(jù)及數(shù)據(jù)優(yōu)先級(jí)來建立。比如,如果該數(shù)據(jù)很敏感,那么就需要部署在企業(yè)自己的數(shù)據(jù)中心。與此同時(shí),對(duì)于非敏感的數(shù)據(jù)庫來說,企業(yè)也可以從云供應(yīng)商那里獲取。在這些情況下,混合數(shù)據(jù)庫方案就是不錯(cuò)的選擇。Cloud Pak 等技術(shù)就可以同時(shí)在本地?cái)?shù)據(jù)中心和云數(shù)據(jù)中心實(shí)時(shí)處理數(shù)據(jù)。Cloud Pak 的數(shù)據(jù)是高度可擴(kuò)展的,并且可以為數(shù)據(jù)庫提供更好的性能和混合云的解決方案。
4、管理數(shù)據(jù)庫的數(shù)據(jù)治理有一定難度。如今,許多企業(yè)很難管理他們的數(shù)據(jù)衍生。這個(gè)問題就可以通過設(shè)計(jì)一個(gè)數(shù)據(jù)中心方案來解決,比如Cloud Pak 或者Apache Kyligence Semantic Layer。再比如,Watson Knowledge Catalog就具有創(chuàng)造多數(shù)據(jù)源和多個(gè)不同數(shù)據(jù)源的虛擬化表的能力。
當(dāng)用戶執(zhí)行SQL時(shí),這些方案也提供通用引擎。它在內(nèi)部轉(zhuǎn)換SQL并將數(shù)據(jù)傳輸?shù)胶线m的數(shù)據(jù)源。這些方案和其他的引擎技術(shù)可以幫助企業(yè)更好地管理和治理數(shù)據(jù)衍生。
5、數(shù)據(jù)倉庫使用了更多存儲(chǔ)空間,并且成本也很高。企業(yè)使用成百上千個(gè)不同類型地?cái)?shù)據(jù)庫去管理和滿足他們的商務(wù)需求,這樣他們需要能整合所有數(shù)據(jù)源的數(shù)據(jù)以滿足數(shù)據(jù)報(bào)告或者AI、ML需求。通常情況下,數(shù)據(jù)庫領(lǐng)導(dǎo)者會(huì)選擇價(jià)格低一些的解決方案,比如對(duì)象存儲(chǔ)或者建立企業(yè)自己的SQL引擎來處理海量數(shù)據(jù)。
除此之外,管理傳統(tǒng)塊存儲(chǔ)中的數(shù)據(jù)成本很高。在這些情況下,數(shù)據(jù)體系結(jié)構(gòu)是下一代數(shù)據(jù)庫解決方案的更好的選擇。理想的數(shù)據(jù)體系結(jié)構(gòu)提供一個(gè)通用的SQL引擎,用來處理來自關(guān)系數(shù)據(jù)庫管理系統(tǒng)的結(jié)構(gòu)化、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。Cloud Pak for Data和Watson Query是數(shù)據(jù)體系解決方案的兩個(gè)例子。因?yàn)閿?shù)據(jù)體系結(jié)構(gòu)化可以直接處理在線交易或商務(wù)數(shù)據(jù)庫的數(shù)據(jù),它降低了成本,也不需要使用單獨(dú)的數(shù)據(jù)庫解決方案。
未來計(jì)劃
采用數(shù)據(jù)庫解決方案需要做一些前期工作,包括數(shù)據(jù)管理和治理、平臺(tái)自動(dòng)化、數(shù)據(jù)移動(dòng)和復(fù)制、數(shù)據(jù)模型化和準(zhǔn)備以及基礎(chǔ)設(shè)施監(jiān)控。如果執(zhí)行得好,這些策略可以使企業(yè)記錄他們的當(dāng)前環(huán)境,規(guī)劃現(xiàn)代化平臺(tái),遷移遺留的數(shù)據(jù)結(jié)構(gòu),并管理自動(dòng)化新平臺(tái)。通過解決對(duì)云數(shù)據(jù)庫的誤解,了解數(shù)據(jù)庫模型的挑戰(zhàn)、益處和總成本所有權(quán),企業(yè)可以做出更明智的云數(shù)據(jù)庫戰(zhàn)略決定,并釋放數(shù)據(jù)真正的價(jià)值。