如何看待大數(shù)據(jù)云原生發(fā)展之路
2023 云棲大會(huì)在杭州如期舉行,前身是阿里云開(kāi)發(fā)者大會(huì),作為阿里的主場(chǎng),國(guó)內(nèi)公有云計(jì)算份額最大廠商,今年的主題是:計(jì)算,為了無(wú)法計(jì)算的價(jià)值。大會(huì)主場(chǎng)兩大主題:大模型和云計(jì)算。大模型的火熱和未來(lái)可預(yù)見(jiàn)的應(yīng)用場(chǎng)景充分了引起了大家的重視,上午場(chǎng)以人工智能在阿里云的發(fā)展為主,同時(shí)闡述了云計(jì)算為人工智能算力提供了堅(jiān)實(shí)的支持。下午場(chǎng),云產(chǎn)品線負(fù)責(zé)人各自從容器、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、Severless、大數(shù)據(jù)這幾個(gè)主題介紹了這一年開(kāi)發(fā)和提升的成果。作為一個(gè)大數(shù)據(jù)從業(yè)者,在公有云和容器化發(fā)展的大趨勢(shì)下,我們關(guān)注的重點(diǎn)已經(jīng)不僅僅是大模型,大數(shù)據(jù)在未來(lái)幾年發(fā)展的重點(diǎn)方向是什么,大數(shù)據(jù)的技術(shù)演進(jìn)路線會(huì)如何。
一、從技術(shù)主論壇上看云技術(shù)的主要進(jìn)展
云棲大會(huì)上午場(chǎng),阿里云創(chuàng)始人王堅(jiān)做了一場(chǎng)演說(shuō),說(shuō)到了云計(jì)算的第三次浪潮的到來(lái)。同時(shí),闡述了自己對(duì)云計(jì)算第一次浪潮的理解,并用 Netflix 和米哈游兩家企業(yè)的案例來(lái)表達(dá)對(duì)云計(jì)算浪潮到來(lái)所帶來(lái)的效益。第二次浪潮以傳動(dòng)企業(yè)上云,比如銀行上云為代表。第三次浪潮的標(biāo)志事件是北京冬奧會(huì)核心系統(tǒng)上云。未來(lái),企業(yè)上云是大部分的首選,公有云擁有的規(guī)?;驮朴?jì)算的人才是根本原因。這點(diǎn)如同傳統(tǒng)分散的手工作坊向集中式規(guī)模化的大型工廠演進(jìn)。我們來(lái)具體看看,下午場(chǎng)的技術(shù)主論壇,在技術(shù)干貨或者核心產(chǎn)品上都有哪些提升,在大數(shù)據(jù)領(lǐng)域會(huì)有哪些影響。下面我會(huì)將主要產(chǎn)品技術(shù)演講進(jìn)行摘要。
彈性計(jì)算/容器方面:核心點(diǎn)在于擁抱云原生,發(fā)布了基于 CIPU+ 飛天操作系統(tǒng)構(gòu)建第三階段彈性計(jì)算。ECS 的計(jì)算從支持 Intel 到自研的倚天 710 和 AMD 芯片,各款芯片的主打方向不同。同時(shí),對(duì)不同的 ECS 實(shí)例,做了針對(duì)價(jià)格的細(xì)分。經(jīng)濟(jì)型實(shí)例主打?qū)W生、中小企業(yè)開(kāi)發(fā)者、測(cè)試環(huán)境。HPC 實(shí)例、高性能高穩(wěn)定實(shí)例,主打一些特殊要求行業(yè)。介紹了 ECI 容器能力,舉例某頭部公司,基于 ECI 容器的能力,構(gòu)建自己的彈性大數(shù)據(jù)系統(tǒng),感覺(jué)很意外的,日累計(jì)可以創(chuàng)建 200W 個(gè) ECI 的實(shí)例。
存儲(chǔ)方面:重點(diǎn)是阿里云的對(duì)象存儲(chǔ) OSS,也是大數(shù)據(jù)領(lǐng)域如果上云使用的基礎(chǔ)服務(wù)。提供 OSS 的標(biāo)準(zhǔn)、低頻、歸檔三種存儲(chǔ)類型和歸檔直讀。提升 OSS 帶寬到 100Gbps,舉例 270GB 的模型,大約 20秒讀完。OSS 的協(xié)議兼容支持,OSS-Posix 本地文件,OSS-HDFS 兼容 Hadoop 協(xié)議。
網(wǎng)絡(luò)方面:阿里的飛天洛神云網(wǎng)絡(luò),提升了高性能網(wǎng)絡(luò)接入和轉(zhuǎn)發(fā),主要是軟硬協(xié)同、互補(bǔ)。云原生對(duì)網(wǎng)絡(luò)的挑戰(zhàn),以前的網(wǎng)絡(luò)是為虛擬機(jī)提供的,現(xiàn)在要為容器 Pod 提供,兩者的數(shù)量級(jí)不同帶來(lái)的挑戰(zhàn)。一是容器對(duì)網(wǎng)卡的創(chuàng)建速度要求高,從原來(lái)的幾百的彈性提升到幾千,二是基于 K8s 的無(wú)縫融合,優(yōu)化了各種網(wǎng)絡(luò)層查表和內(nèi)存管理。介紹了主動(dòng)重路由技術(shù),來(lái)解決多區(qū)域網(wǎng)絡(luò)突然閃斷問(wèn)題,以及模型訓(xùn)練對(duì)大網(wǎng)絡(luò)帶寬的需求。
托管的K8s:主要闡述了一些使用數(shù)據(jù),64% 用戶生產(chǎn)環(huán)境使用 K8s,云上 K8s 增速達(dá)到 127%。云托管的 K8s 超過(guò)本地部署,占比 73% 等。將托管的 K8s 集群產(chǎn)品定價(jià)重新規(guī)劃了一下。
數(shù)據(jù)庫(kù)方面:介紹了瑤池 Rds、Polardb 以及 Adb,基于開(kāi)源的有 Selectdb、Mongodb、Clickhouse。其中,闡述了拳頭產(chǎn)品 Polardb 的性能優(yōu)化。在產(chǎn)品方面,Rds+Redis、Polardb+Tair,內(nèi)置緩存和無(wú)需人工關(guān)注讀寫一致性。同時(shí),介紹了Adb 和 Lindorm,Lindorm 作為 Nosql 數(shù)據(jù)庫(kù)的能力和支持多模態(tài)。
大數(shù)據(jù)方面:介紹了 Pai 平臺(tái),Maxcomputor 支持 Python 處理,F(xiàn)link+Paimon 新一代實(shí)時(shí)湖倉(cāng)方案,Dataworks 智能化升級(jí),比如支持自然語(yǔ)言,全托管向量檢索服務(wù) Dashvector,最后介紹將要全面 Serverless 化的產(chǎn)品,比如 ES、Spark、StarRocks 等。
二、大數(shù)據(jù)技術(shù)發(fā)展和應(yīng)用現(xiàn)狀
大數(shù)據(jù)的技術(shù)發(fā)展起步于 Google 的 2003 年三篇論文,GFS、Bigtable、MapReduce,愿稱之為大數(shù)據(jù) 1.0 階段,分別闡述了海量數(shù)據(jù)存儲(chǔ)、快速點(diǎn)查、通用計(jì)算。后來(lái)基于三篇論文原型實(shí)現(xiàn)的大數(shù)據(jù)開(kāi)源組件,Hadoop 技術(shù)體系,包含 HDFS、Hbase、Yarn、MapReduce,分別解決在廉價(jià)機(jī)器構(gòu)建分布式存儲(chǔ)、快速點(diǎn)查、資源調(diào)度、海量數(shù)據(jù)計(jì)算問(wèn)題。
隨著技術(shù)的發(fā)展,大數(shù)據(jù)組件的推陳推新,以 Hive、Spark、Storm 為代表,大數(shù)據(jù)邁入了 2.0 階段,同時(shí)像ELK解決特定場(chǎng)景的輕量化的鏈路也有了發(fā)展空間。過(guò)程中,OLAP 分析領(lǐng)域迎來(lái)了新的發(fā)展,如 Clickhouse、Kylin、Druid 等 OLAP 引擎。數(shù)據(jù)的主要構(gòu)建方式過(guò)渡到了以類 SQL 為主。
在后面的 2.0 階段,實(shí)時(shí)計(jì)算方面,2015 年谷歌發(fā)表《Google-DataFlow》介紹了流式計(jì)算的概念,后來(lái)有了開(kāi)源的 Flink 實(shí)時(shí)計(jì)算,大數(shù)據(jù)處理步入了 2.5 階段。近年來(lái),企業(yè)迎來(lái)了上云浪潮,帶來(lái)了阿里云的迅猛發(fā)展。K8s 體系在業(yè)務(wù)系統(tǒng)逐漸普及。在 OLAP 領(lǐng)域,迎來(lái)了新一批成員,如 StarRocks、Doris 等 MPP 數(shù)據(jù)庫(kù)引擎。同時(shí),數(shù)據(jù)湖的快速發(fā)展,Hudi、Iceberg、Delta、Paimon,在存儲(chǔ)層和表之間構(gòu)建了一層,基于云上對(duì)象存儲(chǔ)近乎無(wú)限的特點(diǎn),數(shù)據(jù)倉(cāng)庫(kù)的概念步入了數(shù)據(jù)湖的概念。
那么我們是不是可以算進(jìn)入了大數(shù)據(jù) 3.0 階段呢?我認(rèn)為還有一塊需要補(bǔ)足。雖然大數(shù)據(jù)跟隨所在公司上云,應(yīng)用了云上的基礎(chǔ)設(shè)置,但是大數(shù)據(jù)技術(shù)的構(gòu)建,本質(zhì)還是基于傳統(tǒng)的 ECS 來(lái)實(shí)施,從公有云的發(fā)展來(lái)看,K8s 天然提供的資源調(diào)度和編排體系能夠替代 Yarn 資源調(diào)度?;?HDFS 的存儲(chǔ),能夠使用 OSS 來(lái)構(gòu)建數(shù)據(jù)湖系統(tǒng)。網(wǎng)絡(luò)方面,公有云看到了大數(shù)據(jù)云原生的趨勢(shì),網(wǎng)絡(luò)方面已經(jīng)做了升級(jí)改造。K8s 的彈性能力在成本的天然優(yōu)勢(shì)是眾多企業(yè)的首選。那么,需要解決的問(wèn)題在于計(jì)算組件如何契合K8s體系,形成云原生。
我們可以看到主要大數(shù)據(jù)組件的發(fā)展趨勢(shì),Spark、Flink、Clickhouse、StarRocks 等,正在快速發(fā)展自身基于K8s構(gòu)建應(yīng)用的能力。在這個(gè)過(guò)程中,避免不了會(huì)碰到一些問(wèn)題,下面我們來(lái)具體看一看。
三、大數(shù)據(jù)云原生的重難點(diǎn)
大數(shù)據(jù)上云和大數(shù)據(jù)云原生化是兩個(gè)不同的概念。大數(shù)據(jù)上云,一般可以理解為,企業(yè)不需要去自建機(jī)房,使用公有云作為 IDC,大數(shù)據(jù)基于公有云的基礎(chǔ)設(shè)施(虛擬機(jī)、存儲(chǔ)、網(wǎng)絡(luò))來(lái)構(gòu)建大數(shù)據(jù)技術(shù)體系。大數(shù)據(jù)的云原生化,則是指將大數(shù)據(jù)技術(shù)與應(yīng)用部署在云原生環(huán)境中,利用云原生的優(yōu)勢(shì),如容器化、彈性伸縮、存算分離等,以實(shí)現(xiàn)更高效、更靈活、更可靠的大數(shù)據(jù)處理和分析。
需要注意的是,大數(shù)據(jù)云原生化的實(shí)現(xiàn)需要解決一些技術(shù)和生態(tài)問(wèn)題,如兼容性、資源管理、計(jì)算性能和生態(tài)融合等。因此,在實(shí)現(xiàn)大數(shù)據(jù)云原生化時(shí),需要進(jìn)行全面的架構(gòu)設(shè)計(jì)和實(shí)施方法選擇,以確保最終的解決方案能夠滿足實(shí)際需求。將大數(shù)據(jù)組件進(jìn)行云原生化的升級(jí)改造,具體來(lái)說(shuō)需要從存儲(chǔ)、計(jì)算以及調(diào)度這三個(gè)基礎(chǔ)維度來(lái)入手。
存儲(chǔ)方面相對(duì)來(lái)說(shuō),比較容易進(jìn)行改造和替換,企業(yè)可以選擇市面上多種云存儲(chǔ),且這種云儲(chǔ)存除了具備高容錯(cuò)、高可靠性以外,還需要具備冷熱數(shù)據(jù)分層管理,以及與主流大數(shù)據(jù)計(jì)算引擎 Hive、Spark、Trino 等無(wú)縫兼容適配能力,如阿里云近年推出的 OSS-HDFS 云存儲(chǔ)。除了上述所說(shuō)的云儲(chǔ)存以外,將大數(shù)據(jù)進(jìn)行云原生化改造,重難點(diǎn)問(wèn)題在于計(jì)算和調(diào)度這兩個(gè)維度。
K8s 之于大數(shù)據(jù)體系有幾點(diǎn)問(wèn)題相對(duì)突出:第一是大數(shù)據(jù)離線計(jì)算對(duì)于瞬時(shí)容器的突發(fā)需求,以 Spark 任務(wù)為例,一個(gè)較大規(guī)模的 Spark 任務(wù)短時(shí)需要的 Container 可能是幾千到萬(wàn)級(jí)別,K8s 的 Pod 能否快速?gòu)棾?,短時(shí)超大規(guī)模鏡像拉取是否會(huì)有瓶頸。第二是隨之而來(lái)容器基礎(chǔ)網(wǎng)絡(luò)問(wèn)題,如 Pod 上網(wǎng)絡(luò)的創(chuàng)建和釋放能否滿足,容器間網(wǎng)絡(luò)帶寬性能能否滿足。第三是容器的掛載盤普遍較小,Spark 或 Flink 都存在Shuffle數(shù)據(jù)落盤的問(wèn)題。大數(shù)據(jù)云原生在計(jì)算和調(diào)度兩個(gè)維度,上述三個(gè)問(wèn)題是需要解決的。
四、大數(shù)據(jù)云原生的可行性
從主論壇技術(shù)上看,大數(shù)據(jù)相關(guān)的核心基礎(chǔ)設(shè)施在容器上都有較大提升,如 Serverless 彈性容器和底層網(wǎng)絡(luò)的性能提升、OSS 帶寬的提升以及 OSS-HDFS 協(xié)議的支持。同時(shí),開(kāi)源社區(qū)中出現(xiàn)了各種用于大數(shù)據(jù)中間結(jié)果的 Remote Shuffle 組件,如 Celeborn 等。我認(rèn)為大數(shù)據(jù)云原生化是可行的,相信很多公司的大數(shù)據(jù)發(fā)展方向會(huì)朝著云原生路線演進(jìn)。在云棲大會(huì)的參會(huì)單位中,無(wú)意中看到了一家公司關(guān)于大數(shù)據(jù)云原生的案例:《米哈游大數(shù)據(jù)云原生實(shí)踐》,分享者是這家公司大數(shù)據(jù)技術(shù)專家杜安明。他們的實(shí)踐和我的想法不謀而合,下面我們來(lái)看一下他們是怎么做的。
他們主要分享了米哈游大數(shù)據(jù)架構(gòu)向云原生化升級(jí)過(guò)程中的目標(biāo)、探索和實(shí)踐,以及如何通過(guò)以阿里云容器服務(wù) ACK 為底座的 Spark 云原生架構(gòu),獲得在彈性計(jì)算、成本節(jié)約以及存算分離方面的價(jià)值。
一是彈性計(jì)算。由于游戲業(yè)務(wù)會(huì)進(jìn)行周期版本更新、開(kāi)啟活動(dòng)以及新游戲的上線等,對(duì)離線計(jì)算資源的需求與消耗波動(dòng)巨大,可能是平時(shí)水位的幾十上百倍。利用K8s集群天然的彈性能力,將 Spark 計(jì)算任務(wù)調(diào)度到 K8s 上運(yùn)行,可以比較輕松的解決這類場(chǎng)景下資源消耗洪峰問(wèn)題。
二是成本節(jié)約。依托阿里云容器服務(wù) Kubernetes 版 ACK 集群自身強(qiáng)大的彈性能力,所有計(jì)算資源按量申請(qǐng)、用完釋放,再加上我們對(duì) Spark 組件的定制改造,以及充分利用 ECI Spot 實(shí)例,在承載同等計(jì)算任務(wù)和資源消耗下,成本節(jié)約達(dá) 50%。
三是存算分離。Spark 運(yùn)行在 K8s 之上,完全使用 K8s 集群的計(jì)算資源,而訪問(wèn)的數(shù)據(jù)也由 HDFS、OSS 逐步切換到 OSS-HDFS 上,中間 Shuffle 數(shù)據(jù)的讀寫采用 Celeborn,整套架構(gòu)實(shí)現(xiàn)了計(jì)算和存儲(chǔ)的解耦,易于維護(hù)和擴(kuò)展。
整個(gè)分享看下來(lái),米哈游大數(shù)據(jù)攻克了很多重難點(diǎn)問(wèn)題,已經(jīng)實(shí)現(xiàn)了大數(shù)據(jù)計(jì)算的云原生化,并且取得了很不錯(cuò)的收益。
- 上一篇
如何設(shè)計(jì)適合數(shù)字化轉(zhuǎn)型需要的數(shù)據(jù)架構(gòu)
現(xiàn)代組織需要一個(gè)模塊化的數(shù)據(jù)架構(gòu)來(lái)支持復(fù)雜的企業(yè)環(huán)境,同時(shí)為業(yè)務(wù)用戶提供數(shù)據(jù)訪問(wèn)。以下是一些關(guān)鍵考慮因素。
- 下一篇
釋放非結(jié)構(gòu)化數(shù)據(jù)力量的八個(gè)技巧
非結(jié)構(gòu)化數(shù)據(jù)資源對(duì)于獲得業(yè)務(wù)洞察和解決問(wèn)題非常有價(jià)值,關(guān)鍵是弄清楚如何創(chuàng)造這種價(jià)值。熟練利用這些海量信息資源的企業(yè)可以在向關(guān)鍵業(yè)務(wù)流程提供可操作的洞察方面獲得顯著優(yōu)勢(shì)。
相關(guān)資訊
- 人工智能數(shù)據(jù)驗(yàn)證的力量
- 如何通過(guò)數(shù)據(jù)層的現(xiàn)代化來(lái)消解數(shù)
- 大數(shù)據(jù)時(shí)代必備技能——分庫(kù)分表
- AI字母湯的真相(ANI、AGI、ASI)
- 運(yùn)營(yíng)商大數(shù)據(jù)獲客的優(yōu)勢(shì)是什么?
- 2024年的云趨勢(shì):云計(jì)算的前景如何
- 如何使用富有洞察力的ML方法增強(qiáng)
- 什么是寬帶、光貓、路由器、交換
- 推動(dòng)mPOS和智能自動(dòng)售貨機(jī)增長(zhǎng)的
- 基于區(qū)塊鏈的數(shù)據(jù)泄漏檢測(cè)系統(tǒng)