資訊詳情

如何看待大數(shù)據(jù)云原生發(fā)展之路

2023-12-01 09:57:314636

2023 云棲大會(huì)在杭州如期舉行，前身是阿里云開(kāi)發(fā)者大會(huì)，作為阿里的主場(chǎng)，國(guó)內(nèi)公有云計(jì)算份額最大廠商，今年的主題是：計(jì)算，為了無(wú)法計(jì)算的價(jià)值。大會(huì)主場(chǎng)兩大主題:大模型和云計(jì)算。大模型的火熱和未來(lái)可預(yù)見(jiàn)的應(yīng)用場(chǎng)景充分了引起了大家的重視，上午場(chǎng)以人工智能在阿里云的發(fā)展為主，同時(shí)闡述了云計(jì)算為人工智能算力提供了堅(jiān)實(shí)的支持。下午場(chǎng)，云產(chǎn)品線負(fù)責(zé)人各自從容器、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、Severless、大數(shù)據(jù)這幾個(gè)主題介紹了這一年開(kāi)發(fā)和提升的成果。作為一個(gè)大數(shù)據(jù)從業(yè)者，在公有云和容器化發(fā)展的大趨勢(shì)下，我們關(guān)注的重點(diǎn)已經(jīng)不僅僅是大模型，大數(shù)據(jù)在未來(lái)幾年發(fā)展的重點(diǎn)方向是什么，大數(shù)據(jù)的技術(shù)演進(jìn)路線會(huì)如何。

一、從技術(shù)主論壇上看云技術(shù)的主要進(jìn)展

云棲大會(huì)上午場(chǎng)，阿里云創(chuàng)始人王堅(jiān)做了一場(chǎng)演說(shuō)，說(shuō)到了云計(jì)算的第三次浪潮的到來(lái)。同時(shí)，闡述了自己對(duì)云計(jì)算第一次浪潮的理解，并用 Netflix 和米哈游兩家企業(yè)的案例來(lái)表達(dá)對(duì)云計(jì)算浪潮到來(lái)所帶來(lái)的效益。第二次浪潮以傳動(dòng)企業(yè)上云，比如銀行上云為代表。第三次浪潮的標(biāo)志事件是北京冬奧會(huì)核心系統(tǒng)上云。未來(lái)，企業(yè)上云是大部分的首選，公有云擁有的規(guī)?；驮朴?jì)算的人才是根本原因。這點(diǎn)如同傳統(tǒng)分散的手工作坊向集中式規(guī)模化的大型工廠演進(jìn)。我們來(lái)具體看看，下午場(chǎng)的技術(shù)主論壇，在技術(shù)干貨或者核心產(chǎn)品上都有哪些提升，在大數(shù)據(jù)領(lǐng)域會(huì)有哪些影響。下面我會(huì)將主要產(chǎn)品技術(shù)演講進(jìn)行摘要。

彈性計(jì)算/容器方面：核心點(diǎn)在于擁抱云原生，發(fā)布了基于 CIPU+ 飛天操作系統(tǒng)構(gòu)建第三階段彈性計(jì)算。ECS 的計(jì)算從支持 Intel 到自研的倚天 710 和 AMD 芯片，各款芯片的主打方向不同。同時(shí)，對(duì)不同的 ECS 實(shí)例，做了針對(duì)價(jià)格的細(xì)分。經(jīng)濟(jì)型實(shí)例主打?qū)W生、中小企業(yè)開(kāi)發(fā)者、測(cè)試環(huán)境。HPC 實(shí)例、高性能高穩(wěn)定實(shí)例，主打一些特殊要求行業(yè)。介紹了 ECI 容器能力，舉例某頭部公司，基于 ECI 容器的能力，構(gòu)建自己的彈性大數(shù)據(jù)系統(tǒng)，感覺(jué)很意外的，日累計(jì)可以創(chuàng)建 200W 個(gè) ECI 的實(shí)例。

存儲(chǔ)方面：重點(diǎn)是阿里云的對(duì)象存儲(chǔ) OSS，也是大數(shù)據(jù)領(lǐng)域如果上云使用的基礎(chǔ)服務(wù)。提供 OSS 的標(biāo)準(zhǔn)、低頻、歸檔三種存儲(chǔ)類型和歸檔直讀。提升 OSS 帶寬到 100Gbps，舉例 270GB 的模型，大約 20秒讀完。OSS 的協(xié)議兼容支持，OSS-Posix 本地文件，OSS-HDFS 兼容 Hadoop 協(xié)議。

網(wǎng)絡(luò)方面：阿里的飛天洛神云網(wǎng)絡(luò)，提升了高性能網(wǎng)絡(luò)接入和轉(zhuǎn)發(fā)，主要是軟硬協(xié)同、互補(bǔ)。云原生對(duì)網(wǎng)絡(luò)的挑戰(zhàn)，以前的網(wǎng)絡(luò)是為虛擬機(jī)提供的，現(xiàn)在要為容器 Pod 提供，兩者的數(shù)量級(jí)不同帶來(lái)的挑戰(zhàn)。一是容器對(duì)網(wǎng)卡的創(chuàng)建速度要求高，從原來(lái)的幾百的彈性提升到幾千，二是基于 K8s 的無(wú)縫融合，優(yōu)化了各種網(wǎng)絡(luò)層查表和內(nèi)存管理。介紹了主動(dòng)重路由技術(shù)，來(lái)解決多區(qū)域網(wǎng)絡(luò)突然閃斷問(wèn)題，以及模型訓(xùn)練對(duì)大網(wǎng)絡(luò)帶寬的需求。

托管的K8s：主要闡述了一些使用數(shù)據(jù)，64% 用戶生產(chǎn)環(huán)境使用 K8s，云上 K8s 增速達(dá)到 127%。云托管的 K8s 超過(guò)本地部署，占比 73% 等。將托管的 K8s 集群產(chǎn)品定價(jià)重新規(guī)劃了一下。

數(shù)據(jù)庫(kù)方面：介紹了瑤池 Rds、Polardb 以及 Adb，基于開(kāi)源的有 Selectdb、Mongodb、Clickhouse。其中，闡述了拳頭產(chǎn)品 Polardb 的性能優(yōu)化。在產(chǎn)品方面，Rds+Redis、Polardb+Tair，內(nèi)置緩存和無(wú)需人工關(guān)注讀寫一致性。同時(shí)，介紹了Adb 和 Lindorm，Lindorm 作為 Nosql 數(shù)據(jù)庫(kù)的能力和支持多模態(tài)。

大數(shù)據(jù)方面：介紹了 Pai 平臺(tái)，Maxcomputor 支持 Python 處理，F(xiàn)link+Paimon 新一代實(shí)時(shí)湖倉(cāng)方案，Dataworks 智能化升級(jí)，比如支持自然語(yǔ)言，全托管向量檢索服務(wù) Dashvector，最后介紹將要全面 Serverless 化的產(chǎn)品，比如 ES、Spark、StarRocks 等。

二、大數(shù)據(jù)技術(shù)發(fā)展和應(yīng)用現(xiàn)狀

大數(shù)據(jù)的技術(shù)發(fā)展起步于 Google 的 2003 年三篇論文，GFS、Bigtable、MapReduce，愿稱之為大數(shù)據(jù) 1.0 階段，分別闡述了海量數(shù)據(jù)存儲(chǔ)、快速點(diǎn)查、通用計(jì)算。后來(lái)基于三篇論文原型實(shí)現(xiàn)的大數(shù)據(jù)開(kāi)源組件，Hadoop 技術(shù)體系，包含 HDFS、Hbase、Yarn、MapReduce，分別解決在廉價(jià)機(jī)器構(gòu)建分布式存儲(chǔ)、快速點(diǎn)查、資源調(diào)度、海量數(shù)據(jù)計(jì)算問(wèn)題。

隨著技術(shù)的發(fā)展，大數(shù)據(jù)組件的推陳推新，以 Hive、Spark、Storm 為代表，大數(shù)據(jù)邁入了 2.0 階段，同時(shí)像ELK解決特定場(chǎng)景的輕量化的鏈路也有了發(fā)展空間。過(guò)程中，OLAP 分析領(lǐng)域迎來(lái)了新的發(fā)展，如 Clickhouse、Kylin、Druid 等 OLAP 引擎。數(shù)據(jù)的主要構(gòu)建方式過(guò)渡到了以類 SQL 為主。

在后面的 2.0 階段，實(shí)時(shí)計(jì)算方面，2015 年谷歌發(fā)表《Google-DataFlow》介紹了流式計(jì)算的概念，后來(lái)有了開(kāi)源的 Flink 實(shí)時(shí)計(jì)算，大數(shù)據(jù)處理步入了 2.5 階段。近年來(lái)，企業(yè)迎來(lái)了上云浪潮，帶來(lái)了阿里云的迅猛發(fā)展。K8s 體系在業(yè)務(wù)系統(tǒng)逐漸普及。在 OLAP 領(lǐng)域，迎來(lái)了新一批成員，如 StarRocks、Doris 等 MPP 數(shù)據(jù)庫(kù)引擎。同時(shí)，數(shù)據(jù)湖的快速發(fā)展，Hudi、Iceberg、Delta、Paimon，在存儲(chǔ)層和表之間構(gòu)建了一層，基于云上對(duì)象存儲(chǔ)近乎無(wú)限的特點(diǎn)，數(shù)據(jù)倉(cāng)庫(kù)的概念步入了數(shù)據(jù)湖的概念。

那么我們是不是可以算進(jìn)入了大數(shù)據(jù) 3.0 階段呢？我認(rèn)為還有一塊需要補(bǔ)足。雖然大數(shù)據(jù)跟隨所在公司上云，應(yīng)用了云上的基礎(chǔ)設(shè)置，但是大數(shù)據(jù)技術(shù)的構(gòu)建，本質(zhì)還是基于傳統(tǒng)的 ECS 來(lái)實(shí)施，從公有云的發(fā)展來(lái)看，K8s 天然提供的資源調(diào)度和編排體系能夠替代 Yarn 資源調(diào)度?；?HDFS 的存儲(chǔ)，能夠使用 OSS 來(lái)構(gòu)建數(shù)據(jù)湖系統(tǒng)。網(wǎng)絡(luò)方面，公有云看到了大數(shù)據(jù)云原生的趨勢(shì)，網(wǎng)絡(luò)方面已經(jīng)做了升級(jí)改造。K8s 的彈性能力在成本的天然優(yōu)勢(shì)是眾多企業(yè)的首選。那么，需要解決的問(wèn)題在于計(jì)算組件如何契合K8s體系，形成云原生。

我們可以看到主要大數(shù)據(jù)組件的發(fā)展趨勢(shì)，Spark、Flink、Clickhouse、StarRocks 等，正在快速發(fā)展自身基于K8s構(gòu)建應(yīng)用的能力。在這個(gè)過(guò)程中，避免不了會(huì)碰到一些問(wèn)題，下面我們來(lái)具體看一看。

三、大數(shù)據(jù)云原生的重難點(diǎn)

大數(shù)據(jù)上云和大數(shù)據(jù)云原生化是兩個(gè)不同的概念。大數(shù)據(jù)上云，一般可以理解為，企業(yè)不需要去自建機(jī)房，使用公有云作為 IDC，大數(shù)據(jù)基于公有云的基礎(chǔ)設(shè)施（虛擬機(jī)、存儲(chǔ)、網(wǎng)絡(luò)）來(lái)構(gòu)建大數(shù)據(jù)技術(shù)體系。大數(shù)據(jù)的云原生化，則是指將大數(shù)據(jù)技術(shù)與應(yīng)用部署在云原生環(huán)境中，利用云原生的優(yōu)勢(shì)，如容器化、彈性伸縮、存算分離等，以實(shí)現(xiàn)更高效、更靈活、更可靠的大數(shù)據(jù)處理和分析。

需要注意的是，大數(shù)據(jù)云原生化的實(shí)現(xiàn)需要解決一些技術(shù)和生態(tài)問(wèn)題，如兼容性、資源管理、計(jì)算性能和生態(tài)融合等。因此，在實(shí)現(xiàn)大數(shù)據(jù)云原生化時(shí)，需要進(jìn)行全面的架構(gòu)設(shè)計(jì)和實(shí)施方法選擇，以確保最終的解決方案能夠滿足實(shí)際需求。將大數(shù)據(jù)組件進(jìn)行云原生化的升級(jí)改造，具體來(lái)說(shuō)需要從存儲(chǔ)、計(jì)算以及調(diào)度這三個(gè)基礎(chǔ)維度來(lái)入手。

存儲(chǔ)方面相對(duì)來(lái)說(shuō)，比較容易進(jìn)行改造和替換，企業(yè)可以選擇市面上多種云存儲(chǔ)，且這種云儲(chǔ)存除了具備高容錯(cuò)、高可靠性以外，還需要具備冷熱數(shù)據(jù)分層管理，以及與主流大數(shù)據(jù)計(jì)算引擎 Hive、Spark、Trino 等無(wú)縫兼容適配能力，如阿里云近年推出的 OSS-HDFS 云存儲(chǔ)。除了上述所說(shuō)的云儲(chǔ)存以外，將大數(shù)據(jù)進(jìn)行云原生化改造，重難點(diǎn)問(wèn)題在于計(jì)算和調(diào)度這兩個(gè)維度。

K8s 之于大數(shù)據(jù)體系有幾點(diǎn)問(wèn)題相對(duì)突出：第一是大數(shù)據(jù)離線計(jì)算對(duì)于瞬時(shí)容器的突發(fā)需求，以 Spark 任務(wù)為例，一個(gè)較大規(guī)模的 Spark 任務(wù)短時(shí)需要的 Container 可能是幾千到萬(wàn)級(jí)別，K8s 的 Pod 能否快速?gòu)棾?，短時(shí)超大規(guī)模鏡像拉取是否會(huì)有瓶頸。第二是隨之而來(lái)容器基礎(chǔ)網(wǎng)絡(luò)問(wèn)題，如 Pod 上網(wǎng)絡(luò)的創(chuàng)建和釋放能否滿足，容器間網(wǎng)絡(luò)帶寬性能能否滿足。第三是容器的掛載盤普遍較小，Spark 或 Flink 都存在Shuffle數(shù)據(jù)落盤的問(wèn)題。大數(shù)據(jù)云原生在計(jì)算和調(diào)度兩個(gè)維度，上述三個(gè)問(wèn)題是需要解決的。

四、大數(shù)據(jù)云原生的可行性

從主論壇技術(shù)上看，大數(shù)據(jù)相關(guān)的核心基礎(chǔ)設(shè)施在容器上都有較大提升，如 Serverless 彈性容器和底層網(wǎng)絡(luò)的性能提升、OSS 帶寬的提升以及 OSS-HDFS 協(xié)議的支持。同時(shí)，開(kāi)源社區(qū)中出現(xiàn)了各種用于大數(shù)據(jù)中間結(jié)果的 Remote Shuffle 組件，如 Celeborn 等。我認(rèn)為大數(shù)據(jù)云原生化是可行的，相信很多公司的大數(shù)據(jù)發(fā)展方向會(huì)朝著云原生路線演進(jìn)。在云棲大會(huì)的參會(huì)單位中，無(wú)意中看到了一家公司關(guān)于大數(shù)據(jù)云原生的案例：《米哈游大數(shù)據(jù)云原生實(shí)踐》，分享者是這家公司大數(shù)據(jù)技術(shù)專家杜安明。他們的實(shí)踐和我的想法不謀而合，下面我們來(lái)看一下他們是怎么做的。

他們主要分享了米哈游大數(shù)據(jù)架構(gòu)向云原生化升級(jí)過(guò)程中的目標(biāo)、探索和實(shí)踐，以及如何通過(guò)以阿里云容器服務(wù) ACK 為底座的 Spark 云原生架構(gòu)，獲得在彈性計(jì)算、成本節(jié)約以及存算分離方面的價(jià)值。

一是彈性計(jì)算。由于游戲業(yè)務(wù)會(huì)進(jìn)行周期版本更新、開(kāi)啟活動(dòng)以及新游戲的上線等，對(duì)離線計(jì)算資源的需求與消耗波動(dòng)巨大，可能是平時(shí)水位的幾十上百倍。利用K8s集群天然的彈性能力，將 Spark 計(jì)算任務(wù)調(diào)度到 K8s 上運(yùn)行，可以比較輕松的解決這類場(chǎng)景下資源消耗洪峰問(wèn)題。

二是成本節(jié)約。依托阿里云容器服務(wù) Kubernetes 版 ACK 集群自身強(qiáng)大的彈性能力，所有計(jì)算資源按量申請(qǐng)、用完釋放，再加上我們對(duì) Spark 組件的定制改造，以及充分利用 ECI Spot 實(shí)例，在承載同等計(jì)算任務(wù)和資源消耗下，成本節(jié)約達(dá) 50%。

三是存算分離。Spark 運(yùn)行在 K8s 之上，完全使用 K8s 集群的計(jì)算資源，而訪問(wèn)的數(shù)據(jù)也由 HDFS、OSS 逐步切換到 OSS-HDFS 上，中間 Shuffle 數(shù)據(jù)的讀寫采用 Celeborn，整套架構(gòu)實(shí)現(xiàn)了計(jì)算和存儲(chǔ)的解耦，易于維護(hù)和擴(kuò)展。

整個(gè)分享看下來(lái)，米哈游大數(shù)據(jù)攻克了很多重難點(diǎn)問(wèn)題，已經(jīng)實(shí)現(xiàn)了大數(shù)據(jù)計(jì)算的云原生化，并且取得了很不錯(cuò)的收益。

无码一区二区三区|无码国产精品一区二区免费式芒果|无码精品国产d在线观看|无码精品前田一区二区|无码精品日韩专区|无码精品尤物一区二区三区

資訊詳情

如何看待大數(shù)據(jù)云原生發(fā)展之路

如何設(shè)計(jì)適合數(shù)字化轉(zhuǎn)型需要的數(shù)據(jù)架構(gòu)

釋放非結(jié)構(gòu)化數(shù)據(jù)力量的八個(gè)技巧

相關(guān)資訊