无码一区二区三区|无码国产精品一区二区免费式芒果|无码精品国产d在线观看|无码精品前田一区二区|无码精品日韩专区|无码精品尤物一区二区三区

沃卡惠移動端logo

釋放數(shù)據(jù)湖潛力:小紅書如何實現(xiàn)數(shù)倉效率與成本的雙重優(yōu)化

2024-03-20 09:32:424636

在當(dāng)今以數(shù)據(jù)為核心的商業(yè)環(huán)境中,企業(yè)正面臨著海量數(shù)據(jù)的處理和分析挑戰(zhàn)。為克服傳統(tǒng)數(shù)據(jù)倉庫在處理速度、靈活性和成本效率方面的局限,小紅書數(shù)據(jù)倉庫團(tuán)隊引入如 Apache Iceberg 等數(shù)據(jù)湖技術(shù),將其與數(shù)倉架構(gòu)相結(jié)合,以釋放數(shù)據(jù)湖在查詢性能、實時數(shù)據(jù)處理和成本效益方面的潛力。

小紅書數(shù)據(jù)倉庫團(tuán)隊通過一系列創(chuàng)新實踐,如UBT 鏈路優(yōu)化查詢效率、渠道歸因數(shù)據(jù)架構(gòu)改造、漢姆拉比數(shù)據(jù)鏈路優(yōu)化以及直播準(zhǔn)實時鏈路提升等,證明了數(shù)倉與數(shù)據(jù)湖技術(shù)的結(jié)合能帶來顯著的業(yè)務(wù)價值:不僅提升用戶體驗,還實現(xiàn)了計算和存儲資源的大幅度節(jié)約,同時確保了數(shù)據(jù)的高質(zhì)量和一致性。

未來,團(tuán)隊計劃繼續(xù)利用數(shù)據(jù)湖技術(shù)構(gòu)建準(zhǔn)實時的數(shù)據(jù)新架構(gòu),以滿足企業(yè)對數(shù)據(jù)時效性的多樣化需求。

一、背景

過去十多年,Hive/Spark on HDFS 作為離線數(shù)據(jù)倉庫的事實標(biāo)準(zhǔn),在實踐中得到了廣泛應(yīng)用。然而,隨著業(yè)務(wù)對數(shù)據(jù)時效性和查詢性能要求的提升,Hive 的傳統(tǒng)架構(gòu)開始顯現(xiàn)出其局限性。具體表現(xiàn)在:

數(shù)據(jù)變更成本高昂:即使僅變更一條記錄,也需要重新刷新整個分區(qū)的數(shù)據(jù);

數(shù)據(jù)產(chǎn)出時效性差:分區(qū)數(shù)據(jù)通常需要 T+1 日期才能完成;

數(shù)據(jù)查詢性能緩慢:查詢相關(guān)數(shù)據(jù)通常需要掃描目錄中的所有文件,大表查詢耗時且效率低下;

資源利用率不足:所有天級調(diào)度任務(wù)的資源消耗全部集中在調(diào)度期間,容易導(dǎo)致多任務(wù)搶占資源,影響資源使用效率。

這些性能問題嚴(yán)重制約了數(shù)據(jù)倉庫在支持業(yè)務(wù)決策中的作用。為了應(yīng)對這些挑戰(zhàn),我們積極探索新方向,力求在滿足業(yè)務(wù)日益多樣化的需求下,總結(jié)出一些通用化、低成本的數(shù)倉架構(gòu)新方案以解決上述問題。本文詳細(xì)記錄了我們在數(shù)倉架構(gòu)和數(shù)據(jù)湖技術(shù)結(jié)合方面的深入探索和實踐,期待對您有幫助,歡迎結(jié)合自己興趣和相關(guān)業(yè)務(wù)自主選擇閱讀。

二、數(shù)據(jù)湖技術(shù)優(yōu)勢

數(shù)據(jù)湖技術(shù)近年來在數(shù)據(jù)管理領(lǐng)域引起了廣泛關(guān)注,其優(yōu)勢在于提供了一種靈活且高效的數(shù)據(jù)存儲和處理方式。一方面,在 Apache Iceberg、Apache Hudi 等知名開源項目的推動下,社區(qū)氣氛十分活躍;另一方面,處于鏈路上下游的數(shù)倉軟件和數(shù)據(jù)分析引擎,也開始積極擁抱開放的數(shù)據(jù)湖格式,如 Doris 系的開源數(shù)倉和 Starrocks 引擎,它們能夠查詢 Iceberg 數(shù)據(jù),進(jìn)一步證明了數(shù)據(jù)湖技術(shù)的實用性和前瞻性。

不同于原有的 Hive 數(shù)倉架構(gòu),Iceberg 依托于其文件級數(shù)據(jù)追蹤的技術(shù)架構(gòu),展現(xiàn)出以下顯著優(yōu)勢:

查詢性能提升:Iceberg 支持異步數(shù)據(jù)重組(如 Zorder),結(jié)合動態(tài)列全局排序和索引機(jī)制,大幅減少查詢時的文件讀取量,顯著提升查詢效率和 shuffle 性能。

增量讀寫能力:小紅書自研的 Iceberg 適配了 Spark 引擎,支持 update、merge into、delete 等語義,能夠?qū)χ付ㄎ募M(jìn)行刪除和更新操作。相較于 Hive 的分區(qū)目錄完全重刷,可將更新成本降低至文件粒度。

流批一體架構(gòu):Iceberg 基于增量讀寫機(jī)制,通過適配 Flink 等實時引擎的讀寫,形成了“MQ + Flink + Iceberg”的流批一體架構(gòu)。對于近實時的需求,這種架構(gòu)既可以提升數(shù)據(jù)產(chǎn)出的時效性,也可以省去維護(hù) Lambda 架構(gòu)所需的人力和資源成本。

成本效應(yīng)顯著:Iceberg 底層采用 Parquet 文件格式,其列存儲格式和索引排序機(jī)制通過提升重復(fù)字段的壓縮效率,進(jìn)而節(jié)約了存儲成本。

三、UBT鏈路優(yōu)化查詢效率

UBT 日志(User Behavior Tracking),全稱用戶行為追蹤日志,詳細(xì)記錄了用戶在特定平臺、應(yīng)用或網(wǎng)站上行為軌跡,如頁面訪問、圖片曝光、按鈕點擊等。作為流量數(shù)據(jù)的核心組成部分,UBT 也是小紅書數(shù)據(jù)倉庫中數(shù)據(jù)量最大、查詢頻次最多的數(shù)據(jù)表之一。隨著小紅書用戶基數(shù)的快速增長和使用時長的增加,流量數(shù)據(jù)規(guī)模不斷膨脹,導(dǎo)致 UBT 日志查詢效率低下,用戶體驗受損。用戶在進(jìn)行日志查詢時,常常面臨長時間的等待,甚至在數(shù)據(jù)量過大時無法完成查詢,這些問題嚴(yán)重制約了數(shù)據(jù)驅(qū)動決策的效率和效果。

3.1 歷史方案回顧

在處理 UBT 日志數(shù)據(jù)時,我們曾采用一種樸素的方法:將數(shù)據(jù)從主表抽取到多個分流表中,以便下游業(yè)務(wù)方能夠針對特定需求進(jìn)行查詢。這種方法在業(yè)務(wù)邏輯相對簡單時,能夠有效減少查詢的數(shù)據(jù)量,提高查詢效率。

圖片

然而,隨著業(yè)務(wù)復(fù)雜度的增加,這種方法暴露出一系列問題:

成本與復(fù)雜性增加:隨著業(yè)務(wù)規(guī)則的多樣化,分流表的數(shù)量迅速增長,導(dǎo)致計算和存儲成本不斷攀升,且難以管理。

數(shù)據(jù)一致性挑戰(zhàn):對分流規(guī)則的任何變更都需回刷大量歷史數(shù)據(jù),這不僅耗時耗力,還可能引入數(shù)據(jù)不一致的風(fēng)險。

數(shù)據(jù)冗余與維護(hù)困難:個性化的分流規(guī)則缺乏通用性和排他性,數(shù)據(jù)在不同規(guī)則間重復(fù)存儲,增加了維護(hù)的難度。

這種基于自定義規(guī)則的分流策略,在面對日益增長的數(shù)據(jù)量時,不僅資源消耗巨大,而且難以維護(hù),嚴(yán)重影響了數(shù)據(jù)的實時性和查詢效率。在某些情況下,缺乏分流表支持的原日志查詢變得異常困難。

3.2 查詢性能優(yōu)化

在流量數(shù)據(jù)分析中,點位(埋點)作為描述用戶特定行為的關(guān)鍵標(biāo)識,也是業(yè)務(wù)數(shù)倉數(shù)據(jù)加工的基礎(chǔ)粒度。面對小紅書線上近萬個點位的龐大數(shù)據(jù)量,我們實施了一系列查詢性能優(yōu)化策略,以提升數(shù)據(jù)處理效率。

我們認(rèn)識到,通過點位限制幫助用戶縮小數(shù)據(jù)范圍,加速后續(xù)的業(yè)務(wù)邏輯處理,可有效提升查詢性能。然而,傳統(tǒng)的分區(qū)策略在面對龐大的點位數(shù)量時顯得力不從心,Hive Metastore 難以承受巨大的分區(qū)規(guī)模。因此,我們的目標(biāo)轉(zhuǎn)變?yōu)?strong>如何能購針對特定點位的數(shù)據(jù)進(jìn)行快速定位并篩選,實現(xiàn)數(shù)據(jù)范圍的精確縮小。

從這一視角出發(fā),數(shù)據(jù)湖為我們提供了新的視角和解決方案。我們采用了全局排序的方法,將相同點位的數(shù)據(jù)集中存儲,而將不同點位的數(shù)據(jù)分散存儲在不同的文件中。這種策略不僅提升了文件過濾的效率,還通過引入 Iceberg 技術(shù),將點位的 min-max 信息存儲在 meta 文件中。這樣,在任務(wù)規(guī)劃階段,查詢引擎就能利用這些信息進(jìn)行文件過濾,顯著減少了實際查詢過程中需要處理的文件數(shù)量,從而實現(xiàn)了查詢性能的大幅提升。

圖片

性能優(yōu)化方案如下:

全局排序:按照點位 ID 進(jìn)行全局排序,實現(xiàn)了自定義的數(shù)據(jù)抽樣和分區(qū)劃分的邏輯,并且為大點位劃分更多分區(qū),解決了大小點位數(shù)據(jù)傾斜問題,從而提高單個點位的計算效率。另外,為解決隨機(jī)采樣可能存在誤差的問題,我們借助 Spark Sql 的自動查詢優(yōu)化(AQE)功能作為兜底,并開發(fā)了 bypass hash 函數(shù),以便在 Spark 中實現(xiàn)自定義分區(qū),根據(jù)數(shù)據(jù)生成的 partition_id 來劃分分區(qū)。

分區(qū)排序與去重:若日志數(shù)據(jù)存在重復(fù)的情況,按照傳統(tǒng)思路,需要先去重然后再排序來優(yōu)化查詢,這會帶來兩次 shuffle,顯著增加計算成本。為了解決這一問題,我們基于全局排序采取了一種創(chuàng)新的方法:在數(shù)據(jù)按點位 ID 排序的同時,直接在排序過程中識別并過濾掉重復(fù)的數(shù)據(jù)。

Iceberg 視圖生成:為了確保與現(xiàn)有 Hive 生態(tài)系統(tǒng)的兼容性,我們在 Hive 表上建立了外部 Iceberg 表級視圖。這一視圖通過掃描數(shù)據(jù)文件并提交文件 metric 信息,使得下游系統(tǒng)能夠基于 Iceberg 的 MinMax 提升查詢性能,并且能直接讀取視圖進(jìn)行數(shù)據(jù)消費,簡化了數(shù)據(jù)訪問流程。

圖片

通過這些優(yōu)化,UBT Iceberg 表的查詢性能得到了顯著提升,用戶在查詢特定點位數(shù)據(jù)時的時長縮短了約 80~90%,極大地提高了數(shù)據(jù)處理的效率和用戶體驗。

3.3 新分流方案

上述性能優(yōu)化提升了用戶對點位的查詢效率。點位是用戶使用日志的基礎(chǔ)粒度,我們開始進(jìn)一步考慮以點位為基礎(chǔ),構(gòu)建一套新的分流體系,旨在替代原有的分流表體系。新體系的設(shè)計遵循了三個核心原則:確保分流查詢性能滿足用戶需求、最小化存儲和計算開銷、以及限制分流表的數(shù)量以避免無序增長?;谶@些原則,我們設(shè)計了以下新分流方案:

圖片

分流轉(zhuǎn)換功能:新方案實現(xiàn)了在 Spark 執(zhí)行計劃層,自動將對分流表的查詢轉(zhuǎn)換為對 Iceberg 表中特定點位集合的查詢,從而提高了查詢效率。

業(yè)務(wù)場景導(dǎo)向:新分流體系以通過構(gòu)建實際業(yè)務(wù)場景作為準(zhǔn)入標(biāo)準(zhǔn),每個業(yè)務(wù)場景對應(yīng)一個分流表,同時通過上線流量產(chǎn)品注冊收攏分流表的創(chuàng)建,這樣既明確了分流的業(yè)務(wù)含義,也杜絕了分流數(shù)量的無限制上漲。

視圖封裝:在分流轉(zhuǎn)化函數(shù)外層,我們封裝了分流表視圖,這使得下游業(yè)務(wù)方無需感知內(nèi)部優(yōu)化,簡化了數(shù)據(jù)訪問流程。

新分流表不再直接存儲數(shù)據(jù),也無需任務(wù)調(diào)度,從而避免了計算和存儲資源的消耗。更新分流表時,只需調(diào)整點位集合,無需回刷歷史數(shù)據(jù)。得益于之前的查詢性能優(yōu)化,新分流方案在滿足業(yè)務(wù)需求的同時,也保持了高效的查詢性能。

相較于舊方案,新分流方案每天可節(jié)省數(shù)十萬 GB/Hour 的計算資源和幾百 TB 的存儲資源,同時任務(wù)產(chǎn)出時效提升了約 30 分鐘,查詢性能得到了數(shù)十倍的提升。這一改進(jìn)不僅提升了數(shù)據(jù)處理效率,也為未來的數(shù)據(jù)分析和業(yè)務(wù)決策提供了更堅實的基礎(chǔ)。

四、渠道歸因數(shù)據(jù)架構(gòu)改造

渠道歸因作為分析用戶行為路徑、埋點歸因的關(guān)鍵工具,對于社區(qū)、電商和直播等業(yè)務(wù)的流量分析至關(guān)重要。它不僅支持流量來源和轉(zhuǎn)化分析,還有助于深入理解用戶路徑。作為數(shù)據(jù)倉庫的基礎(chǔ)服務(wù),渠道歸因要求具備高實效性、準(zhǔn)確性和穩(wěn)定性。

在早期的渠道歸因?qū)嵺`中,我們使用 Flink 處理 UBT 日志數(shù)據(jù),為每條數(shù)據(jù)附加用戶從打開 App 到當(dāng)前頁面的完整跳轉(zhuǎn)路徑,并直接寫入云存儲。由于小紅書的 Flink 集群部署在公有云,而離線數(shù)據(jù)和處理引擎位于 A 云,我們通過 Discp 操作將數(shù)據(jù)從公有云遷移到 A 云。這種架構(gòu)導(dǎo)致時效性差,因為跨云同步和分區(qū)任務(wù)在離線側(cè)完成,且每天需要占用額外的存儲資源,增加了成本。

圖片

為了解決這些問題,我們對渠道歸因數(shù)據(jù)架構(gòu)進(jìn)行了徹底改造。我們移除了原有的離線 Discp 任務(wù)和 Spark 分流,轉(zhuǎn)而采用 Flink 與 Iceberg 的結(jié)合,實現(xiàn)了在實時數(shù)據(jù)寫入過程中的自動分流。這一改造不僅優(yōu)化了任務(wù)處理的負(fù)載均衡,還確保了分區(qū)數(shù)據(jù)文件數(shù)量的可控性,從而保障了離線數(shù)據(jù)產(chǎn)出的時效性和查詢效率。通過這些改進(jìn),離線數(shù)據(jù)的產(chǎn)出時效提升了 90%,從而盡早釋放離線集群資源,保障了其他離線作業(yè)的穩(wěn)定性。同時,實時渠道產(chǎn)出的數(shù)據(jù)現(xiàn)在也能支持交易、直播、廣告等實時業(yè)務(wù)場景,為企業(yè)提供更快速、更靈活的數(shù)據(jù)分析能力。

Iceberg 的實時讀寫能力使其成為流批一體的理想存儲解決方案。然而,由于實時鏈路和離線鏈路位于不同的云平臺,我們不得不在兩個云上分別備份數(shù)據(jù)。為了解決這一問題,我們設(shè)計了兩條獨立的數(shù)據(jù)處理鏈路:實時業(yè)務(wù)消費實時分流任務(wù)的數(shù)據(jù),而離線側(cè)則消費 Iceberg 數(shù)據(jù)。在新架構(gòu)中,渠道歸因數(shù)據(jù)首先寫入 Kafka,然后分為實時分流作業(yè)和實時入湖作業(yè)。實時入湖作業(yè)按業(yè)務(wù)分區(qū),將數(shù)據(jù)寫入 Iceberg。Iceberg 收集各分區(qū)的最新統(tǒng)計信息,并根據(jù)這些信息重新分配業(yè)務(wù)分區(qū)的并發(fā)處理,確保整體處理均衡。離線側(cè)通過定期輪詢 Iceberg 的元信息,監(jiān)聽當(dāng)前處理的數(shù)據(jù)時間,觸發(fā)下游的小時級或天級任務(wù)調(diào)度。這一改造顯著提升了數(shù)據(jù)處理的靈活性和效率。

圖片

五、漢姆拉比反爬數(shù)據(jù)鏈路優(yōu)化

小紅書的反爬蟲日志,由于接入了整個公司的反爬場景( Scenarioid ),導(dǎo)致整體數(shù)據(jù)量龐大。它作為反爬蟲日志的核心,其龐大的數(shù)據(jù)量在生產(chǎn)過程中消耗了大量計算和存儲資源。特別是,不同云之間的跨云文件傳輸過程,每天傳輸數(shù)百 TB 數(shù)據(jù),占據(jù)了 20% 的帶寬資源,尤其是在業(yè)務(wù)高峰期時,對跨云傳輸服務(wù)造成巨大的負(fù)載壓力,從而嚴(yán)重影響跨云傳輸服務(wù)的穩(wěn)定性。

解決該問題的核心難點在于,在大數(shù)據(jù)量及有限時間內(nèi)的條件下,如何有效降低跨云傳輸?shù)奈募笮?。為了有效降低跨云傳輸?shù)臄?shù)據(jù)量,我們結(jié)合數(shù)據(jù)湖團(tuán)隊的流批一體工具鏈,對漢姆拉比數(shù)據(jù)鏈路進(jìn)行了優(yōu)化,采取以下策略:

數(shù)據(jù)同步策略調(diào)整:不再直接同步公有云上的 Agent-smith 日志,而是通過 Kafka2Iceberg 任務(wù),將漢姆拉比 Kafka 數(shù)據(jù)同步到公有云上的 Iceberg 表,Iceberg 底層基于 Parquet 文件格式,其列存儲格式和索引排序機(jī)制可以提升重復(fù)字段的壓縮效率,因此最終跨云同步的對象變成了經(jīng)過壓縮的 Iceberg 表,從而極大提升了同步效率。

數(shù)據(jù)壓縮與批量處理:在 Kafka 中,我們針對場景( Scenarioid )字段進(jìn)行 shuffle,并通過每 5 分鐘 checkpoint 機(jī)制批量導(dǎo)入數(shù)據(jù)到Iceberg 表,同時在導(dǎo)入過程中對文件進(jìn)行 Parquet 壓縮。這種 shuffle 和 壓縮的結(jié)合顯著提高了數(shù)據(jù)的壓縮率。

優(yōu)化后成果顯著,新鏈路的數(shù)據(jù)到崗時間比老鏈路提前了約 85 分鐘,專線帶寬節(jié)省了 83%,存儲空間也減少了 83%。這些改進(jìn)不僅提高了數(shù)據(jù)處理效率,還為公司節(jié)省了寶貴的資源,確保了數(shù)據(jù)鏈路的高效運行。

圖片

六、直播準(zhǔn)實時鏈路改造

為了提升直播業(yè)務(wù)的數(shù)據(jù)處理能力,我們基于數(shù)據(jù)湖技術(shù)對直播實時鏈路進(jìn)行了全面改造,實現(xiàn)了流批一體的數(shù)據(jù)處理架構(gòu)。這一架構(gòu)不僅在交易實時數(shù)倉領(lǐng)域得到了成功應(yīng)用,還顯著提升了直播間入口曝光和點擊行為事實明細(xì)表的數(shù)據(jù)處理效率。

如下圖所示,直播入口曝光點擊流量經(jīng)分流后進(jìn)入直播處理鏈路,此時會寫入數(shù)據(jù)湖,作為歷史數(shù)據(jù)回溯使用,而 Kafka 鏈路則基于 Flink 任務(wù)加工生成實時離線一致的 DWD 層,同步入湖和 Kafka,滿足實時、近實時、離線的直播下游使用需求。

圖片

通過采用 Flink 與 AWS Iceberg 的結(jié)合,以及多個用戶自定義函數(shù)(UDF),我們成功地將原有的 UBT 鏈路切換至新的架構(gòu)。這一轉(zhuǎn)變不僅還原了大部分字段,還確保了數(shù)據(jù)校驗的一致性。目前,新鏈路已穩(wěn)定運行,顯示出以下顯著優(yōu)勢:

流批一體:實時和離線邏輯的統(tǒng)一,確保了數(shù)據(jù)的一致性。字段解析和邏輯處理集中在實時處理中,避免一點改動涉及多張表的問題。

統(tǒng)一數(shù)據(jù)源:實時和離線分析使用相同的數(shù)據(jù)源,進(jìn)一步保障了實時與離線指標(biāo)的一致性。

維護(hù)成本降低:公共層的人力維護(hù)成本大幅減少,迭代和開發(fā)工作現(xiàn)在只需單一人員完成。

此外,數(shù)據(jù)湖技術(shù)還顯著提升了直播數(shù)倉的實時開發(fā)效率和數(shù)據(jù)質(zhì)量。例如,AWS Iceberg 支持離線任務(wù)調(diào)度,實現(xiàn)流批一體,而相對便宜的 COS Iceberg 提供了成本效益更高的數(shù)據(jù)入湖存儲,適用于日常的數(shù)據(jù)校驗、Kafka 即時查詢和 Case 排查等需求。

COS Iceberg 的引入解決了 Kafka 數(shù)據(jù)存儲時間短和即時查詢不便的問題,使得實時開發(fā)更加便捷。實時寫入任務(wù),如 Starrocks、Redkv、ES 等,都會同時寫入 COS Iceberg,便于問題排查和數(shù)據(jù)校驗。Iceberg 中存儲的分區(qū)、Offset等元信息,對于排查字段狀態(tài)、亂序等問題尤為有用。

數(shù)據(jù)湖技術(shù)的 upsert 能力為數(shù)倉架構(gòu)帶來了顯著的升級。對于日志表等 Append 類型表,實現(xiàn)流批一體相對容易,但對于需要更新操作的 Upsert 表,數(shù)據(jù)湖必須具備相應(yīng)的能力。為此,數(shù)據(jù)湖團(tuán)隊早期開發(fā)并上線了 Iceberg v10 表,該表支持 upsert 功能。如下圖所示,在這一架構(gòu)下,數(shù)倉團(tuán)隊已成功應(yīng)用于域內(nèi)和域外訂單表,通過 Package_id 和 Sku_id 的聯(lián)合主鍵進(jìn)行更新,使得表既可以作為增量表,也可以作為全量表使用。此外,基于 As Of Time 的時間切片查詢功能,全量表僅需存儲一份數(shù)據(jù),這不僅方便了實時離線數(shù)據(jù)的對齊和歷史狀態(tài)查詢,還彌補了離線鏈路數(shù)據(jù)歸檔后狀態(tài)回溯更新成本高的問題。

圖片

展望未來,數(shù)據(jù)湖團(tuán)隊將繼續(xù)開發(fā)和迭代 Apache Paimon,數(shù)倉也將采用 Paimon 來構(gòu)建支持 upsert 場景的流批一體架構(gòu),進(jìn)一步提升數(shù)據(jù)處理的靈活性和效率。這將為實時分析和歷史數(shù)據(jù)管理提供更加強(qiáng)大和靈活的工具,確保數(shù)據(jù)湖技術(shù)在數(shù)倉架構(gòu)中的全面應(yīng)用和持續(xù)優(yōu)化。

七、收益

結(jié)合數(shù)倉與數(shù)據(jù)湖技術(shù)的相關(guān)實踐,從落地效果上看,我們已經(jīng)在三個關(guān)鍵領(lǐng)域?qū)崿F(xiàn)了顯著的收益

產(chǎn)出時效:通過準(zhǔn)實時鏈路的改造,我們顯著提升了數(shù)據(jù)處理的時效性。ODS 和 DWD 層的數(shù)據(jù)時效提升了 50%。同時 0-2 點為資源空閑時間段,提前產(chǎn)出能夠留給下游任務(wù)更多的空間,提升空閑時間段的資源利用率。

成本收益:主要分為存儲成本收益、計算資源成本收益和人力成本收益。例如,“漢姆拉比數(shù)據(jù)鏈路”優(yōu)化后,新鏈路節(jié)省了 83% 的存儲空間。在計算資源方面," UBT 鏈路優(yōu)化查詢效率提升"項目每天節(jié)省了數(shù)十萬 GB/Hour 的計算資源和幾百 TB 的存儲資源。人力成本方面,流批一體架構(gòu)的實現(xiàn)減少了公共層的維護(hù)和開發(fā)工作,如"直播準(zhǔn)實時鏈路提升"項目,現(xiàn)在僅需一人即可完成迭代和開發(fā)。

數(shù)據(jù)質(zhì)量:通過 "MQ + Flink + Iceberg" 的流批一體架構(gòu),我們確保了實時和離線數(shù)據(jù)的一致性,有效解決了數(shù)據(jù)不一致的問題,從而提升了數(shù)據(jù)質(zhì)量。這在"渠道歸因數(shù)據(jù)鏈路架構(gòu)"和"直播準(zhǔn)實時鏈路提升項目"中得到了驗證。

八、未來規(guī)劃

數(shù)據(jù)湖技術(shù)為數(shù)倉提供了一種高效、低成本且響應(yīng)迅速的解決方案,有效滿足了公司對數(shù)據(jù)時效性日益增長的需求。

展望未來,我們計劃在數(shù)據(jù)引擎團(tuán)隊的支持下,利用數(shù)據(jù)湖技術(shù)大規(guī)模構(gòu)建,低成本的次實時數(shù)據(jù)解決方案。這些方案將針對那些不需要極快速響應(yīng)的業(yè)務(wù)場景,旨在成為實時分析的首選。通過這種方式,實現(xiàn)開發(fā)效率和資源成本的雙重優(yōu)化。

此外,我們還將探索“數(shù)據(jù)湖 + OLAP 引擎”的組合策略,以構(gòu)建新的業(yè)務(wù)交付標(biāo)準(zhǔn)。這種策略將結(jié)合數(shù)據(jù)湖的靈活性和 OLAP 引擎的高性能,為數(shù)倉提供更強(qiáng)大的數(shù)據(jù)處理能力,支持更復(fù)雜的分析需求,提高數(shù)據(jù)迭代的效率,同時保持成本效益。我們致力于通過這些創(chuàng)新推動數(shù)倉技術(shù)的持續(xù)進(jìn)步,為公司的數(shù)據(jù)分析和決策提供更堅實的支持。誠摯邀請您的加入,一起探索數(shù)倉和數(shù)據(jù)湖技術(shù)的無限可能。

国产亚洲AV综合人人澡精品 精品欧美小视频在线观看 国产色婷婷免费视频在线观看 欧美激情免费观看一区 欧美人成视频在线播放亅6 日本在线免费看片 久久亚洲国产高清观看 久久精品资源 国产欧美另类精品久久久 九九精品99 免费一级特黄在线观看 亚洲欧洲美洲无码精品va 亚洲中文无码男人的天堂 成熟交BGMBGMBGM图片 爱爱视频中文网站 在线永久观看国产精品电影 亚洲无码在线免费视频 夜色福利站WWW国产在线视频 亚洲一区二区三区精品久久久 人人妻人人爽人人欧美一区 ai亚洲嫩模喷白浆在线观看 国产成人av一区二区三区在线 亚洲色欲久久久久综合网百度 国产又色又爽又刺激在线观看 苍井空浴缸大战猛男120分钟 亚洲国产乱 国产美女精品视频线播放 香蕉视频黄色在线观看 亚洲无线码高清在?码久久2017 91精品久久人妻无码 日本α片无遮挡在线观看 欧美亚洲国产人成 香蕉国产片一级一级一级一级 久久婷综合五月天啪网夜夜春亚洲嫩草影院 新区乱码无人区二精东 天天综合合网91免费在线看 日韩精品一区视频在线观看 欧美XXXX黑人又粗又长精品 男女爽爽无遮拦午夜视频 亚洲日本一区二区三区在线不卡 黄污网站在线免费观看 亚洲成av人片天堂网 动漫卡通精品3d一区二区 黄色网站无遮挡 蜜桃视频在线观看免费视频网站www 欧美日韩在线视频一区 亚洲一区二区三区日韩精品 午夜精品久久无码电影 中出内射在线观看 2021年国产精品视频 A在线视频播放免费视频完整版 无码免费一区二区三区 亚洲成av人片天堂网九九 国产东北三老头伦一肥婆 亚洲国产精品成人精品小说 大师兄影视电影网 久久久久久一区国产精品最新章节 在线播放av一区二区三区 亚洲一级av在线试看 最新国产精品亚洲 91色偷偷综合久久噜噜 无法合拢的皇帝 色东京热男人的天堂 国产a一级**片午夜剧场14 色av综合av综合无码网站 一本到国产在线精品国内 中文字幕一区二区久久人妻网站 国产精品动漫自慰一二三区 无码人妻丰满熟妇区毛片18 2021最新国产成人精品免费 无码视频免费一区二三区 亚洲免费观看三级片 国产农村妇女毛片精品久久 公天天吃我奶躁我的在线观看 污污内射在线观看一区二区少妇 两座雪白玉峰弹跳而出 日韩欧美国产精品成人 国产精品k频道在线播放ou 在线无码18禁 国产精品亚洲日韩AⅤ在线 国产精品晓可耐在线观看 国产成人免费A在线电影 久久久久久久久无码精品亚洲日韩 精品国语任你躁在线播放 国产普通话对白 亚洲综合一区二区三区四 熟女超碰熟女久久熟女伊人夜夜嗨 欧美激情综合五月色丁香 亚洲第一无码精品一区 久久综合狠狠爱综合网 日韩电影视频在线观看 黄色视频污网站 亚洲一区二区三区高清精油按摩 一区二区动漫漫画中文字幕 内射无套内射国产精品视频 中文字幕久久国产精品 国产免费久久久久久无码 精品国产一区二区三区无码a 蜜桃一区二区三区 jizz一日本日韩片 亚洲欧美日韩国产原创在线观看蜜 天堂成av午夜电影 一本大道久久精品调教 最近中文字幕完整国语 中文字幕久久精品无码不卡 久久精品国产91久久综合 91精品国产综合久久婷婷香蕉 尤物成人影院yw193在线观看 国产精品亚洲АV无码播放 国产熟睡乱子伦午夜视频 草莓视频APP无限观看 亚洲av无码之国产精品小说 伊人久久精品亚洲午夜 日本在线高清免费爱做网站 国产大片黄在线观看 男人和女人一级黄色大片 波多野百合在线播放一区 欧美日本成人动漫va精品在线 天堂AⅤ大芭蕉伊人AV 国产色播日本一区午夜爱爱 884hutv四虎永久黄网 XXXX性BBBB欧美 国产午夜福利大片 国产九九99久久99大香伊 久久精品韩国AV电影 亚洲电影+有码+中文字幕 扒开双腿猛进入喷水高潮叫声 2020久久精品亚洲热综合 手机看片福利永久国产日韩 久久久久久久亚洲Av无码 国产精品久久久一区二区三区 欧美成人国产高清视频 亚洲国产黄在线观看 久久久久久国产a免费观看黄色大片 亚洲AV永久青草无码精品 亚洲精品国产精品精 夜夜夜夜夜国产区 国产高潮刺激叫喊视频 色噜噜亚洲精品中文字幕 中文在线√天堂 国产精品国产国产av 国产超级乱淫视频播放免费 宝贝扒开下面自慰给我看 国产一级A爱做片免费91 疯狂三人交性欧美 久久久精品中文字幕综合 九九久久久 日韩无砖av专区一区 亚洲一级二级视频 亚洲熟妇久久国内精品 亚洲中文无码男人的天堂 亚洲.欧美.在线视频 各种少妇正面着bbw撒尿视频 麻豆av无码精品一区二 亚洲色欲综合一区二区三区小说 厨房后面按住岳的大屁股 国产一区在线观看免费 亚洲中文字幕无码久久2017 少妇厨房愉情理伦片免费 亚洲综合国产成人丁香五月激情 人妻日韩欧美综合制服 日韩内射少妇视频播放网站 国产精品一区二区av麻豆 人妻尝试又大又粗久久 伊人久久大香线蕉成人综合网 性色AV一区二区三 99ri在线精品视频在线播放 在线观看黄页网站免费 在线精品不卡中文字幕人妻 欧美日韩大片在线观看 国产精品后入国产一在线精品一区在线观看 在线观看久草视频 久久777国产线看观看精品 挺进邻居人妻雪白的身体 国产午夜精品理论片无删减 国产成人亚洲综合97 欧美人与动牲交A欧美 夜夜爱成人免费网站 亚洲无码精品在线观看 亚洲无码色图照片视频 免费国产乱码一二三区 日本边添边摸边做边爱 日韩午夜精品无码区 亚洲永久字幕精品免费文字 秘书边打电话边被躁bd视频 亚洲无码不卡永久免费 少妇人妻偷人精品无码视频 日韩爆乳一区二区无码 亚洲理论片一区二区三区 手机日韩精品视频在线看网站 色综合色狠狠天天综合网 久久综合噜噜激激的五月天 精品人妻久久久久久888 性饥渴美国女兵理论片 欧美Ⅴs日韩Ⅴs国产在线观看 国99久9在线视频播放免费 国内大量揄拍人妻精品視頻 久久久久琪琪去精品色无码 久久中文精品无码中 97在线免费视频 人人人爽人人爽人人看人人玩 欧美精品国产一区二区 丰满爆乳bbwbbwbbw 国产A级毛片久久久久久 无码少妇一区二区三区浪潮av 久久久久中文 黑人男女粗大猛烈进出视频 久久精品久久久久 亚洲一区二区av在线 午夜精品久久久 色婷婷久久综合中文久久一本 维修工人的绝遇中文字 青青草视频播放 一级无码毛片在线免费 日韩欧洲在线高清一区 国产精品国产三级欧美二区 狠狠躁天天躁中文字幕天码 国产永久免费高清动作片www 欧美猛男激大陆精大陆国产国语精品 日本熟妇xxxx乱 日韩少妇色精品无码免费视频 国产大片在线观看网址 精品人妻少妇一区二区三区 美女脱了内裤张开腿让男人桶网站 对白精彩刺激在线播放 中文字幕高清综合免费观看的影视 www久久久不卡国产精品一区二区 国产三级视频在线观看线播放 国产freesexvideos中国麻豆 国产丝袜拍偷超清在线 欧美一区二区三区精品国产 中文字幕成人免费高清在线 国产一级电影在线播放 亚洲免费三区 国产日韩3在线观看 免费以及久久亚洲AⅤ 中文字幕在线亚洲日韩6页 国产v片在线观看 久久精品性色生活片 亚洲国产精品无码久久久动漫 狼人色精品视频给你 精品老司机在线视频香蕉 国产区视频在线观看 欧美日韩亚洲精品瑜伽裤 夜夜夜夜夜 国产区 久久91精品国产91久 亚洲欧美一区二区不卡精品 2020国产精品无码网址 无毒中文字幕无码高清 十八禁无遮拦黄视频欧美 国产精品无码久久一区二区三区 玖玖资源站最新地址7 国产精品自在线拍国产 欧美日韩乱国产综合 日韩国产欧美亚洲精品一二三区 在线免费观看观看AV 香蕉视频H在线观看 麻豆精品国产片在线观看 国产成人精品视频网站 无码乱肉视频免费大全合集 欧美性色xo影院38 国产高欧美性情一线在线 久久国产亚洲AV无码麻豆 成人国产精品一区二区网站公 国产精品亚洲五月天高清 又黄又爽无遮挡撒尿的网站 中文字幕人成乱码熟女 中文字幕无码日韩专区免费 亚洲日本三级最新在线不卡 亚洲AV久无精品一区二区国产 成人午夜无码一级在线播放 免费无码又爽又刺激蜜桃AV 九色精品在线 久久中文精品无码中文字幕下载 国产粉嫩嫩00在线正在播放蜜臀 麻豆国产免费看片在线播放 中文字幕极速一区二区 国产精品久久久无码一区av 双腿张开被9个黑人调教影片 五十六十日本老熟妇乱 亚洲精品高清国产一线久久 国产精品久久久无码一区不卡 草莓app在线观看 思思久久精品一本到99热 精品欧美体内she精2娇小 99久久精品国产综合男同 四虎影视国产精品久久 国内一级一级毛片a免费 久久99精品国产自在现线小黄鸭 中文永久字幕 51xx午夜影视福利 亚洲大片AV一区二区三区 久久99国产乱子伦精品免费 软萌小仙自慰喷白浆 国产成人无码AA精品一区 国产亚洲一卡2卡3卡4卡 国产午夜精品免费一区二区三区视频 国产精品无码无卡在线播放 好爽毛片一区二区三区四无码 亚洲一区二区三区无码色欲 亚洲爆乳无码精品AAA片蜜桃 久久精品这里只有精99品 HD老熟女BBn老淑女 久久天天躁狠狠躁狠狠躁 永久在线观看免费视频 超清首页国产亚洲丝袜 国产成人毛片在线视频 日本不卡视频一区二区三区 免费午夜一级高清免费看 无遮挡1000部拍拍拍欧美劲爆 国产中文在线亚洲精品 四虎三级AV 亚洲无码高清在线免费观看 色偷偷色噜噜狠狠成人免费视频 亚洲手机无码在线电影五月网 久久天堂综合亚洲伊人HD妓女 永久A电影三级在线观看 亚洲日韩国产二区无码 免费+无码+国产在线观看 亚洲一区二区三区国产精品 在线观看亚洲欧美不卡视频 国产精品国产三级在线 日韩精品无码专区免费播放 91精品国产福利在线观看 一区二区三区在线无码观看 国产超级乱淫视频播放免费 亚洲无码免费视频国产 少妇被黑人到高出白浆 久久久无码精品亚洲日韩按摩不卡 999zyz玖玖资源站最新 成人免费看片 国产av福利第一精品 人妻少妇中文字幕久久 国产成人av在线播放不卡 久热国产手机免费视频 久久天堂影院 午夜美女福利视频 日本黄大片在线观看 无码久久精品国产AV影片 亚洲无码一级大片 五月激情综合网 久久精品国产亚洲av电影网 人伦片无码中文字幕 国产日韩精品无码区免费专区国产 国内精品久久九九国产精品 极品无码色欲护士高潮喷水 日韩亚洲欧美国产精品 福建餐饮人才网 久久久久国产精品免费看 天天干天天干天天天天天天爽 夜夜高潮夜夜爽夜夜爱爱 亚洲无码三级在线 9久9久女女热精品视频免费 色噜噜亚洲精品中文字幕 国产一区在线看无广告 国产精品自在线拍国产 青丝影院免费观看电视剧高清 秋霞无码一区二区 久久久久久中文字幕2020 国产一区二区三区乱码 亚洲中文一本无码AV在线无码 日韩三级精品 一级AV在线免费观看 免费无码一区二区三区 午夜噜噜噜私人影院在线播放 人妻18毛片A级毛片免费看 今夜无人入睡在线观看高清 国产精品TV在线麻豆 91人妻无码精品蜜桃 亚洲日韩欧美在线观看一区二区 一区无码在线观看 毛片四区免费看 无码人妻丰满熟妇啪啪7774 色欲久久久中文字幕综合 七仙女欲春寡肉体完整版 人妻 丝袜美腿 中文字幕 欧美一区二区三区性 永久A电影三级在线观看 日本福利片秋霞国产午夜 精品国产一级毛片大全 菠萝蜜视频在线观看免费 日本在线视频一区二区 蜜月Aⅴ毛片免费看 美女极度色诱视频国产舒心 热这里只有精品国产99 潮喷失禁大喷水aⅴ无码 亚洲永久精品一二三四 国产国产精品人在线视 亚洲不卡无码永久在线观看 日韩无码一区二区三区综合精品久久无码 国产情侣真实露脸在线 高清性猛交XXX黑人猛交 国产精品无码一区视频 无码中文字幕热热久久 国产精品人人爽人人爽AV 中文无码一区二区三区不卡 国产91香蕉在线精品 国产91国色一区二区三区 亚洲αV永久无码精品网址 91国在线视频 色欲AV无码国产精品麻豆 一区免费在线观看 91久久久99久久91熟女 亚洲午夜人成在线 精品国产免费一区二区 色妺妺在线视频 国产精品九九久久免费视频 久久亚州中文字幕无码毛片 九九精品在线观看 在线观看国产成人av片 欧美日韩国产一区二区三区 日出水了特别黄的视频 日本高清视频WWWW色 久久精品无码日韩国产不卡 边做饭边被躁欧美三级 波多野吉衣无码啪啪1000免费 强插女教师av在线 国产一区二区精品久久小说 五月天精品视频在线观看 亚洲AV无码久久精品狠狠爱浪潮 久久久久成人精品无码中文字幕 看毛片免费的网站 一级无遮挡真人毛片黄视频 免费在线播放片中文字幕后 在线看片z无码人成免费 91k国产在线观看尤物 国产精品免费久久久久久影院 欧美激情在线第五页 2O12国内精品久久久久精免费 粉嫩小仙女扒开双腿自慰 九九久久香港经典三级精品 日韩精品人妻一区二区三区 天天躁日日躁狠狠很躁 亚洲Av成人无码久久精品老人 99re热久久亚洲综合精品动漫 国产噜噜在线视频观看 国产日韩高清中文无码av JIZZ成熟少妇 国产精自产拍久久久久久蜜 真实小呦网站导航 激情小视频欧美国产 国产剧情AV麻豆香蕉精品 久久精品资源 国产中文高清三级 国产高清视频a在线观看 日本伦奷在线播放 久久国产三级片电影视频 久久性色AV免费精品观看 2021av片在线免费观看 亚洲综合无码一级片无码的 亚洲中文字幕无码久久2019 精品 夜福利利国产精品无码 人人人澡人人肉人人妻 欧美国产日韩制服久久黑丝 大桥久未无码吹潮在线观看 亚洲AV无国产日韩AV在线播放 中国孕妇变态孕交XXXX 国产成年人免費黄色視頻 国产精品亚洲A∨天堂2018 国产一区精品无码 少妇无码一区二区三区 中文字幕人妻伦伦 99在线精品免费视频九九视 久久亚洲精品成人av 国产又粗又猛又爽又黄的视频免费黑人了 国产福利在线观看一区二区三区 怡春院院日本一区二区久久 最新av中文字在线观看 羞羞视频APP在线看黄 2020亚洲中文字幕久在线 日本免费人成视频播放 亚洲一区在线视频播放 一级片男人的天堂 欧美日韩在线卡一卡二 亚洲1无码精品色 亚洲成成熟女人专区 一本色道无码不卡在线观看 色老汉亚洲AV影院天天精品 无码专区AV电影 亚洲av不卡无码国产 无码人妻丰满熟妇啪啪网站 亚洲AV无码专区国产精品色欲 91精品手机国产在线观 波多野结衣办公室双飞 手机看片1024欧美 国产精品好硬好爽免费视频 亚洲综合无码精品视频 狠狠搞狠狠干 黃片小视频免费 中文字幕永久在线网站 亚洲中文久久久久国产精品 成人午夜视频免费观看 免费靠逼视频软件 国产成人91激情在线播放 男人添女人下面免费播放电影 а√最新版在线天堂 国产真实交换配乱婬视频 国产在线一区视频 精品国偷自产在线不卡视频 精品国产黄片在线看 丁香花高清在线观看完整版
奉节县| 丽水市| 安远县| 柘荣县| 韶山市| 新郑市| 宜兴市| 清涧县| 岳阳县| 江西省| 新龙县| 怀集县| 手游| 墨江| 元谋县| 靖远县| 罗江县| 建昌县| 南澳县| 茂名市| 工布江达县| 龙川县| 和静县| 大邑县| 梨树县| 澄江县| 中江县| 新野县| 平遥县| 当雄县| 阜城县| 荔浦县| 平武县| 宁国市| 满城县| 汶上县| 宜兰市| 五大连池市| 土默特左旗| 平昌县| 上思县|