資訊詳情

為什么數(shù)據(jù)清理會(huì)讓您的ML模型失敗

2022-12-26 09:07:494636

不幸的是，無(wú)論我們多么努力地清理，糟糕的數(shù)據(jù)質(zhì)量往往太普遍，太具有侵略性，以至于無(wú)法快速淋浴。

我們對(duì)150多家組織的數(shù)據(jù)堆棧進(jìn)行的研究顯示，在一個(gè)環(huán)境中，每1，000個(gè)表平均每年會(huì)發(fā)生70起有影響的數(shù)據(jù)事件。這些事件侵入探索性數(shù)據(jù)分析;他們侵入模型訓(xùn)練和驗(yàn)證;并在部署后入侵模型的推理數(shù)據(jù)，產(chǎn)生漂移。

模型的準(zhǔn)確性不會(huì)隨著筆記本中的數(shù)據(jù)清理而開(kāi)始或結(jié)束，您只需使用幾個(gè)表來(lái)通知、訓(xùn)練和驗(yàn)證您的模型。它從ETL管道和您選擇度量什么來(lái)解決問(wèn)題的那一刻開(kāi)始。

讓我們看一個(gè)半假設(shè)的場(chǎng)景，其中包含我們?cè)谝巴饪吹降恼鎸?shí)例子，以強(qiáng)調(diào)一些常見(jiàn)的故障點(diǎn)。然后，我們將討論如何通過(guò)組織對(duì)高質(zhì)量數(shù)據(jù)的承諾來(lái)避免這些問(wèn)題。

想象一下

你是一名數(shù)據(jù)科學(xué)家，大搖大擺地研究預(yù)測(cè)模型，以優(yōu)化一家快速發(fā)展的公司的數(shù)字營(yíng)銷支出。在勤奮的數(shù)據(jù)探索之后，您將一些數(shù)據(jù)集導(dǎo)入到您的Python筆記本中。

探索性數(shù)據(jù)分析

因?yàn)槟墓緹嶂杂趦x表板，而且數(shù)據(jù)工程團(tuán)隊(duì)比以往任何時(shí)候都更容易通過(guò)管道傳輸數(shù)據(jù)來(lái)滿足臨時(shí)請(qǐng)求，所以這一發(fā)現(xiàn)極具挑戰(zhàn)性。數(shù)據(jù)倉(cāng)庫(kù)一片混亂，缺乏語(yǔ)義。

沒(méi)有清除數(shù)據(jù)譜系，您浪費(fèi)時(shí)間合并和清理數(shù)據(jù)，而沒(méi)有注意到下游的表已經(jīng)合并了更多的數(shù)據(jù)源。這幾乎和你注意到你差點(diǎn)遺漏了一個(gè)關(guān)鍵數(shù)據(jù)集時(shí)一樣刺痛，但是你安慰自己即使是最偉大的人不時(shí)地犯那些錯(cuò)誤.

模型設(shè)計(jì)

您看到LinkedIn廣告點(diǎn)擊數(shù)據(jù)有0.1%為空，因此您將該值估算到特征列的中值。這在你的筆記本中是整潔的，但是在模型部署之后，LinkedIn和營(yíng)銷自動(dòng)化平臺(tái)之間的集成沒(méi)有被重新授權(quán)。生產(chǎn)數(shù)據(jù)集中的空值現(xiàn)已躍升至90%，導(dǎo)致這種插補(bǔ)更加頻繁，并且基于更小、更不準(zhǔn)確的樣本。

你的模型還使用了由一位前同事建立的另一個(gè)用于廣告支出優(yōu)化的機(jī)器學(xué)習(xí)模型推斷的數(shù)據(jù)。不幸的是，在離開(kāi)公司之前，他們?cè)跀?shù)千個(gè)臨時(shí)桌子上建立了這個(gè)模型。它壞了，自動(dòng)駕駛，讓公司損失了幾百萬(wàn)，但你不知道。

模型訓(xùn)練和驗(yàn)證

您小心地分離出維持集，以避免污染，并確保用于驗(yàn)證模型的數(shù)據(jù)不會(huì)與定型數(shù)據(jù)重疊。您不知道的是，訓(xùn)練數(shù)據(jù)包含一個(gè)聚集訪問(wèn)者網(wǎng)站數(shù)據(jù)的表，其中的列一個(gè)月沒(méi)有更新。

原來(lái)，營(yíng)銷運(yùn)營(yíng)團(tuán)隊(duì)升級(jí)到Google Analytics 4是為了趕在2023年7月的最后期限之前，這改變了數(shù)據(jù)模式。這導(dǎo)致自動(dòng)化ETL管道旋轉(zhuǎn)出一個(gè)全新的表，打破了聚集表的依賴性。因此，您的訓(xùn)練集不包含上個(gè)月的數(shù)據(jù)，這些數(shù)據(jù)包括由于不斷變化的宏觀經(jīng)濟(jì)環(huán)境而導(dǎo)致的瀏覽行為和購(gòu)買模式的統(tǒng)計(jì)顯著變化。

模型部署

您的模型已經(jīng)部署好了，并且默默承受著重大的偏差。臉書改變了他們發(fā)送數(shù)據(jù)的方式，從每24小時(shí)改為每12小時(shí)。您團(tuán)隊(duì)的ETL被設(shè)置為每天只獲取一次數(shù)據(jù)，因此這意味著突然有一半正在發(fā)送的活動(dòng)數(shù)據(jù)沒(méi)有被處理或傳遞到下游，從而使他們的新用戶指標(biāo)偏離“付費(fèi)”而趨向“有機(jī)”

模型評(píng)論

所有這些問(wèn)題意味著你的預(yù)測(cè)模型對(duì)數(shù)字廣告的表現(xiàn)沒(méi)有影響。你現(xiàn)在已經(jīng)失去了營(yíng)銷團(tuán)隊(duì)和高管的信任。畢竟，他們一開(kāi)始就持懷疑態(tài)度。當(dāng)他們?cè)诿恐軋?bào)告中看到錯(cuò)誤，儀表板每月崩潰兩次時(shí)，他們?cè)趺茨芟嘈乓粋€(gè)預(yù)測(cè)黑匣子呢?

證明你的團(tuán)隊(duì)增加人員和投資的合理性現(xiàn)在變得更加困難了，盡管模型的失敗不是你的錯(cuò)。

這個(gè)故事里有什么聽(tīng)起來(lái)耳熟的嗎?雖然這個(gè)特定的故事可能是虛構(gòu)的，但像您剛剛讀到的故事在現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)中太常見(jiàn)了。那么，怎樣才能避免這樣的結(jié)果呢?讓我們看看對(duì)數(shù)據(jù)質(zhì)量的承諾如何幫助我們的數(shù)據(jù)科學(xué)家獲得更好的結(jié)果。

現(xiàn)代數(shù)據(jù)堆棧的數(shù)據(jù)清理

數(shù)據(jù)科學(xué)家不能也不應(yīng)該負(fù)責(zé)持續(xù)清理數(shù)據(jù)倉(cāng)庫(kù)中的每個(gè)表。然而，我們確實(shí)需要與我們的數(shù)據(jù)工程同事合作，創(chuàng)建一個(gè)適合數(shù)據(jù)科學(xué)的環(huán)境。

就像廚師了解她的原料供應(yīng)鏈一樣，我們也應(yīng)該了解我們數(shù)據(jù)的供應(yīng)鏈。每個(gè)組織都有不同的數(shù)據(jù)源組合，并且每個(gè)組織運(yùn)行管道的方式都略有不同。

有些將所有數(shù)據(jù)都放入一個(gè)中央數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖中，而有些則為原始數(shù)據(jù)和準(zhǔn)備好的數(shù)據(jù)運(yùn)行單獨(dú)的環(huán)境，中間有一層分析工程師。大多數(shù)可能更擅長(zhǎng)清除遺留數(shù)據(jù)集。

數(shù)據(jù)的目的地及其組織很重要，因?yàn)樗鼤?huì)影響您的探索性數(shù)據(jù)分析。然而，數(shù)據(jù)的旅程很重要，因?yàn)槊織l路徑都會(huì)給模型帶來(lái)不同的風(fēng)險(xiǎn)。

除了在數(shù)據(jù)集層面用傳統(tǒng)的數(shù)據(jù)質(zhì)量的6個(gè)維度(準(zhǔn)確性、完整性、一致性、及時(shí)性、有效性和唯一性)，是時(shí)候開(kāi)始圍繞數(shù)據(jù)新鮮度、數(shù)量、模式和分布異常在管道級(jí)別進(jìn)行思考了。

您可以通過(guò)構(gòu)建自己的異常檢測(cè)器(這是一個(gè)由三部分組成的系列，展示了如何做到這一點(diǎn))或利用商業(yè)數(shù)據(jù)可觀察性解決方案。

監(jiān)控管道接收的數(shù)據(jù)量中的異?？纱_保您的模型始終接收高精度預(yù)測(cè)結(jié)果所需的最小數(shù)量的樣本。

Gartner 2022年數(shù)據(jù)管理宣傳周期

商業(yè)解決方案的優(yōu)勢(shì)在于，無(wú)需不斷更新和調(diào)整您的自定義監(jiān)控閾值，您可以在添加數(shù)據(jù)資產(chǎn)的那一刻就依賴于覆蓋所有數(shù)據(jù)資產(chǎn)的基線，同時(shí)還能夠在必要時(shí)添加自定義監(jiān)控規(guī)則。

監(jiān)控您的所有生產(chǎn)管道和表不僅會(huì)使您的工作更容易，還會(huì)使您的模型更準(zhǔn)確。

例如，通過(guò)監(jiān)視數(shù)據(jù)中值的分布，您可以快速查看數(shù)據(jù)集的這些范圍，而不必手動(dòng)進(jìn)行多次探索和分析來(lái)回答歷史唯一百分比等問(wèn)題。正如我們?cè)谀槙睦又锌吹降哪菢樱@些監(jiān)視器還可以提醒您每個(gè)數(shù)據(jù)類別的比例發(fā)生了突然變化。

監(jiān)控管道接收的數(shù)據(jù)量中的異常可確保您的模型始終接收高精度預(yù)測(cè)結(jié)果所需的最小數(shù)量的樣本。

數(shù)據(jù)可觀察性解決方案還包括數(shù)據(jù)沿襲和輕量級(jí)編目功能，通過(guò)展現(xiàn)對(duì)象之間的關(guān)系和識(shí)別相關(guān)事件，在發(fā)現(xiàn)和探索性數(shù)據(jù)分析過(guò)程中提供幫助。

有了干凈的數(shù)據(jù)環(huán)境，您可以將重點(diǎn)放在創(chuàng)建推動(dòng)業(yè)務(wù)價(jià)值的精確、可信的ML模型上。

想象一下

探索性數(shù)據(jù)分析

模型設(shè)計(jì)

模型訓(xùn)練和驗(yàn)證

模型部署

因?yàn)槟哪Ｐ筒粩嗟赜?xùn)練新數(shù)據(jù)，這種類的轉(zhuǎn)移降低了您的模型的性能，因?yàn)樗_(kāi)始過(guò)度適應(yīng)有機(jī)用戶獲取。由于這發(fā)生在數(shù)據(jù)清理和模型構(gòu)建之后，您沒(méi)有意識(shí)到這種需要糾正的不平衡

模型評(píng)論

證明你的團(tuán)隊(duì)增加人員和投資的合理性現(xiàn)在變得更加困難了，盡管模型的失敗不是你的錯(cuò)。

現(xiàn)代數(shù)據(jù)堆棧的數(shù)據(jù)清理

監(jiān)控管道接收的數(shù)據(jù)量中的異?？纱_保您的模型始終接收高精度預(yù)測(cè)結(jié)果所需的最小數(shù)量的樣本。

Gartner 2022年數(shù)據(jù)管理宣傳周期

監(jiān)控您的所有生產(chǎn)管道和表不僅會(huì)使您的工作更容易，還會(huì)使您的模型更準(zhǔn)確。

例如，通過(guò)監(jiān)視數(shù)據(jù)中值的分布，您可以快速查看數(shù)據(jù)集的這些范圍，而不必手動(dòng)進(jìn)行多次探索和分析來(lái)回答歷史唯一百分比等問(wèn)題。正如我們?cè)谀槙睦又锌吹降哪菢?，這些監(jiān)視器還可以提醒您每個(gè)數(shù)據(jù)類別的比例發(fā)生了突然變化。

監(jiān)控管道接收的數(shù)據(jù)量中的異?？纱_保您的模型始終接收高精度預(yù)測(cè)結(jié)果所需的最小數(shù)量的樣本。

數(shù)據(jù)可觀察性平臺(tái)中的數(shù)據(jù)沿襲顯示了表依賴關(guān)系。

有了干凈的數(shù)據(jù)環(huán)境，您可以將重點(diǎn)放在創(chuàng)建推動(dòng)業(yè)務(wù)價(jià)值的精確、可信的ML模型上。