為什么數(shù)據(jù)清理會(huì)讓您的ML模型失敗
我們對(duì)150多家組織的數(shù)據(jù)堆棧進(jìn)行的研究顯示,在一個(gè)環(huán)境中,每1,000個(gè)表平均每年會(huì)發(fā)生70起有影響的數(shù)據(jù)事件。這些事件侵入探索性數(shù)據(jù)分析;他們侵入模型訓(xùn)練和驗(yàn)證;并在部署后入侵模型的推理數(shù)據(jù),產(chǎn)生漂移。
模型的準(zhǔn)確性不會(huì)隨著筆記本中的數(shù)據(jù)清理而開(kāi)始或結(jié)束,您只需使用幾個(gè)表來(lái)通知、訓(xùn)練和驗(yàn)證您的模型。它從ETL管道和您選擇度量什么來(lái)解決問(wèn)題的那一刻開(kāi)始。
讓我們看一個(gè)半假設(shè)的場(chǎng)景,其中包含我們?cè)谝巴饪吹降恼鎸?shí)例子,以強(qiáng)調(diào)一些常見(jiàn)的故障點(diǎn)。然后,我們將討論如何通過(guò)組織對(duì)高質(zhì)量數(shù)據(jù)的承諾來(lái)避免這些問(wèn)題。
想象一下
你是一名數(shù)據(jù)科學(xué)家,大搖大擺地研究預(yù)測(cè)模型,以優(yōu)化一家快速發(fā)展的公司的數(shù)字營(yíng)銷支出。在勤奮的數(shù)據(jù)探索之后,您將一些數(shù)據(jù)集導(dǎo)入到您的Python筆記本中。
探索性數(shù)據(jù)分析
因?yàn)槟墓緹嶂杂趦x表板,而且數(shù)據(jù)工程團(tuán)隊(duì)比以往任何時(shí)候都更容易通過(guò)管道傳輸數(shù)據(jù)來(lái)滿足臨時(shí)請(qǐng)求,所以這一發(fā)現(xiàn)極具挑戰(zhàn)性。數(shù)據(jù)倉(cāng)庫(kù)一片混亂,缺乏語(yǔ)義。
沒(méi)有清除數(shù)據(jù)譜系,您浪費(fèi)時(shí)間合并和清理數(shù)據(jù),而沒(méi)有注意到下游的表已經(jīng)合并了更多的數(shù)據(jù)源。這幾乎和你注意到你差點(diǎn)遺漏了一個(gè)關(guān)鍵數(shù)據(jù)集時(shí)一樣刺痛,但是你安慰自己即使是最偉大的人不時(shí)地犯那些錯(cuò)誤.
模型設(shè)計(jì)
您看到LinkedIn廣告點(diǎn)擊數(shù)據(jù)有0.1%為空,因此您將該值估算到特征列的中值。這在你的筆記本中是整潔的,但是在模型部署之后,LinkedIn和營(yíng)銷自動(dòng)化平臺(tái)之間的集成沒(méi)有被重新授權(quán)。生產(chǎn)數(shù)據(jù)集中的空值現(xiàn)已躍升至90%,導(dǎo)致這種插補(bǔ)更加頻繁,并且基于更小、更不準(zhǔn)確的樣本。
你的模型還使用了由一位前同事建立的另一個(gè)用于廣告支出優(yōu)化的機(jī)器學(xué)習(xí)模型推斷的數(shù)據(jù)。不幸的是,在離開(kāi)公司之前,他們?cè)跀?shù)千個(gè)臨時(shí)桌子上建立了這個(gè)模型。它壞了,自動(dòng)駕駛,讓公司損失了幾百萬(wàn),但你不知道。
模型訓(xùn)練和驗(yàn)證
您小心地分離出維持集,以避免污染,并確保用于驗(yàn)證模型的數(shù)據(jù)不會(huì)與定型數(shù)據(jù)重疊。您不知道的是,訓(xùn)練數(shù)據(jù)包含一個(gè)聚集訪問(wèn)者網(wǎng)站數(shù)據(jù)的表,其中的列一個(gè)月沒(méi)有更新。
原來(lái),營(yíng)銷運(yùn)營(yíng)團(tuán)隊(duì)升級(jí)到Google Analytics 4是為了趕在2023年7月的最后期限之前,這改變了數(shù)據(jù)模式。這導(dǎo)致自動(dòng)化ETL管道旋轉(zhuǎn)出一個(gè)全新的表,打破了聚集表的依賴性。因此,您的訓(xùn)練集不包含上個(gè)月的數(shù)據(jù),這些數(shù)據(jù)包括由于不斷變化的宏觀經(jīng)濟(jì)環(huán)境而導(dǎo)致的瀏覽行為和購(gòu)買模式的統(tǒng)計(jì)顯著變化。
模型部署
您的模型已經(jīng)部署好了,并且默默承受著重大的偏差。臉書改變了他們發(fā)送數(shù)據(jù)的方式,從每24小時(shí)改為每12小時(shí)。您團(tuán)隊(duì)的ETL被設(shè)置為每天只獲取一次數(shù)據(jù),因此這意味著突然有一半正在發(fā)送的活動(dòng)數(shù)據(jù)沒(méi)有被處理或傳遞到下游,從而使他們的新用戶指標(biāo)偏離“付費(fèi)”而趨向“有機(jī)”
模型評(píng)論
所有這些問(wèn)題意味著你的預(yù)測(cè)模型對(duì)數(shù)字廣告的表現(xiàn)沒(méi)有影響。你現(xiàn)在已經(jīng)失去了營(yíng)銷團(tuán)隊(duì)和高管的信任。畢竟,他們一開(kāi)始就持懷疑態(tài)度。當(dāng)他們?cè)诿恐軋?bào)告中看到錯(cuò)誤,儀表板每月崩潰兩次時(shí),他們?cè)趺茨芟嘈乓粋€(gè)預(yù)測(cè)黑匣子呢?
證明你的團(tuán)隊(duì)增加人員和投資的合理性現(xiàn)在變得更加困難了,盡管模型的失敗不是你的錯(cuò)。
這個(gè)故事里有什么聽(tīng)起來(lái)耳熟的嗎?雖然這個(gè)特定的故事可能是虛構(gòu)的,但像您剛剛讀到的故事在現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)中太常見(jiàn)了。那么,怎樣才能避免這樣的結(jié)果呢?讓我們看看對(duì)數(shù)據(jù)質(zhì)量的承諾如何幫助我們的數(shù)據(jù)科學(xué)家獲得更好的結(jié)果。
現(xiàn)代數(shù)據(jù)堆棧的數(shù)據(jù)清理
數(shù)據(jù)科學(xué)家不能也不應(yīng)該負(fù)責(zé)持續(xù)清理數(shù)據(jù)倉(cāng)庫(kù)中的每個(gè)表。然而,我們確實(shí)需要與我們的數(shù)據(jù)工程同事合作,創(chuàng)建一個(gè)適合數(shù)據(jù)科學(xué)的環(huán)境。
就像廚師了解她的原料供應(yīng)鏈一樣,我們也應(yīng)該了解我們數(shù)據(jù)的供應(yīng)鏈。每個(gè)組織都有不同的數(shù)據(jù)源組合,并且每個(gè)組織運(yùn)行管道的方式都略有不同。
有些將所有數(shù)據(jù)都放入一個(gè)中央數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖中,而有些則為原始數(shù)據(jù)和準(zhǔn)備好的數(shù)據(jù)運(yùn)行單獨(dú)的環(huán)境,中間有一層分析工程師。大多數(shù)可能更擅長(zhǎng)清除遺留數(shù)據(jù)集。
數(shù)據(jù)的目的地及其組織很重要,因?yàn)樗鼤?huì)影響您的探索性數(shù)據(jù)分析。然而,數(shù)據(jù)的旅程很重要,因?yàn)槊織l路徑都會(huì)給模型帶來(lái)不同的風(fēng)險(xiǎn)。
除了在數(shù)據(jù)集層面用傳統(tǒng)的數(shù)據(jù)質(zhì)量的6個(gè)維度(準(zhǔn)確性、完整性、一致性、及時(shí)性、有效性和唯一性),是時(shí)候開(kāi)始圍繞數(shù)據(jù)新鮮度、數(shù)量、模式和分布異常在管道級(jí)別進(jìn)行思考了。
您可以通過(guò)構(gòu)建自己的異常檢測(cè)器(這是一個(gè)由三部分組成的系列,展示了如何做到這一點(diǎn))或利用商業(yè)數(shù)據(jù)可觀察性解決方案。
監(jiān)控管道接收的數(shù)據(jù)量中的異??纱_保您的模型始終接收高精度預(yù)測(cè)結(jié)果所需的最小數(shù)量的樣本。
Gartner 2022年數(shù)據(jù)管理宣傳周期
商業(yè)解決方案的優(yōu)勢(shì)在于,無(wú)需不斷更新和調(diào)整您的自定義監(jiān)控閾值,您可以在添加數(shù)據(jù)資產(chǎn)的那一刻就依賴于覆蓋所有數(shù)據(jù)資產(chǎn)的基線,同時(shí)還能夠在必要時(shí)添加自定義監(jiān)控規(guī)則。
監(jiān)控您的所有生產(chǎn)管道和表不僅會(huì)使您的工作更容易,還會(huì)使您的模型更準(zhǔn)確。
例如,通過(guò)監(jiān)視數(shù)據(jù)中值的分布,您可以快速查看數(shù)據(jù)集的這些范圍,而不必手動(dòng)進(jìn)行多次探索和分析來(lái)回答歷史唯一百分比等問(wèn)題。正如我們?cè)谀槙睦又锌吹降哪菢樱@些監(jiān)視器還可以提醒您每個(gè)數(shù)據(jù)類別的比例發(fā)生了突然變化。
監(jiān)控管道接收的數(shù)據(jù)量中的異常可確保您的模型始終接收高精度預(yù)測(cè)結(jié)果所需的最小數(shù)量的樣本。
數(shù)據(jù)可觀察性解決方案還包括數(shù)據(jù)沿襲和輕量級(jí)編目功能,通過(guò)展現(xiàn)對(duì)象之間的關(guān)系和識(shí)別相關(guān)事件,在發(fā)現(xiàn)和探索性數(shù)據(jù)分析過(guò)程中提供幫助。
有了干凈的數(shù)據(jù)環(huán)境,您可以將重點(diǎn)放在創(chuàng)建推動(dòng)業(yè)務(wù)價(jià)值的精確、可信的ML模型上。
我們對(duì)150多家組織的數(shù)據(jù)堆棧進(jìn)行的研究顯示,在一個(gè)環(huán)境中,每1,000個(gè)表平均每年會(huì)發(fā)生70起有影響的數(shù)據(jù)事件。這些事件侵入探索性數(shù)據(jù)分析;他們侵入模型訓(xùn)練和驗(yàn)證;并在部署后入侵模型的推理數(shù)據(jù),產(chǎn)生漂移。
模型的準(zhǔn)確性不會(huì)隨著筆記本中的數(shù)據(jù)清理而開(kāi)始或結(jié)束,您只需使用幾個(gè)表來(lái)通知、訓(xùn)練和驗(yàn)證您的模型。它從ETL管道和您選擇度量什么來(lái)解決問(wèn)題的那一刻開(kāi)始。
讓我們看一個(gè)半假設(shè)的場(chǎng)景,其中包含我們?cè)谝巴饪吹降恼鎸?shí)例子,以強(qiáng)調(diào)一些常見(jiàn)的故障點(diǎn)。然后,我們將討論如何通過(guò)組織對(duì)高質(zhì)量數(shù)據(jù)的承諾來(lái)避免這些問(wèn)題。
想象一下
你是一名數(shù)據(jù)科學(xué)家,大搖大擺地研究預(yù)測(cè)模型,以優(yōu)化一家快速發(fā)展的公司的數(shù)字營(yíng)銷支出。在勤奮的數(shù)據(jù)探索之后,您將一些數(shù)據(jù)集導(dǎo)入到您的Python筆記本中。
探索性數(shù)據(jù)分析
因?yàn)槟墓緹嶂杂趦x表板,而且數(shù)據(jù)工程團(tuán)隊(duì)比以往任何時(shí)候都更容易通過(guò)管道傳輸數(shù)據(jù)來(lái)滿足臨時(shí)請(qǐng)求,所以這一發(fā)現(xiàn)極具挑戰(zhàn)性。數(shù)據(jù)倉(cāng)庫(kù)一片混亂,缺乏語(yǔ)義。
沒(méi)有清除數(shù)據(jù)譜系,您浪費(fèi)時(shí)間合并和清理數(shù)據(jù),而沒(méi)有注意到下游的表已經(jīng)合并了更多的數(shù)據(jù)源。這幾乎和你注意到你差點(diǎn)遺漏了一個(gè)關(guān)鍵數(shù)據(jù)集時(shí)一樣刺痛,但是你安慰自己即使是最偉大的人不時(shí)地犯那些錯(cuò)誤.
模型設(shè)計(jì)
您看到LinkedIn廣告點(diǎn)擊數(shù)據(jù)有0.1%為空,因此您將該值估算到特征列的中值。這在你的筆記本中是整潔的,但是在模型部署之后,LinkedIn和營(yíng)銷自動(dòng)化平臺(tái)之間的集成沒(méi)有被重新授權(quán)。生產(chǎn)數(shù)據(jù)集中的空值現(xiàn)已躍升至90%,導(dǎo)致這種插補(bǔ)更加頻繁,并且基于更小、更不準(zhǔn)確的樣本。
你的模型還使用了由一位前同事建立的另一個(gè)用于廣告支出優(yōu)化的機(jī)器學(xué)習(xí)模型推斷的數(shù)據(jù)。不幸的是,在離開(kāi)公司之前,他們?cè)跀?shù)千個(gè)臨時(shí)桌子上建立了這個(gè)模型。它壞了,自動(dòng)駕駛,讓公司損失了幾百萬(wàn),但你不知道。
模型訓(xùn)練和驗(yàn)證
您小心地分離出維持集,以避免污染,并確保用于驗(yàn)證模型的數(shù)據(jù)不會(huì)與定型數(shù)據(jù)重疊。您不知道的是,訓(xùn)練數(shù)據(jù)包含一個(gè)聚集訪問(wèn)者網(wǎng)站數(shù)據(jù)的表,其中的列一個(gè)月沒(méi)有更新。
原來(lái),營(yíng)銷運(yùn)營(yíng)團(tuán)隊(duì)升級(jí)到Google Analytics 4是為了趕在2023年7月的最后期限之前,這改變了數(shù)據(jù)模式。這導(dǎo)致自動(dòng)化ETL管道旋轉(zhuǎn)出一個(gè)全新的表,打破了聚集表的依賴性。因此,您的訓(xùn)練集不包含上個(gè)月的數(shù)據(jù),這些數(shù)據(jù)包括由于不斷變化的宏觀經(jīng)濟(jì)環(huán)境而導(dǎo)致的瀏覽行為和購(gòu)買模式的統(tǒng)計(jì)顯著變化。
模型部署
您的模型已經(jīng)部署好了,并且默默承受著重大的偏差。臉書改變了他們發(fā)送數(shù)據(jù)的方式,從每24小時(shí)改為每12小時(shí)。您團(tuán)隊(duì)的ETL被設(shè)置為每天只獲取一次數(shù)據(jù),因此這意味著突然有一半正在發(fā)送的活動(dòng)數(shù)據(jù)沒(méi)有被處理或傳遞到下游,從而使他們的新用戶指標(biāo)偏離“付費(fèi)”而趨向“有機(jī)”
因?yàn)槟哪P筒粩嗟赜?xùn)練新數(shù)據(jù),這種類的轉(zhuǎn)移降低了您的模型的性能,因?yàn)樗_(kāi)始過(guò)度適應(yīng)有機(jī)用戶獲取。由于這發(fā)生在數(shù)據(jù)清理和模型構(gòu)建之后,您沒(méi)有意識(shí)到這種需要糾正的不平衡
模型評(píng)論
所有這些問(wèn)題意味著你的預(yù)測(cè)模型對(duì)數(shù)字廣告的表現(xiàn)沒(méi)有影響。你現(xiàn)在已經(jīng)失去了營(yíng)銷團(tuán)隊(duì)和高管的信任。畢竟,他們一開(kāi)始就持懷疑態(tài)度。當(dāng)他們?cè)诿恐軋?bào)告中看到錯(cuò)誤,儀表板每月崩潰兩次時(shí),他們?cè)趺茨芟嘈乓粋€(gè)預(yù)測(cè)黑匣子呢?
證明你的團(tuán)隊(duì)增加人員和投資的合理性現(xiàn)在變得更加困難了,盡管模型的失敗不是你的錯(cuò)。
這個(gè)故事里有什么聽(tīng)起來(lái)耳熟的嗎?雖然這個(gè)特定的故事可能是虛構(gòu)的,但像您剛剛讀到的故事在現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)中太常見(jiàn)了。那么,怎樣才能避免這樣的結(jié)果呢?讓我們看看對(duì)數(shù)據(jù)質(zhì)量的承諾如何幫助我們的數(shù)據(jù)科學(xué)家獲得更好的結(jié)果。
現(xiàn)代數(shù)據(jù)堆棧的數(shù)據(jù)清理
數(shù)據(jù)科學(xué)家不能也不應(yīng)該負(fù)責(zé)持續(xù)清理數(shù)據(jù)倉(cāng)庫(kù)中的每個(gè)表。然而,我們確實(shí)需要與我們的數(shù)據(jù)工程同事合作,創(chuàng)建一個(gè)適合數(shù)據(jù)科學(xué)的環(huán)境。
就像廚師了解她的原料供應(yīng)鏈一樣,我們也應(yīng)該了解我們數(shù)據(jù)的供應(yīng)鏈。每個(gè)組織都有不同的數(shù)據(jù)源組合,并且每個(gè)組織運(yùn)行管道的方式都略有不同。
有些將所有數(shù)據(jù)都放入一個(gè)中央數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖中,而有些則為原始數(shù)據(jù)和準(zhǔn)備好的數(shù)據(jù)運(yùn)行單獨(dú)的環(huán)境,中間有一層分析工程師。大多數(shù)可能更擅長(zhǎng)清除遺留數(shù)據(jù)集。
數(shù)據(jù)的目的地及其組織很重要,因?yàn)樗鼤?huì)影響您的探索性數(shù)據(jù)分析。然而,數(shù)據(jù)的旅程很重要,因?yàn)槊織l路徑都會(huì)給模型帶來(lái)不同的風(fēng)險(xiǎn)。
除了在數(shù)據(jù)集層面用傳統(tǒng)的數(shù)據(jù)質(zhì)量的6個(gè)維度(準(zhǔn)確性、完整性、一致性、及時(shí)性、有效性和唯一性),是時(shí)候開(kāi)始圍繞數(shù)據(jù)新鮮度、數(shù)量、模式和分布異常在管道級(jí)別進(jìn)行思考了。
您可以通過(guò)構(gòu)建自己的異常檢測(cè)器(這是一個(gè)由三部分組成的系列,展示了如何做到這一點(diǎn))或利用商業(yè)數(shù)據(jù)可觀察性解決方案。
監(jiān)控管道接收的數(shù)據(jù)量中的異??纱_保您的模型始終接收高精度預(yù)測(cè)結(jié)果所需的最小數(shù)量的樣本。
Gartner 2022年數(shù)據(jù)管理宣傳周期
商業(yè)解決方案的優(yōu)勢(shì)在于,無(wú)需不斷更新和調(diào)整您的自定義監(jiān)控閾值,您可以在添加數(shù)據(jù)資產(chǎn)的那一刻就依賴于覆蓋所有數(shù)據(jù)資產(chǎn)的基線,同時(shí)還能夠在必要時(shí)添加自定義監(jiān)控規(guī)則。
監(jiān)控您的所有生產(chǎn)管道和表不僅會(huì)使您的工作更容易,還會(huì)使您的模型更準(zhǔn)確。
例如,通過(guò)監(jiān)視數(shù)據(jù)中值的分布,您可以快速查看數(shù)據(jù)集的這些范圍,而不必手動(dòng)進(jìn)行多次探索和分析來(lái)回答歷史唯一百分比等問(wèn)題。正如我們?cè)谀槙睦又锌吹降哪菢?,這些監(jiān)視器還可以提醒您每個(gè)數(shù)據(jù)類別的比例發(fā)生了突然變化。
監(jiān)控管道接收的數(shù)據(jù)量中的異??纱_保您的模型始終接收高精度預(yù)測(cè)結(jié)果所需的最小數(shù)量的樣本。
數(shù)據(jù)可觀察性解決方案還包括數(shù)據(jù)沿襲和輕量級(jí)編目功能,通過(guò)展現(xiàn)對(duì)象之間的關(guān)系和識(shí)別相關(guān)事件,在發(fā)現(xiàn)和探索性數(shù)據(jù)分析過(guò)程中提供幫助。
數(shù)據(jù)可觀察性平臺(tái)中的數(shù)據(jù)沿襲顯示了表依賴關(guān)系。
有了干凈的數(shù)據(jù)環(huán)境,您可以將重點(diǎn)放在創(chuàng)建推動(dòng)業(yè)務(wù)價(jià)值的精確、可信的ML模型上。
- 上一篇
人工智能能否在物聯(lián)網(wǎng)應(yīng)用中提供價(jià)值?
如果你涉足物聯(lián)網(wǎng)技術(shù)領(lǐng)域,那么了解AI的重要性和好處是必不可少的。在這一節(jié)中,我將討論與AI相關(guān)的所有方面,以便您可以對(duì)這個(gè)主題有一個(gè)清晰的了解。今天,物聯(lián)網(wǎng)應(yīng)用在視覺(jué)識(shí)別、預(yù)測(cè)未來(lái)事件和識(shí)別物體方面。
- 下一篇
到2026年,全球非公路車輛遠(yuǎn)程信息處理系統(tǒng)的裝機(jī)量將達(dá)到1220萬(wàn)套
Berg Insight 估計(jì),到 2021 年,全球有源非公路車輛遠(yuǎn)程信息處理系統(tǒng)的裝機(jī)量將達(dá)到 660 萬(wàn)臺(tái)。這包括部署在建筑、采礦、農(nóng)業(yè)和林業(yè)部門的各種非公路車輛上的互聯(lián)單元。在重型