您的數(shù)據(jù)能滿足您的ML/AI計劃嗎?
人工智能的發(fā)展是全球企業(yè)和政府的重中之重。然而,人工智能的一個基本方面仍然被忽視:數(shù)據(jù)質(zhì)量差。
人工智能算法依靠可靠的數(shù)據(jù)來產(chǎn)生最佳結(jié)果——如果數(shù)據(jù)有偏差、不完整、不充分和不準(zhǔn)確,就會導(dǎo)致毀滅性的后果。
識別患者疾病的人工智能系統(tǒng)是一個很好的例子,說明糟糕的數(shù)據(jù)質(zhì)量如何導(dǎo)致不良后果。當(dāng)數(shù)據(jù)不足時,這些系統(tǒng)會產(chǎn)生錯誤的診斷和不準(zhǔn)確的預(yù)測,從而導(dǎo)致誤診和延誤治療。例如,劍橋大學(xué)對用于診斷Covid-19的400多種工具進(jìn)行的一項研究發(fā)現(xiàn),由有缺陷的數(shù)據(jù)集導(dǎo)致由AI生成的報告完全無法使用。
換句話說,如果您的數(shù)據(jù)不夠好,您的AI計劃將對現(xiàn)實世界產(chǎn)生毀滅性的后果。
“足夠好”的數(shù)據(jù)是什么意思?
關(guān)于“足夠好”的數(shù)據(jù)意味著什么存在相當(dāng)大的爭論。有人說不存在足夠好的數(shù)據(jù)。其他人則表示,對良好數(shù)據(jù)的需求會導(dǎo)致分析癱瘓——而HBR則直截了當(dāng)?shù)刂赋?,如果您的信息很糟糕,您的機(jī)器學(xué)習(xí)工具將毫無用處。
在WinPure,我們將足夠好的數(shù)據(jù)定義為“完整、準(zhǔn)確、有效的數(shù)據(jù),可以放心地用于具有可接受風(fēng)險的業(yè)務(wù)流程,其水平取決于個人目標(biāo)和業(yè)務(wù)環(huán)境。”
大多數(shù)公司在數(shù)據(jù)質(zhì)量和治理方面的掙扎比他們承認(rèn)的要多。增加緊張感;他們不堪重負(fù),承受著部署人工智能計劃以保持競爭力的巨大壓力??杀氖?,這意味著像臟數(shù)據(jù)這樣的問題甚至不會成為董事會討論的一部分,直到它導(dǎo)致項目失敗。
糟糕的數(shù)據(jù)如何影響人工智能系統(tǒng)?
當(dāng)算法以訓(xùn)練數(shù)據(jù)為基礎(chǔ)來學(xué)習(xí)模式時,數(shù)據(jù)質(zhì)量問題出現(xiàn)在流程的開始。例如,如果向AI算法提供未經(jīng)過濾的社交媒體數(shù)據(jù),它會拾取濫用、種族主義評論和厭惡女性的言論,如Microsoft的AI機(jī)器人所示。最近,人工智能無法檢測到深色皮膚的人也被認(rèn)為是由于部分?jǐn)?shù)據(jù)所致。
這與數(shù)據(jù)質(zhì)量有何關(guān)系?
缺乏數(shù)據(jù)治理、缺乏數(shù)據(jù)質(zhì)量意識和孤立的數(shù)據(jù)視圖(可能已經(jīng)注意到這種性別差異)導(dǎo)致結(jié)果不佳。
該怎么辦?
當(dāng)企業(yè)意識到他們遇到了數(shù)據(jù)質(zhì)量問題時,他們會對招聘感到恐慌。盲目聘請顧問、工程師和分析師來診斷、清理數(shù)據(jù)并盡快解決問題。不幸的是,在取得任何進(jìn)展之前幾個月過去了,盡管在勞動力上花費(fèi)了數(shù)百萬美元,但問題似乎并沒有消失。對數(shù)據(jù)質(zhì)量問題采取下意識的方法幾乎沒有幫助。
真正的改變從基層開始。
如果您希望您的AI/ML項目朝著正確的方向發(fā)展,請采取以下三個關(guān)鍵步驟。
建立意識并承認(rèn)數(shù)據(jù)質(zhì)量問題
首先,通過建立數(shù)據(jù)素養(yǎng)文化來評估數(shù)據(jù)質(zhì)量。Bill Schmarzo是該行業(yè)的有力代言人,他建議使用設(shè)計思維來創(chuàng)建一種文化,讓每個人都能理解并為組織的數(shù)據(jù)目標(biāo)和挑戰(zhàn)做出貢獻(xiàn)。
在當(dāng)今的業(yè)務(wù)環(huán)境中,數(shù)據(jù)和數(shù)據(jù)質(zhì)量不再是IT或數(shù)據(jù)團(tuán)隊的唯一責(zé)任。業(yè)務(wù)用戶必須意識到臟數(shù)據(jù)問題以及不一致和重復(fù)的數(shù)據(jù)等問題。
因此,首先要做的關(guān)鍵事情是讓數(shù)據(jù)質(zhì)量培訓(xùn)成為一項組織工作,并使團(tuán)隊能夠識別不良數(shù)據(jù)屬性。
這是一個清單,您可以使用它來開始討論您的數(shù)據(jù)質(zhì)量。
數(shù)據(jù)健康檢查表。資料來源:WinPure公司
制定滿足質(zhì)量指標(biāo)的計劃
企業(yè)經(jīng)常犯破壞數(shù)據(jù)質(zhì)量問題的錯誤。他們聘請數(shù)據(jù)分析師來完成日常的數(shù)據(jù)清理任務(wù),而不是專注于計劃和戰(zhàn)略工作。一些企業(yè)在沒有計劃的情況下使用數(shù)據(jù)管理工具來清理、重復(fù)數(shù)據(jù)刪除、合并和清除數(shù)據(jù)。不幸的是,工具和人才不能孤立地解決問題。如果您有滿足數(shù)據(jù)質(zhì)量維度的策略,那將會有所幫助。
該策略必須解決數(shù)據(jù)收集、標(biāo)記、處理以及數(shù)據(jù)是否適合AI/ML項目的問題。例如,如果人工智能招聘計劃只選擇男性候選人擔(dān)任技術(shù)職位,那么該項目的培訓(xùn)數(shù)據(jù)顯然是有偏見的、不完整的(因為它沒有收集到足夠的女性候選人數(shù)據(jù))和不準(zhǔn)確的。因此,這些數(shù)據(jù)不符合人工智能項目的真正目的。
數(shù)據(jù)質(zhì)量超出了清理和修復(fù)的日常任務(wù)。在開始項目之前設(shè)置數(shù)據(jù)完整性和治理標(biāo)準(zhǔn)是最好的。它使項目免于以后失?。?/p>
提出正確的問題并設(shè)置問責(zé)制
對于“足夠好的數(shù)據(jù)或數(shù)據(jù)質(zhì)量水平”沒有通用標(biāo)準(zhǔn)。相反,這一切都取決于您的企業(yè)的信息管理系統(tǒng)、數(shù)據(jù)治理指南(或沒有這些指南),以及您的團(tuán)隊和業(yè)務(wù)目標(biāo)的知識,以及許多其他因素。
在啟動項目之前,有幾個問題要問您的團(tuán)隊:
- 我們信息的來源是什么,數(shù)據(jù)收集的方法是什么?
- 哪些問題會影響數(shù)據(jù)收集過程并威脅積極成果?
- 數(shù)據(jù)傳遞什么信息?它是否符合數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)(即信息準(zhǔn)確、完全可靠和恒定)?
- 指定人員是否意識到數(shù)據(jù)質(zhì)量和低質(zhì)量的重要性?
- 是否定義了角色和職責(zé)?例如,誰需要維護(hù)定期數(shù)據(jù)清理計劃?誰負(fù)責(zé)創(chuàng)建主記錄?
- 數(shù)據(jù)是否符合目的?
提出正確的問題、分配正確的角色、實施數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)并幫助您的團(tuán)隊在問題出現(xiàn)之前應(yīng)對挑戰(zhàn)!
總結(jié)
數(shù)據(jù)質(zhì)量不僅僅是修復(fù)錯別字或錯誤。它確保人工智能系統(tǒng)沒有歧視性、誤導(dǎo)性或不準(zhǔn)確。在啟動AI項目之前,有必要解決數(shù)據(jù)中的缺陷并應(yīng)對數(shù)據(jù)質(zhì)量挑戰(zhàn)。此外,啟動組織范圍內(nèi)的數(shù)據(jù)素養(yǎng)計劃,將每個團(tuán)隊與總體目標(biāo)聯(lián)系起來。
處理、處理和標(biāo)記數(shù)據(jù)的一線員工需要進(jìn)行數(shù)據(jù)質(zhì)量培訓(xùn),以便及時發(fā)現(xiàn)偏差和錯誤。
- 上一篇
什么是物聯(lián)網(wǎng),它如何改變世界?
近年來,物聯(lián)網(wǎng)(IoT)呈上升趨勢,在消費(fèi)者、企業(yè)和政府等機(jī)構(gòu)中變得越來越普遍。物聯(lián)網(wǎng)是指可以通過互聯(lián)網(wǎng)發(fā)送或接收數(shù)據(jù)的任何連接的物理設(shè)備,包括智能手機(jī)、計算機(jī)、揚(yáng)聲器、
- 下一篇
Kubernetes在物聯(lián)網(wǎng)應(yīng)用中的重要性
Kubernetes是一種用于部署云原生應(yīng)用程序的服務(wù)。由于云應(yīng)用程序與我們的物聯(lián)網(wǎng)設(shè)備和產(chǎn)品相關(guān)聯(lián),這就是我們需要使用Kubernetes構(gòu)建物聯(lián)網(wǎng)應(yīng)用程序的地方。由于安全性、延遲