如何將數(shù)據(jù)治理應(yīng)用于AI/ML系統(tǒng)
數(shù)據(jù)治理在確保數(shù)據(jù)可用、一致、可信和安全方面發(fā)揮著關(guān)鍵作用。維護(hù)數(shù)據(jù)治理面臨許多挑戰(zhàn),企業(yè)對(duì)AI和ML等系統(tǒng)的投資也加大了。
AI/ML系統(tǒng)的功能與傳統(tǒng)的固定記錄系統(tǒng)不同,目標(biāo)不是返回單個(gè)事務(wù)的值或狀態(tài),相反,AI/ML系統(tǒng)篩選數(shù)PB的數(shù)據(jù),尋找可能是巨大和多方面的查詢(xún)的答案。
此外,數(shù)據(jù)可以來(lái)自許多不同的內(nèi)部和外部來(lái)源,每個(gè)來(lái)源都有自己的收集、管理和存儲(chǔ)數(shù)據(jù)的方式,這可能符合也可能不符合你的企業(yè)的治理標(biāo)準(zhǔn),然后,還有一個(gè)問(wèn)題是確保AI/ML系統(tǒng)在可信數(shù)據(jù)上進(jìn)行訓(xùn)練,以確保準(zhǔn)確性。
這些只是公司及其審計(jì)師在專(zhuān)注于AI/ML的數(shù)據(jù)治理并尋找可以幫助他們的工具時(shí)面臨的部分擔(dān)憂(yōu)。
為什么AI/ML系統(tǒng)需要數(shù)據(jù)治理?
根據(jù)IBM全球AI采用指數(shù)2022,全球AI采用率為35%,在全球一些行業(yè)和國(guó)家普遍存在。這種快速采用AI和ML系統(tǒng)來(lái)推動(dòng)創(chuàng)新和決策的做法,使得底層數(shù)據(jù)的完整性和管理變得至關(guān)重要。
與傳統(tǒng)計(jì)算系統(tǒng)相比,AI和ML系統(tǒng)更加細(xì)致入微,突顯了數(shù)據(jù)治理的重要性。AI/ML系統(tǒng)需要健壯的數(shù)據(jù)治理框架的主要原因有兩個(gè):
動(dòng)態(tài)結(jié)構(gòu):與傳統(tǒng)數(shù)據(jù)系統(tǒng)相比,AI/ML系統(tǒng)是動(dòng)態(tài)的——不斷發(fā)展,并從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)。
數(shù)據(jù)量和多樣性:AI/ML系統(tǒng)的效能與它訓(xùn)練和學(xué)習(xí)的數(shù)據(jù)集的數(shù)量和多樣性成正比。
由于這些因素,如果沒(méi)有嚴(yán)格的治理,AI/ML系統(tǒng)可能會(huì)產(chǎn)生不一致、不準(zhǔn)確甚至有偏見(jiàn)的輸出。
數(shù)據(jù)治理如何與AI/ML系統(tǒng)一起工作?
AI/ML系統(tǒng)旨在同時(shí)和異步處理海量數(shù)據(jù),這意味著同時(shí)將多個(gè)數(shù)據(jù)線(xiàn)程送入處理器,從而實(shí)現(xiàn)更快、更高效的數(shù)據(jù)處理。
然而,這也帶來(lái)了復(fù)雜性,AI/ML系統(tǒng)的主要目標(biāo)是在海量數(shù)據(jù)集中搜索以找到答案,范圍從基于歷史數(shù)據(jù)預(yù)測(cè)未來(lái)趨勢(shì)到識(shí)別電子商務(wù)數(shù)據(jù)中的模式。如果來(lái)自一個(gè)來(lái)源的數(shù)據(jù)被破壞或有偏差,它可能會(huì)影響整體輸出,使結(jié)果不可靠。
因此,將嚴(yán)格的數(shù)據(jù)治理整合到流程中至關(guān)重要,以確保每個(gè)數(shù)據(jù)線(xiàn)索都是準(zhǔn)確的、相關(guān)的和沒(méi)有偏見(jiàn)的。
IT在加快數(shù)據(jù)處理方面的作用
IT部門(mén)在AI/ML數(shù)據(jù)治理流程中發(fā)揮著關(guān)鍵作用,通過(guò)預(yù)處理和剔除不相關(guān)或冗余的數(shù)據(jù),它們可以顯著加快AI/ML系統(tǒng)的數(shù)據(jù)處理時(shí)間,這確保AI/ML模型高效運(yùn)行,并與最相關(guān)和高質(zhì)量的數(shù)據(jù)一起工作。
此外,IT團(tuán)隊(duì)可以實(shí)施工具和協(xié)議來(lái)自動(dòng)化許多治理任務(wù),例如數(shù)據(jù)驗(yàn)證、確保跨數(shù)據(jù)源的一致性以及監(jiān)控潛在的安全漏洞。
實(shí)施AI/ML系統(tǒng)的數(shù)據(jù)治理面臨的挑戰(zhàn)
AI/ML系統(tǒng)的數(shù)據(jù)集成和管理帶來(lái)了企業(yè)需要應(yīng)對(duì)的幾個(gè)數(shù)據(jù)治理挑戰(zhàn)。
集成來(lái)自多個(gè)源的數(shù)據(jù)
當(dāng)企業(yè)從多個(gè)來(lái)源收集數(shù)據(jù)時(shí),每個(gè)來(lái)源都有自己的治理標(biāo)準(zhǔn),確保一致性成為一個(gè)重大障礙。這種多樣性可能導(dǎo)致數(shù)據(jù)不匹配、冗余和不準(zhǔn)確。
數(shù)據(jù)必須協(xié)調(diào)一致,以提供對(duì)目標(biāo)至關(guān)重要的全面觀(guān)點(diǎn),將數(shù)據(jù)整合成統(tǒng)一的格式是一個(gè)復(fù)雜的過(guò)程,涉及清理、轉(zhuǎn)換和標(biāo)準(zhǔn)化。
為了避免有缺陷的模型,確保AI/ML系統(tǒng)使用的海量數(shù)據(jù)集準(zhǔn)確和相關(guān)是至關(guān)重要的。
信任建議
一些AI/ML模型的訓(xùn)練數(shù)據(jù)是保密的,使得企業(yè)很難完全信任和理解這些系統(tǒng)提供的建議。如果不了解決策是如何做出的,就存在誤解或誤用的風(fēng)險(xiǎn)。
例如,AI/ML模型有時(shí)會(huì)反映或放大數(shù)據(jù)中的偏差。根據(jù)Obermeyer等人的一項(xiàng)研究,一種使用醫(yī)療成本作為健康需求代理的算法,將比其他白人患者病情更重的黑人患者分配給相同水平的健康風(fēng)險(xiǎn)。
了解模型使用了哪些訓(xùn)練數(shù)據(jù),并實(shí)施了嚴(yán)格的數(shù)據(jù)治理,有助于識(shí)別和糾正這些偏差,確保模型結(jié)果的公平性。
維護(hù)數(shù)據(jù)質(zhì)量
由于AI/ML系統(tǒng)嚴(yán)重依賴(lài)高質(zhì)量的數(shù)據(jù),因此確保數(shù)據(jù)干凈、準(zhǔn)確和最新至關(guān)重要,糟糕的數(shù)據(jù)質(zhì)量可能導(dǎo)致錯(cuò)誤的模型預(yù)測(cè)和洞察。
例如,糟糕的數(shù)據(jù)質(zhì)量可能會(huì)導(dǎo)致預(yù)測(cè)中的偏差。亞馬遜停產(chǎn)的招聘模式是另一個(gè)很好的例子,2014年,機(jī)器學(xué)習(xí)系統(tǒng)經(jīng)過(guò)訓(xùn)練,對(duì)女性求職者產(chǎn)生了偏見(jiàn)。
對(duì)AI/ML系統(tǒng)實(shí)施數(shù)據(jù)治理可確保使用的數(shù)據(jù)始終具有最高質(zhì)量,這有助于消除任何偏見(jiàn)或不準(zhǔn)確。
數(shù)據(jù)安全和隱私
處理大量已處理的數(shù)據(jù)需要在保護(hù)敏感信息和遵守法規(guī)方面保持警惕,更大的數(shù)據(jù)量伴隨著更高的安全和合規(guī)風(fēng)險(xiǎn),這要求遵守許多跨境的不同數(shù)據(jù)隱私和保護(hù)法律。
數(shù)據(jù)安全方面的疏忽可能會(huì)產(chǎn)生可怕的后果,例如未經(jīng)授權(quán)的訪(fǎng)問(wèn)、數(shù)據(jù)篡改和入侵,它還可能破壞人們對(duì)AI系統(tǒng)的信任,并導(dǎo)致法律后果,損害公司的聲譽(yù),并通過(guò)銷(xiāo)售額下降或監(jiān)管罰款導(dǎo)致財(cái)務(wù)損失。
數(shù)據(jù)治理政策主動(dòng)確保數(shù)據(jù)安全符合數(shù)據(jù)保護(hù)法規(guī),采用加密方法,并通過(guò)審計(jì)定期監(jiān)控?cái)?shù)據(jù)訪(fǎng)問(wèn)。
如何將數(shù)據(jù)治理應(yīng)用于AI/ML系統(tǒng)
AI/ML中的數(shù)據(jù)治理的未來(lái)不僅是管理數(shù)據(jù),而且還確保負(fù)責(zé)任和有效地利用數(shù)據(jù)。隨著AI/ML的發(fā)展,穩(wěn)健的數(shù)據(jù)治理的重要性也在不斷發(fā)展,企業(yè)必須具有主動(dòng)性、適應(yīng)性,并配備正確的工具來(lái)駕馭這一領(lǐng)域。
確保數(shù)據(jù)的一致性和準(zhǔn)確性
在集成來(lái)自?xún)?nèi)部和外部事務(wù)系統(tǒng)的數(shù)據(jù)時(shí),數(shù)據(jù)應(yīng)該標(biāo)準(zhǔn)化,以便它可以與來(lái)自其他來(lái)源的數(shù)據(jù)進(jìn)行通信和混合。許多系統(tǒng)中預(yù)置的應(yīng)用程序編程接口有助于實(shí)現(xiàn)這一點(diǎn),因此它們可以與其他系統(tǒng)交換數(shù)據(jù)。如果沒(méi)有可用的API,企業(yè)可以使用ETL工具,這些工具可以將數(shù)據(jù)從一個(gè)系統(tǒng)傳輸?shù)搅硪粋€(gè)系統(tǒng)可以讀取的格式。
在添加非結(jié)構(gòu)化數(shù)據(jù)(如照片、視頻和聲音對(duì)象)時(shí),可以使用對(duì)象鏈接工具將這些對(duì)象彼此鏈接和關(guān)聯(lián)。對(duì)象鏈接器的一個(gè)很好的例子是地理信息系統(tǒng),它將照片、示意圖和其他類(lèi)型的數(shù)據(jù)結(jié)合在一起,為特定環(huán)境提供完整的地理環(huán)境。
確認(rèn)數(shù)據(jù)可用
我們通常認(rèn)為可用的數(shù)據(jù)是用戶(hù)可以訪(fǎng)問(wèn)的數(shù)據(jù),但它不止于此。如果數(shù)據(jù)因?yàn)檫^(guò)時(shí)而失去了價(jià)值,那么它應(yīng)該被清除,也就是說(shuō),IT和企業(yè)用戶(hù)必須就何時(shí)應(yīng)該清除數(shù)據(jù)達(dá)成一致,這將以數(shù)據(jù)保留政策的形式出現(xiàn)。
還有其他應(yīng)該清除AI/ML數(shù)據(jù)的情況,當(dāng)AI的數(shù)據(jù)模型發(fā)生更改,并且數(shù)據(jù)不再適合該模型時(shí),就會(huì)發(fā)生這種情況。
在AI/ML治理審計(jì)中,審查員將期望看到這兩種類(lèi)型的數(shù)據(jù)清除的書(shū)面政策和程序,他們還將檢查數(shù)據(jù)清除做法是否符合行業(yè)標(biāo)準(zhǔn)。為了跟上這些標(biāo)準(zhǔn)和做法,企業(yè)應(yīng)該考慮投資于數(shù)據(jù)清除工具和實(shí)用程序。
確保數(shù)據(jù)可信
情況會(huì)變的,曾經(jīng)非常有效的AI/ML系統(tǒng)可能會(huì)開(kāi)始失去效力,這就是所謂的模型漂移,這可以通過(guò)定期檢查AI/ML結(jié)果與過(guò)去的表現(xiàn)和世界上正在發(fā)生的事情來(lái)確認(rèn)。如果AI/ML系統(tǒng)的準(zhǔn)確性偏離當(dāng)前數(shù)據(jù),那么修復(fù)它是必不可少的。
數(shù)據(jù)科學(xué)家可以使用AI/ML工具來(lái)衡量模型漂移,但商業(yè)專(zhuān)業(yè)人士檢查漂移的最直接方法是將AI/ML系統(tǒng)性能與歷史性能進(jìn)行交叉比較。
用于AL/ML系統(tǒng)的數(shù)據(jù)治理工具
為了應(yīng)對(duì)在AI/ML系統(tǒng)中實(shí)施數(shù)據(jù)治理的挑戰(zhàn),企業(yè)可以投資于數(shù)據(jù)治理工具,以下是一些頂級(jí)工具:
ColLibra:適用于全面數(shù)據(jù)管理和治理的整體數(shù)據(jù)治理平臺(tái)。
Informatica:以數(shù)據(jù)集成而聞名,它是集成來(lái)自多個(gè)來(lái)源的數(shù)據(jù)的理想選擇。
Alation:使用ML自動(dòng)化數(shù)據(jù)發(fā)現(xiàn)和編目。
ERWIN:提供數(shù)據(jù)建模功能,幫助企業(yè)了解其數(shù)據(jù)環(huán)境。
OneTrust:強(qiáng)調(diào)數(shù)據(jù)合規(guī)性,幫助企業(yè)遵守法規(guī)。
SAP主數(shù)據(jù)治理:為企業(yè)提供強(qiáng)大的數(shù)據(jù)處理和治理。
- 上一篇
大數(shù)據(jù)管理面臨的挑戰(zhàn)及其解決方案
大數(shù)據(jù)管理面臨的主要障礙與組織、技術(shù)和運(yùn)營(yíng)限制有關(guān),例如缺乏基礎(chǔ)設(shè)施或熟練人員。讓我們將這些障礙解構(gòu)為可管理、易于理解的問(wèn)題,并提供具體的解決方案。
- 下一篇
云和生成式人工智能未來(lái)趨勢(shì)
云技術(shù)和生成式人工智能在當(dāng)前動(dòng)態(tài)商業(yè)環(huán)境中起到關(guān)鍵作用,尤其是云遷移,提供了廣泛的好處,其中數(shù)據(jù)安全是這一變革之旅的關(guān)鍵優(yōu)勢(shì)??贫鲝?qiáng)調(diào),在當(dāng)今不斷發(fā)展的商業(yè)環(huán)境中,云技術(shù)和生成式人工智能是推動(dòng)業(yè)務(wù)成功和差異化不可或缺的支柱。
相關(guān)資訊
- 數(shù)字孿生能為電力供應(yīng)做點(diǎn)什么?
- 探索未來(lái)的教育科技發(fā)展趨勢(shì)
- 如何在日益數(shù)字化的工作環(huán)境中保
- 智能建筑和建筑技術(shù)的未來(lái)
- 放射科醫(yī)生將從人工智能中獲益
- 智慧城市推動(dòng)5G物聯(lián)網(wǎng)市場(chǎng)蓬勃發(fā)
- 人工智能能否在物聯(lián)網(wǎng)應(yīng)用中提供
- 數(shù)字化轉(zhuǎn)型如何助力油氣行業(yè)進(jìn)入
- 物聯(lián)網(wǎng)項(xiàng)目成功的企業(yè)有哪些特質(zhì)
- 關(guān)于數(shù)字化轉(zhuǎn)型戰(zhàn)略你需要知道的