數(shù)據(jù)質(zhì)量在人工智能實(shí)施中的重要性
人工智能和機(jī)器學(xué)習(xí)技術(shù)可以顯著造福各種規(guī)模的行業(yè)。根據(jù)麥肯錫的一份報告,到2030年,采用人工智能技術(shù)的企業(yè)的現(xiàn)金流將翻一番。相反,不部署人工智能的企業(yè)的現(xiàn)金流將減少20%。然而,這些好處超越了財務(wù)。人工智能可以幫助企業(yè)應(yīng)對勞動力短缺。人工智能還顯著改善了客戶體驗(yàn)和業(yè)務(wù)成果,使業(yè)務(wù)更加可靠。
既然人工智能有這么多優(yōu)勢,為什么不是每個人都采用人工智能呢?2019年,普華永道的一項(xiàng)調(diào)查顯示,76%的公司計(jì)劃使用AI來提高其業(yè)務(wù)價值。然而,只有微薄的15%可以訪問高質(zhì)量的數(shù)據(jù)來實(shí)現(xiàn)他們的業(yè)務(wù)目標(biāo)。Refinitiv的另一項(xiàng)研究表明,66%的受訪者表示低質(zhì)量數(shù)據(jù)會損害他們有效部署和采用AI的能力。
調(diào)查發(fā)現(xiàn),使用機(jī)器學(xué)習(xí)和人工智能技術(shù)的三大挑戰(zhàn)圍繞著——“關(guān)于數(shù)據(jù)的覆蓋范圍、歷史和數(shù)量的準(zhǔn)確信息”、“識別不完整或損壞的記錄”以及“清理和規(guī)范化數(shù)據(jù)”。數(shù)據(jù)。”這表明質(zhì)量差的數(shù)據(jù)是企業(yè)獲得高質(zhì)量人工智能分析的主要障礙。
為什么數(shù)據(jù)如此重要?
數(shù)據(jù)質(zhì)量在人工智能實(shí)施中至關(guān)重要的原因有很多。以下是一些最重要的:
1.垃圾進(jìn)出
很容易理解輸出在很大程度上取決于輸入。在這種情況下,如果數(shù)據(jù)集充滿錯誤或有偏差,結(jié)果也會讓你走錯路。大多數(shù)與數(shù)據(jù)相關(guān)的問題不一定與數(shù)據(jù)量有關(guān),而是與您輸入AI模型的數(shù)據(jù)質(zhì)量有關(guān)。如果您擁有低質(zhì)量的數(shù)據(jù),那么您的AI模型將無法正常工作,無論它們有多好。
2.并非所有人工智能系統(tǒng)都是平等的
當(dāng)我們想到數(shù)據(jù)集時,我們通常會從定量數(shù)據(jù)的角度來思考。但也有視頻、個人訪談、觀點(diǎn)、圖片等形式的定性數(shù)據(jù)。在人工智能系統(tǒng)中,定量數(shù)據(jù)集是結(jié)構(gòu)化的,而定性數(shù)據(jù)集是非結(jié)構(gòu)化的。并非所有AI模型都可以處理這兩種數(shù)據(jù)集。因此,為合適的模型選擇正確的數(shù)據(jù)類型對于獲得預(yù)期的輸出至關(guān)重要。
3.質(zhì)量與數(shù)量
人們認(rèn)為,人工智能系統(tǒng)需要攝取大量數(shù)據(jù)才能從中學(xué)習(xí)。在關(guān)于質(zhì)量與數(shù)量的辯論中,公司通常更喜歡后者。但是,如果數(shù)據(jù)集是高質(zhì)量但本質(zhì)上更短的,它將為您提供一些保證,即輸出是相關(guān)且穩(wěn)健的。
4.好數(shù)據(jù)集的特征
一個好的數(shù)據(jù)集的特征可能是主觀的,主要取決于人工智能所服務(wù)的應(yīng)用程序。但是,在分析數(shù)據(jù)集時必須尋找一些一般特征。
- 完整性:數(shù)據(jù)集必須完整,數(shù)據(jù)集中沒有空網(wǎng)格或空點(diǎn)。每個單元格中都應(yīng)該有一個數(shù)據(jù)片段。
- 全面性:數(shù)據(jù)集應(yīng)該盡可能全面。例如,如果您正在尋找網(wǎng)絡(luò)威脅向量,那么您必須擁有所有簽名配置文件和所有必要信息。
- 一致性:數(shù)據(jù)集必須適合分配給它們的明確變量。例如,如果您正在對包裝盒進(jìn)行建模,則您選擇的變量(塑料、紙張、紙板等)必須具有適當(dāng)?shù)亩▋r數(shù)據(jù)才能屬于這些明確的類別。
- 準(zhǔn)確性:準(zhǔn)確性是良好數(shù)據(jù)集的關(guān)鍵。您提供給AI模型的所有信息都必須可靠且完全準(zhǔn)確。如果您的數(shù)據(jù)集的大部分不正確,您的輸出也將不準(zhǔn)確。
- 唯一性:這點(diǎn)類似于一致性。每個數(shù)據(jù)點(diǎn)對于它所服務(wù)的變量必須是唯一的。例如,您不希望將塑料包裝的價格歸入任何其他包裝類別。
確保數(shù)據(jù)質(zhì)量
確保數(shù)據(jù)質(zhì)量高的方法有很多,例如確保數(shù)據(jù)源可信。以下是一些確保您為AI模型獲得最佳質(zhì)量數(shù)據(jù)的最佳技術(shù):
1.數(shù)據(jù)分析
數(shù)據(jù)分析對于在使用數(shù)據(jù)之前理解數(shù)據(jù)至關(guān)重要。數(shù)據(jù)剖析提供對值分布、最大值、最小值、平均值和異常值的洞察。此外,它有助于格式化數(shù)據(jù)中的不一致。數(shù)據(jù)分析有助于了解數(shù)據(jù)集是否可用。
2.評估數(shù)據(jù)質(zhì)量
使用預(yù)建數(shù)據(jù)質(zhì)量規(guī)則的中央庫,您可以使用中央庫驗(yàn)證任何數(shù)據(jù)集。如果您有一個帶有內(nèi)置數(shù)據(jù)工具的數(shù)據(jù)目錄,您可以簡單地重復(fù)使用這些規(guī)則來驗(yàn)證客戶姓名、電子郵件和產(chǎn)品代碼。此外,您還可以豐富和標(biāo)準(zhǔn)化一些數(shù)據(jù)。
3.監(jiān)測和評估數(shù)據(jù)質(zhì)量
科學(xué)家為他們想要使用的大多數(shù)數(shù)據(jù)集預(yù)先計(jì)算了數(shù)據(jù)質(zhì)量。他們可以縮小范圍以查看屬性具有哪些特定問題,然后決定是否使用該屬性。
4.數(shù)據(jù)準(zhǔn)備
研究人員和科學(xué)家通常需要稍微調(diào)整數(shù)據(jù),以便為AI建模做好準(zhǔn)備。這些研究人員需要易于使用的工具來解析屬性、轉(zhuǎn)置列并從數(shù)據(jù)中計(jì)算值。
人工智能的世界在不斷變化。雖然每家公司都以不同的方式使用數(shù)據(jù),但數(shù)據(jù)質(zhì)量對于任何AI實(shí)施項(xiàng)目來說仍然是必不可少的。如果您擁有可靠、優(yōu)質(zhì)的數(shù)據(jù),您就無需大量數(shù)據(jù)集并增加成功的機(jī)會。與所有其他組織一樣,如果您的組織正在轉(zhuǎn)向AI實(shí)施,請檢查您是否擁有高質(zhì)量的數(shù)據(jù)。確保您的來源值得信賴并進(jìn)行盡職調(diào)查,以檢查它們是否符合您的數(shù)據(jù)要求。
- 上一篇
什么是大數(shù)據(jù)分析?
“大數(shù)據(jù)”似乎是我們?yōu)楝F(xiàn)代生活提供動力的方式的一個簡單術(shù)語,但它遠(yuǎn)比它所暗示的要復(fù)雜得多。從本質(zhì)上講,它是我們用來制定決策、訓(xùn)練模型、增強(qiáng)面向公眾的技術(shù)等
- 下一篇
入侵和攻擊模擬在數(shù)據(jù)保護(hù)中扮演什么角色?
數(shù)據(jù)安全和網(wǎng)絡(luò)安全通常被視為兩個相互獨(dú)立的領(lǐng)域。實(shí)際上,它們是同一枚硬幣的兩個面。兩者都在保護(hù)組織內(nèi)流通的信息方面發(fā)揮著重要作用。網(wǎng)絡(luò)安全專注于改進(jìn)保護(hù)公司(和信息