關(guān)于人工智能中數(shù)據(jù)質(zhì)量和數(shù)量的影響的知識(shí)
信不信由你,有“好數(shù)據(jù)”和“壞數(shù)據(jù)”之類的東西——尤其是在人工智能方面。更具體地說(shuō),僅擁有可用數(shù)據(jù)是不夠的:在“有用”和“不那么有用”的數(shù)據(jù)之間有一個(gè)值得區(qū)分的地方。有時(shí),由于收集數(shù)據(jù)的方式或地點(diǎn)、不準(zhǔn)確或偽造的跡象以及其他危險(xiǎn)信號(hào),數(shù)據(jù)必須立即丟棄。其他時(shí)候,可以先處理數(shù)據(jù),然后將其傳遞給人工智能開發(fā)。
仔細(xì)觀察這個(gè)過(guò)程會(huì)發(fā)現(xiàn)我們收集和處理數(shù)據(jù)的能力與我們構(gòu)建更智能的人工智能的能力之間存在共生關(guān)系。數(shù)據(jù)和機(jī)器學(xué)習(xí)都為人工智能提供動(dòng)力,而人工智能反過(guò)來(lái)又提供了更復(fù)雜的機(jī)器學(xué)習(xí)工具。這是一個(gè)完美的系統(tǒng),對(duì)各種類型和規(guī)模的企業(yè)都有影響,更不用說(shuō)統(tǒng)計(jì)學(xué)家和科學(xué)家了。
為什么存在“壞數(shù)據(jù)”而數(shù)量還不夠
為什么在人工智能數(shù)據(jù)方面甚至存在質(zhì)量問(wèn)題?訪問(wèn)大量數(shù)據(jù)還不夠嗎?答案是否定的——這還不夠。這是因?yàn)橐韵乱蛩兀?/p>
- 來(lái)自多個(gè)渠道的海量數(shù)據(jù)
- 數(shù)據(jù)收集地點(diǎn)的地理意義
- 多種文件類型以及結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)
- 基于區(qū)域隱私限制的不可接受的數(shù)據(jù)
- 在市場(chǎng)上購(gòu)買的潛在偽造數(shù)據(jù)
機(jī)器學(xué)習(xí)是開發(fā)人工智能過(guò)程中使用的一種工具。外行對(duì)機(jī)器學(xué)習(xí)的描述涉及收集大量結(jié)構(gòu)化數(shù)據(jù)并使用它來(lái)“訓(xùn)練”人工智能以根據(jù)已知參數(shù)觀察和識(shí)別模式。在機(jī)器學(xué)習(xí)之前,我們大多數(shù)人都認(rèn)為真正的人工智能只能通過(guò)預(yù)先預(yù)見到每一個(gè)潛在可能性的艱苦的逐行編碼來(lái)實(shí)現(xiàn)。我們現(xiàn)在看到這是一個(gè)錯(cuò)誤,原因有很多。
它讓我們回到了這樣一個(gè)想法,即不是每一種數(shù)據(jù),也不是每一個(gè)數(shù)據(jù)源,對(duì)于推動(dòng)人工智能開發(fā)的機(jī)器學(xué)習(xí)算法都是有用的或具有足夠高質(zhì)量的——無(wú)論該人工智能應(yīng)用程序的最終目的是什么。畢竟,當(dāng)涉及到數(shù)據(jù)量時(shí),您很快就會(huì)達(dá)到收益遞減:一個(gè)數(shù)據(jù)集只需要足夠大,就可以真正代表整體。但是首先弄清楚“整體”是什么,這才是機(jī)器學(xué)習(xí)的目的——依賴大量重復(fù)或不準(zhǔn)確的數(shù)據(jù)是構(gòu)建上下文和理解的糟糕方法。
根據(jù)專家的說(shuō)法,編譯一個(gè)大小相等且有用的數(shù)據(jù)存儲(chǔ)需要大量的手動(dòng)工作。來(lái)自數(shù)據(jù)科學(xué)領(lǐng)域的其他見解表明,糟糕的數(shù)據(jù)質(zhì)量是導(dǎo)致 IT 部門投資浪費(fèi)的主要原因,也是導(dǎo)致企業(yè)級(jí)管理工具失去信任的重要來(lái)源,這些工具為業(yè)務(wù)決策提供信息。
所以賭注很高。讓我們更詳細(xì)地了解為什么人工智能和高數(shù)據(jù)質(zhì)量齊頭并進(jìn)。
數(shù)據(jù)質(zhì)量與人工智能之間的關(guān)系是共生的
幾乎所有產(chǎn)品類型的用戶都比以往任何時(shí)候都對(duì)這些產(chǎn)品的制造方式產(chǎn)生了濃厚的興趣。對(duì)于自動(dòng)化軟件、商業(yè)智能平臺(tái)、路線規(guī)劃、地圖和任何其他面向業(yè)務(wù)的人工智能應(yīng)用程序的用戶來(lái)說(shuō),情況大致相同。用戶對(duì)如何產(chǎn)生這些東西有一定的期望——也就是說(shuō),支持這些工具和洞察力的數(shù)據(jù)不是:
- 復(fù)制、偽造或被盜
- 不完整
- 損壞或損壞
- 不一致或難以理解
換句話說(shuō),如果你不能信任汽車中包含不合格材料的組件,你就不能依賴人工智能承諾的分析、分析和洞察力。
因此,在現(xiàn)實(shí)世界條件下提供有意義和可操作的見解的人工智能平臺(tái)的開發(fā)需要高質(zhì)量的數(shù)據(jù)。好消息是,隨著時(shí)間的推移,人工智能反過(guò)來(lái)幫助我們收集和存儲(chǔ)更多有用的數(shù)據(jù)。
首先,想想我們現(xiàn)在作為一個(gè)全球商業(yè)社區(qū)共同交易的所有不同類型的數(shù)據(jù)。您自己的公司可能會(huì)進(jìn)行以下一項(xiàng)或多項(xiàng)交易:
- 有關(guān)實(shí)物資產(chǎn)狀況和位置的數(shù)據(jù)
- 來(lái)自生產(chǎn)車間或其他設(shè)施傳感器的數(shù)據(jù)
- 歷史和實(shí)時(shí)銷售數(shù)據(jù)
- 有關(guān)客戶人口統(tǒng)計(jì)和社會(huì)趨勢(shì)的數(shù)據(jù)
- 來(lái)自現(xiàn)場(chǎng)調(diào)查和客戶研究的地理空間和地理數(shù)據(jù)
- 來(lái)自訂單跟蹤、重新訂購(gòu)和監(jiān)控供應(yīng)水平的數(shù)據(jù)
關(guān)鍵是,現(xiàn)代商業(yè)需要幾乎荒謬的數(shù)據(jù)量。如果還沒(méi)有,您所在行業(yè)的競(jìng)爭(zhēng)力很快將取決于您運(yùn)用更高技術(shù)并幫助您從上面列出的數(shù)據(jù)類型中獲得意義、意圖、方向和洞察力的能力。
因此,我們回到了您的數(shù)據(jù)質(zhì)量。如果告知您已經(jīng)做出的業(yè)務(wù)決策,那么它還必須告知您在更精簡(jiǎn)和更全球化的經(jīng)濟(jì)中競(jìng)爭(zhēng)所需的分析、自動(dòng)化和人工智能工具。
帶回家的例子
一項(xiàng)案例研究證明了為什么數(shù)據(jù)質(zhì)量對(duì)于全球零售市場(chǎng)的機(jī)器學(xué)習(xí)算法至關(guān)重要。
這家零售公司的最終目標(biāo)是通過(guò)更好地管理整個(gè)產(chǎn)品和庫(kù)存數(shù)據(jù)來(lái)降低成本并提高效率。但在此之前,他們需要知道他們所依賴的數(shù)據(jù)是否適合他們的需求。因此,他們使用機(jī)器學(xué)習(xí)來(lái)尋找錯(cuò)誤、遺漏、重復(fù)和異常值。機(jī)器學(xué)習(xí)算法最終使他們大約 30% 的數(shù)據(jù)更準(zhǔn)確,因此更可操作和更有用,只需進(jìn)行小的修正。
科學(xué)和學(xué)術(shù)界的一些人工智能工具也受益于更高質(zhì)量的數(shù)據(jù)。在統(tǒng)計(jì)學(xué)中,梳理數(shù)據(jù)集的錯(cuò)誤是一個(gè)巨大、昂貴和勞動(dòng)密集型的過(guò)程。但是機(jī)器學(xué)習(xí)在“清理”大量數(shù)據(jù)以消除錯(cuò)誤或不完整性方面已經(jīng)證明了比人類統(tǒng)計(jì)學(xué)家更好的結(jié)果。
換句話說(shuō),不僅僅是企業(yè)和商業(yè)從機(jī)器學(xué)習(xí)通過(guò)更好的數(shù)據(jù)和改進(jìn)的數(shù)據(jù)處理技術(shù)為人工智能開發(fā)提供動(dòng)力的方式中受益??茖W(xué)、社會(huì)和人口調(diào)查領(lǐng)域也應(yīng)該及時(shí)發(fā)現(xiàn)自己擁有更好的工具,這一切都?xì)w功于更高質(zhì)量的數(shù)據(jù)。
- 上一篇
增強(qiáng)現(xiàn)實(shí)如何使制造業(yè)受益?
新技術(shù)的開發(fā)速度比以往任何時(shí)候都快——它們的采用速度也比以往任何時(shí)候都快。幾年前,我們中很少有人能預(yù)測(cè)到,2018年的旗艦智能手機(jī)將把增強(qiáng)現(xiàn)實(shí)技術(shù)放到任何地方
- 下一篇
人工智能聊天機(jī)器人可以讓你的醫(yī)生過(guò)時(shí)
想象一個(gè)非常熟悉的場(chǎng)景:凌晨 3 點(diǎn),你用谷歌搜索你的癥狀并自我診斷你的疾病。然后,您必須根據(jù)搜索到的內(nèi)容來(lái)決定是否需要去看醫(yī)生。這是人工智能聊天機(jī)器人發(fā)揮作用的時(shí)代之
相關(guān)資訊
- 智能電網(wǎng)與智慧城市的交叉點(diǎn)在哪
- 通信技術(shù)在智慧城市建設(shè)中的影響
- 網(wǎng)絡(luò)區(qū)塊鏈測(cè)試:保護(hù)去中心化應(yīng)用
- 在數(shù)字營(yíng)銷和內(nèi)容策略中使用人工
- 基于元數(shù)據(jù)構(gòu)建智能化治理平臺(tái)建
- 中小型企業(yè)云安全防范的關(guān)鍵措施
- 數(shù)據(jù)分析技術(shù)證明了MBA的好處
- 數(shù)據(jù)驅(qū)動(dòng)的數(shù)字化轉(zhuǎn)型如何為工程
- 什么是大數(shù)據(jù)分析?
- 物聯(lián)網(wǎng)如何推動(dòng)數(shù)字化轉(zhuǎn)型