什么是數(shù)據(jù)增強(qiáng)?
對于尋求實(shí)施機(jī)器學(xué)習(xí)解決方案的公司而言,最常見的挑戰(zhàn)之一是數(shù)據(jù)不足。收集它通常既費(fèi)錢又費(fèi)時。同時,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的性能高度依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量、數(shù)量和相關(guān)性。
這就是數(shù)據(jù)增強(qiáng)的用武之地。
數(shù)據(jù)增強(qiáng)可以定義為一組人為增加數(shù)據(jù)量的技術(shù)。這些技術(shù)從現(xiàn)有數(shù)據(jù)生成新的數(shù)據(jù)點(diǎn),并且可以包括對數(shù)據(jù)進(jìn)行小的改動或使用深度學(xué)習(xí)模型生成新數(shù)據(jù)。
數(shù)據(jù)擴(kuò)充的重要性
在過去幾年中,數(shù)據(jù)增強(qiáng)技術(shù)一直在穩(wěn)步普及。這有幾個原因。其一,它提高了機(jī)器學(xué)習(xí)模型的性能并導(dǎo)致了更多樣化的數(shù)據(jù)集。
許多深度學(xué)習(xí)應(yīng)用程序,如對象檢測、圖像分類、圖像識別、自然語言理解和語義分割,都依賴于數(shù)據(jù)增強(qiáng)方法。通過生成新的和多樣化的訓(xùn)練數(shù)據(jù)集,深度學(xué)習(xí)模型的性能和結(jié)果得到改善。
數(shù)據(jù)擴(kuò)充還降低了與數(shù)據(jù)收集相關(guān)的運(yùn)營成本。例如,數(shù)據(jù)標(biāo)記和收集對公司來說既費(fèi)時又昂貴,因此他們依靠通過數(shù)據(jù)增強(qiáng)技術(shù)轉(zhuǎn)換數(shù)據(jù)集來降低成本。
準(zhǔn)備數(shù)據(jù)模型的主要步驟之一是清理數(shù)據(jù),這會產(chǎn)生高精度模型。這種清理過程會降低數(shù)據(jù)的可表示性,使模型無法提供良好的預(yù)測。數(shù)據(jù)增強(qiáng)技術(shù)可用于通過創(chuàng)建模型在現(xiàn)實(shí)世界中可能遇到的變化來幫助機(jī)器學(xué)習(xí)模型更加穩(wěn)健。
數(shù)據(jù)增強(qiáng)如何工作?
數(shù)據(jù)增強(qiáng)通常用于圖像分類和分割。對視覺數(shù)據(jù)進(jìn)行更改是很常見的,生成對抗網(wǎng)絡(luò) (GAN) 用于創(chuàng)建合成數(shù)據(jù)。用于數(shù)據(jù)增強(qiáng)的一些經(jīng)典圖像處理活動包括填充、隨機(jī)旋轉(zhuǎn)、垂直和水平翻轉(zhuǎn)、重新縮放、平移、裁剪、縮放、更改對比度等。
有一些用于數(shù)據(jù)擴(kuò)充的高級模型:
- 生成對抗網(wǎng)絡(luò) (GAN):GAN 有助于從輸入數(shù)據(jù)集中學(xué)習(xí)模式,并自動為訓(xùn)練數(shù)據(jù)創(chuàng)建新示例。
- 神經(jīng)風(fēng)格遷移:這些模型混合了內(nèi)容圖像和風(fēng)格圖像,以及將風(fēng)格與內(nèi)容分開。
- 強(qiáng)化學(xué)習(xí):這些模型訓(xùn)練代理人在虛擬環(huán)境中完成目標(biāo)并做出決策。
數(shù)據(jù)增強(qiáng)的另一個主要應(yīng)用是自然語言處理(NLP)。由于語言是如此復(fù)雜,因此擴(kuò)充文本數(shù)據(jù)可能極具挑戰(zhàn)性。
NLP 數(shù)據(jù)增強(qiáng)有幾種主要方法,包括簡單的數(shù)據(jù)增強(qiáng) (EDA) 操作,如同義詞替換、單詞插入和單詞交換。另一種常見的方法是反向翻譯,它涉及將文本從目標(biāo)語言重新翻譯回原始語言。
數(shù)據(jù)擴(kuò)充的好處和局限性
重要的是要注意數(shù)據(jù)擴(kuò)充既有好處也有局限性。
就收益而言,數(shù)據(jù)增強(qiáng)可以通過添加更多訓(xùn)練數(shù)據(jù)、防止數(shù)據(jù)稀缺、減少數(shù)據(jù)過擬合、增加泛化以及解決分類中的類別不平衡問題來提高模型預(yù)測準(zhǔn)確性。
數(shù)據(jù)增強(qiáng)還可以降低與收集和標(biāo)記數(shù)據(jù)相關(guān)的成本,實(shí)現(xiàn)罕見事件預(yù)測,并加強(qiáng)數(shù)據(jù)隱私。
同時,數(shù)據(jù)增強(qiáng)的局限性包括增強(qiáng)數(shù)據(jù)集質(zhì)量保證的高成本。它還涉及大量研究和開發(fā),以構(gòu)建具有高級應(yīng)用程序的合成數(shù)據(jù)。
如果您使用 GAN 等數(shù)據(jù)增強(qiáng)技術(shù),驗(yàn)證可能會很困難。如果原始數(shù)據(jù)在增強(qiáng)數(shù)據(jù)中持續(xù)存在,那么解決原始數(shù)據(jù)的固有偏差也具有挑戰(zhàn)性。
數(shù)據(jù)增強(qiáng)用例
數(shù)據(jù)增強(qiáng)是人工增加訓(xùn)練 AI 模型的數(shù)據(jù)量的最流行方法之一,它被廣泛應(yīng)用于各個領(lǐng)域和行業(yè)。
利用數(shù)據(jù)增強(qiáng)功能的兩個最突出的行業(yè)是自動駕駛汽車和醫(yī)療保?。?/p>
- 自動駕駛汽車:數(shù)據(jù)增強(qiáng)對于自動駕駛汽車的發(fā)展很重要。使用強(qiáng)化學(xué)習(xí)機(jī)制構(gòu)建的模擬環(huán)境有助于訓(xùn)練和測試數(shù)據(jù)稀缺的 AI 系統(tǒng)??梢愿鶕?jù)特定要求對仿真環(huán)境進(jìn)行建模,以生成真實(shí)示例。
- 醫(yī)療保健:醫(yī)療保健行業(yè)也使用數(shù)據(jù)增強(qiáng)。通常,患者的數(shù)據(jù)不能用于訓(xùn)練模型,這意味著很多數(shù)據(jù)在訓(xùn)練中被過濾掉了。在其他情況下,沒有足夠的特定疾病數(shù)據(jù),因此可以使用現(xiàn)有疾病的變體來擴(kuò)充數(shù)據(jù)。
如何擴(kuò)充數(shù)據(jù)
如果您希望擴(kuò)充數(shù)據(jù),則應(yīng)首先確定數(shù)據(jù)中的差距。例如,這可能涉及尋找缺失的人口統(tǒng)計(jì)信息。所有活動還應(yīng)該支持貴公司的使命,因此根據(jù)信息如何推進(jìn)使命來確定差距的優(yōu)先級非常重要。
下一步是確定您將從何處獲取丟失的數(shù)據(jù),例如通過第三方數(shù)據(jù)集。在評估數(shù)據(jù)時,您應(yīng)該考慮成本、完整性以及集成所需的復(fù)雜程度和工作量。
數(shù)據(jù)擴(kuò)充可能需要時間,因此規(guī)劃好時間和資源非常重要。許多第三方數(shù)據(jù)源需要投資。計(jì)劃如何收集和獲取數(shù)據(jù)也很重要,并且應(yīng)該評估數(shù)據(jù)的投資回報(bào)率。
最后一步是確定數(shù)據(jù)的存儲位置,這可能涉及將其添加到您的 AMS 或其他系統(tǒng)中的字段。
當(dāng)然,這只是數(shù)據(jù)擴(kuò)充過程的一個基本輪廓。實(shí)際過程將包含更多內(nèi)容,這就是為什么擁有一支由數(shù)據(jù)科學(xué)家和其他專家組成的裝備精良的團(tuán)隊(duì)至關(guān)重要的原因。但是通過規(guī)劃和執(zhí)行數(shù)據(jù)擴(kuò)充過程,您可以確保您的組織擁有最好的數(shù)據(jù)來進(jìn)行準(zhǔn)確的預(yù)測。
- 上一篇
工業(yè)物聯(lián)網(wǎng)簡史
工業(yè)物聯(lián)網(wǎng)的歷史有三個不同的技術(shù)發(fā)展故事:網(wǎng)絡(luò)連接、處理和存儲能力,以及傳感器和執(zhí)行器。如果能了解每一項(xiàng)核心技術(shù)的發(fā)展時間表,將能準(zhǔn)確了解相應(yīng)時代工業(yè)環(huán)境中使用的連接設(shè)備的能力。
- 下一篇
數(shù)據(jù)合規(guī)性和數(shù)據(jù)隱私之間有什么區(qū)別?
在部署任何保存客戶或用戶數(shù)據(jù)的應(yīng)用程序時,數(shù)據(jù)合規(guī)性和數(shù)據(jù)隱私都是需要考慮的重要領(lǐng)域。然而,這兩個數(shù)據(jù)管理領(lǐng)域有時會被誤解。本文將闡明數(shù)據(jù)合規(guī)性和數(shù)據(jù)隱私之間的區(qū)別