機(jī)器學(xué)習(xí)生命周期的步驟
如果您在過(guò)去幾年一直在考慮機(jī)器學(xué)習(xí),那么您不是唯一的人。這是一項(xiàng)大業(yè)務(wù),可以對(duì)公司的績(jī)效產(chǎn)生重大影響,提供急需的競(jìng)爭(zhēng)優(yōu)勢(shì)。
統(tǒng)計(jì)數(shù)據(jù)證明了這一點(diǎn)。例如,根據(jù)Markets and Markets 的數(shù)據(jù),到 2027 年,全球 ML 市場(chǎng)的價(jià)值預(yù)計(jì)將超過(guò) 1150 億美元,而 AI 和 ML 的進(jìn)步將使全球 GDP 從 2019 年到 2030 年增加 14%。此外,Netflix 表示,它已經(jīng)能夠通過(guò)使用機(jī)器學(xué)習(xí)節(jié)省 10 億美元。現(xiàn)在我們知道為什么 ML 是必不可少的;在繼續(xù)討論 ML 生命周期的七個(gè)步驟之前,讓我們快速回顧一下機(jī)器學(xué)習(xí)到底是什么。
什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)是人工智能的一個(gè)子集,旨在通過(guò)使用數(shù)據(jù)、算法和人工智能來(lái)模仿人類(lèi)的學(xué)習(xí)方式,隨著時(shí)間的推移慢慢提高準(zhǔn)確性。
例如,Netflix 使用機(jī)器學(xué)習(xí)為其推薦算法提供支持,利用它可以訪問(wèn)的大量觀看數(shù)據(jù)并處理這些數(shù)字,以向人們展示其他類(lèi)似用戶(hù)喜歡的內(nèi)容。
要使機(jī)器學(xué)習(xí)發(fā)揮作用,您需要一個(gè)強(qiáng)大的模型并訪問(wèn)大量數(shù)據(jù)。大多數(shù) ML 算法還可以訪問(wèn)輸入信息的閘門(mén),并且隨著更多數(shù)據(jù)的輸入,它們可以做得更好。
機(jī)器學(xué)習(xí)具有大量潛在應(yīng)用,從提供個(gè)性化醫(yī)療保健到為自動(dòng)駕駛汽車(chē)和智慧城市提供動(dòng)力。機(jī)器學(xué)習(xí)在每個(gè)行業(yè)都有應(yīng)用,所以問(wèn)題不是您的公司是否可以從中受益,而是它是否可以在您的利基市場(chǎng)中率先這樣做。
現(xiàn)在,是時(shí)候讓我們看一下機(jī)器學(xué)習(xí)的生命周期了。這個(gè)有七個(gè)步驟,前幾個(gè)步驟是最激烈的,所以堅(jiān)持到最后。
七個(gè)步驟
1.收集數(shù)據(jù)
任何 ML 活動(dòng)的第一步都是開(kāi)始收集數(shù)據(jù)。畢竟,如果您沒(méi)有任何數(shù)據(jù),您的機(jī)器學(xué)習(xí)模型將無(wú)法處理任何內(nèi)容。我們可以將數(shù)據(jù)收集分為三個(gè)進(jìn)一步的階段:
1. 確定數(shù)據(jù)源
在開(kāi)始收集任何數(shù)據(jù)之前,您需要知道要從哪里獲取數(shù)據(jù)。根據(jù)您正在構(gòu)建的模型類(lèi)型,您可能會(huì)發(fā)現(xiàn)自己在使用自己的專(zhuān)有數(shù)據(jù)、訪問(wèn)公共數(shù)據(jù)(例如通過(guò)社交網(wǎng)站)或兩者兼而有之。同樣值得考慮的是您是需要顯式數(shù)據(jù)(人們專(zhuān)門(mén)提供)還是隱式數(shù)據(jù)(根據(jù)人們的瀏覽習(xí)慣和活動(dòng)識(shí)別)。
2. 收集數(shù)據(jù)
既然您知道數(shù)據(jù)源是什么以及要捕獲的數(shù)據(jù)類(lèi)型,下一步就是開(kāi)始收集數(shù)據(jù)。您需要確保從正確的來(lái)源收集正確的數(shù)據(jù),這是上一步的用武之地。不要擔(dān)心整理數(shù)據(jù),因?yàn)槟菚?huì)晚一點(diǎn)。
3.整合數(shù)據(jù)
下一步是將您收集的數(shù)據(jù)與您的工作流程集成,并最終與您的機(jī)器學(xué)習(xí)模型集成。這可能意味著將數(shù)據(jù)導(dǎo)入您的專(zhuān)有數(shù)據(jù)庫(kù)或使用 API 設(shè)置來(lái)自第三方來(lái)源的自動(dòng)數(shù)據(jù)源。
2.準(zhǔn)備數(shù)據(jù)
現(xiàn)在您已經(jīng)確定了您的數(shù)據(jù)源,收集了它們并將它們集成到您的系統(tǒng)中,下一步是準(zhǔn)備它以便模型準(zhǔn)備好開(kāi)始使用它。這個(gè)過(guò)程有四個(gè)步驟:
1.數(shù)據(jù)探索
首先,您需要查看您擁有的數(shù)據(jù),以便了解它的完整性以及需要做多少工作才能使其適合您的用途。
這也是您確定在接下來(lái)的兩個(gè)步驟中將采用的方法的地方,以確保您已為算法準(zhǔn)備好一切。
2. 數(shù)據(jù)預(yù)處理
預(yù)處理涉及清理可能存在的任何格式,并去除數(shù)據(jù)中的空白條目和其他異常元素。
我們談?wù)摰氖悄梢栽谡麄€(gè)數(shù)據(jù)集中執(zhí)行的操作,以使其為進(jìn)一步處理做好準(zhǔn)備,而不是專(zhuān)注于任何單個(gè)條目。
3. 數(shù)據(jù)整理
有了這些,您就可以處理個(gè)人記錄了。數(shù)據(jù)整理要求您手動(dòng)瀏覽您擁有的數(shù)據(jù),并更新任何需要更新的數(shù)據(jù),以便您的公司能夠處理它。
您也可以在這里對(duì)數(shù)據(jù)進(jìn)行任何更改,以使其對(duì)您構(gòu)建的模型具有可讀性和易于處理性。
4. 分析數(shù)據(jù)
到目前為止,您的數(shù)據(jù)應(yīng)該處于非常好的狀態(tài),因此下一步是讓您仔細(xì)查看您擁有的數(shù)據(jù)并對(duì)其進(jìn)行分析,以確定您將如何處理它并構(gòu)建您的模型。
3.選擇型號(hào)
現(xiàn)在我們已經(jīng)整理了您的數(shù)據(jù)并仔細(xì)查看了您擁有的數(shù)據(jù),下一步是讓您選擇一個(gè)模型,以便您可以開(kāi)始處理該數(shù)據(jù)并朝著您的最終目標(biāo)努力。
在選擇模型時(shí)有多種不同的選擇,因此最好的辦法是研究現(xiàn)有的模型并找到能夠就您的需求提供最佳建議的開(kāi)發(fā)人員。
4.訓(xùn)練模型
現(xiàn)在你已經(jīng)選擇了你的模型,下一步是開(kāi)始開(kāi)發(fā)它并向它提供你擁有的數(shù)據(jù),這樣你就可以開(kāi)始訓(xùn)練它了。
當(dāng)我們談?wù)撚?xùn)練模型時(shí),那是因?yàn)闄C(jī)器學(xué)習(xí)算法通過(guò)自學(xué)來(lái)工作。
您無(wú)需告訴他們狗和貓長(zhǎng)什么樣,而是向他們提供一堆關(guān)于狗和貓的標(biāo)記數(shù)據(jù),然后訓(xùn)練模型得出自己的結(jié)論。
5. 模型參數(shù)調(diào)優(yōu)
通過(guò)測(cè)試和評(píng)估,您現(xiàn)在應(yīng)該清楚需要對(duì)模型進(jìn)行哪些更改以對(duì)其進(jìn)行微調(diào)并確保它更好地幫助您實(shí)現(xiàn)目標(biāo)。
6. 模型評(píng)估與測(cè)試
一旦您的模型根據(jù)您提供的數(shù)據(jù)進(jìn)行了自我訓(xùn)練,您就可以開(kāi)始測(cè)試它并評(píng)估它是否實(shí)現(xiàn)了您為其設(shè)定的目標(biāo)。
測(cè)試和評(píng)估齊頭并進(jìn),因?yàn)闇y(cè)試將是您評(píng)估的關(guān)鍵部分,并將幫助您確定事情是否有效。測(cè)試完成后,您就可以進(jìn)行下一步了。
你可以一遍又一遍地重復(fù)第五步和第六步,一個(gè)接一個(gè),直到你準(zhǔn)備好進(jìn)入第七步也是最后一步。
7.模型部署和預(yù)測(cè)
現(xiàn)在您已經(jīng)完成了評(píng)估、測(cè)試和微調(diào),您的模型已準(zhǔn)備好進(jìn)行實(shí)時(shí)部署。
一旦您部署了它,您就可以開(kāi)始預(yù)測(cè)并使用您有權(quán)訪問(wèn)的數(shù)據(jù)進(jìn)行預(yù)測(cè),并且您將能夠做出相應(yīng)的決策。
您也可以隨時(shí)返回并進(jìn)行更多微調(diào)或添加新的數(shù)據(jù)源,所以不要認(rèn)為構(gòu)建已經(jīng)結(jié)束并且僅僅因?yàn)樗菍?shí)時(shí)的就完成了。
如果機(jī)器學(xué)習(xí)向我們展示了一件事,那就是總有改進(jìn)的余地。
結(jié)論
既然您知道如何開(kāi)始使用機(jī)器學(xué)習(xí),那么您就可以通過(guò)在您的公司實(shí)施機(jī)器學(xué)習(xí)來(lái)將事情推進(jìn)到下一步。
- 上一篇
如何為物聯(lián)網(wǎng)設(shè)備供電?
未來(lái),我們的數(shù)字系統(tǒng)的電力需求可能會(huì)更加優(yōu)化和靈活。讓我們看看今天如何為物聯(lián)網(wǎng)設(shè)備供電。
- 下一篇
全球物聯(lián)網(wǎng)市場(chǎng)追蹤報(bào)告:2022年規(guī)模2010億美元,2023年將增長(zhǎng)19%
報(bào)告稱(chēng),2022年全球企業(yè)物聯(lián)網(wǎng)總支出增長(zhǎng)21.5%至2010億美元,預(yù)計(jì)2023年全球物聯(lián)網(wǎng)市場(chǎng)規(guī)模將增長(zhǎng)19%。