釋放非結(jié)構(gòu)化數(shù)據(jù)力量的八個(gè)技巧
充分利用企業(yè)數(shù)據(jù)是當(dāng)今IT領(lǐng)導(dǎo)者最關(guān)心的問(wèn)題。隨著企業(yè)尋求在業(yè)務(wù)決策中更多地以數(shù)據(jù)為導(dǎo)向,IT領(lǐng)導(dǎo)者必須制定數(shù)據(jù)戰(zhàn)略,以便從數(shù)據(jù)中創(chuàng)造價(jià)值,無(wú)論數(shù)據(jù)位于何處或以何種形式存在。
對(duì)于許多企業(yè)來(lái)說(shuō),文本、視頻、音頻、社交媒體、圖像、傳感器和其他格式的非結(jié)構(gòu)化數(shù)據(jù)仍然是難以捉摸和未開發(fā)的。根據(jù)Foundry的研究,雖然行業(yè)研究估計(jì)高達(dá)90%的企業(yè)數(shù)據(jù)是非結(jié)構(gòu)化的,但61%的IT領(lǐng)導(dǎo)者表示,管理非結(jié)構(gòu)化數(shù)據(jù)對(duì)其企業(yè)來(lái)說(shuō)是一個(gè)問(wèn)題,另有24%的人甚至不將非結(jié)構(gòu)化數(shù)據(jù)包括在他們的數(shù)據(jù)和分析候選列表中。
非結(jié)構(gòu)化數(shù)據(jù)資源對(duì)于獲得業(yè)務(wù)洞察和解決問(wèn)題非常有價(jià)值,關(guān)鍵是弄清楚如何創(chuàng)造這種價(jià)值。熟練利用這些海量信息資源的企業(yè)可以在向關(guān)鍵業(yè)務(wù)流程提供可操作的洞察方面獲得顯著優(yōu)勢(shì)。
以下是當(dāng)今創(chuàng)造性企業(yè)如何將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)價(jià)值,以及如何將非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用于你的企業(yè)的一些提示。
加強(qiáng)創(chuàng)意過(guò)程
移動(dòng)游戲開發(fā)公司RetroStyle Games的數(shù)據(jù)分析師伊萬(wàn)·科諾瓦爾表示,在該公司,非結(jié)構(gòu)化數(shù)據(jù)已被證明是一座“金礦”,直接為業(yè)務(wù)增長(zhǎng)和游戲改進(jìn)做出了貢獻(xiàn)。
在RetroSyle Games使用非結(jié)構(gòu)化數(shù)據(jù)的眾多方式中,可能影響最大的是概念藝術(shù)收集和音頻數(shù)據(jù)。
“我們的游戲開發(fā)者的創(chuàng)作過(guò)程往往始于素描、意境板或概念藝術(shù),”科諾瓦爾說(shuō)“這些作品雖然不是結(jié)構(gòu)化的,但抓住了我們想要在游戲中表達(dá)的精髓。為了確保這些作品不會(huì)在其他作品中丟失,并在未來(lái)制作游戲續(xù)集時(shí)很容易找到,我們使用了先進(jìn)的圖像識(shí)別工具。”
這些工具對(duì)藝術(shù)品的各種元素進(jìn)行分類和標(biāo)記,無(wú)論是角色、風(fēng)景還是其他元素??浦Z瓦爾說(shuō):“這使我們的藝術(shù)家和開發(fā)人員能夠快速找到相關(guān)的藝術(shù)品,從而提供設(shè)計(jì)一致性,并加快開發(fā)進(jìn)程。此外,這個(gè)系統(tǒng)還允許我們存儲(chǔ)有關(guān)公司藝術(shù)品發(fā)展的信息,這在培訓(xùn)新員工時(shí)非常有用。”
關(guān)于音頻數(shù)據(jù),語(yǔ)音表演在玩家在游戲世界中的體驗(yàn)中扮演著關(guān)鍵角色,科諾瓦爾說(shuō)。“我們從游戲中的對(duì)話、背景聲音和玩家語(yǔ)音聊天中收集了大量數(shù)據(jù),”他說(shuō),“使用語(yǔ)音識(shí)別和聲音分析,我們可以提取情緒和情緒等細(xì)微差別。”
例如,如果某個(gè)對(duì)話框?qū)е峦婕沂冀K興奮地輸入語(yǔ)音聊天,開發(fā)人員會(huì)注意到這一點(diǎn),類似地,識(shí)別并處理與環(huán)境不匹配的異常情況,例如背景噪音。
科諾瓦爾說(shuō):“從這些音頻數(shù)據(jù)中得出的見解直接有助于改善游戲的音頻體驗(yàn),確保玩家不斷地在游戲中投入情感,并與環(huán)境互動(dòng)。”
科諾瓦爾說(shuō),游戲是動(dòng)態(tài)的,它們產(chǎn)生的數(shù)據(jù)也是動(dòng)態(tài)的。游戲中聊天情緒分析等功能需要實(shí)時(shí)處理,以過(guò)濾玩家的不當(dāng)行為。“我們已經(jīng)通過(guò)利用像阿帕奇·卡夫卡這樣的流處理框架解決了這個(gè)問(wèn)題,”他說(shuō),“這使得我們的游戲主持人可以對(duì)任何新出現(xiàn)的模式和問(wèn)題做出實(shí)時(shí)回應(yīng)。”
科諾瓦爾說(shuō),隨著游戲的每一次發(fā)布和更新,處理的非結(jié)構(gòu)化數(shù)據(jù)量都會(huì)呈指數(shù)級(jí)增長(zhǎng)。“海量的數(shù)據(jù)在存儲(chǔ)和高效處理方面構(gòu)成了嚴(yán)峻的挑戰(zhàn)。”他說(shuō)。
為了解決這個(gè)問(wèn)題,RetroStyle Games投資了數(shù)據(jù)湖??浦Z瓦爾說(shuō):“這不僅使我們能夠存儲(chǔ)大量的非結(jié)構(gòu)化數(shù)據(jù),還能高效地對(duì)其進(jìn)行查詢和分析,為我們的數(shù)據(jù)科學(xué)家和開發(fā)人員提供對(duì)所需信息的即時(shí)訪問(wèn)。”
為GenAI提供動(dòng)力
分析和執(zhí)行總監(jiān)杰西·哈里奧特表示,員工識(shí)別和體驗(yàn)軟件提供商WorkHuman正在其基于云的平臺(tái)上以多種方式利用非結(jié)構(gòu)化數(shù)據(jù)。
哈里奧特說(shuō):“非結(jié)構(gòu)化數(shù)據(jù)是最普遍的數(shù)據(jù)形式,但也是最難有效使用的。”
工作人員云包含來(lái)自世界各地員工的數(shù)百萬(wàn)條認(rèn)可信息,分享對(duì)同事的積極反饋。
哈里奧特說(shuō):“他們用自己的話做這件事,所以每個(gè)識(shí)別時(shí)刻都是獨(dú)一無(wú)二的。我們使用這些數(shù)據(jù)來(lái)支持人工智能模型,幫助公司更好地定義員工如何在他們的企業(yè)中協(xié)作,哪些話題在消息中出現(xiàn)得最頻繁,以及整個(gè)企業(yè)的表彰獎(jiǎng)勵(lì)是否公平。”
該公司還使用大型語(yǔ)言模型來(lái)總結(jié)隨著時(shí)間的推移的識(shí)別趨勢(shì),并為有效的識(shí)別消息建議語(yǔ)言。
哈里奧特說(shuō):“我特別自豪的一項(xiàng)倡議是我們的工具包含顧問(wèn),這是一個(gè)基于即時(shí)人工智能的指導(dǎo)工具,它在將獎(jiǎng)項(xiàng)語(yǔ)言發(fā)送給獲獎(jiǎng)?wù)咧埃R(shí)別并建議對(duì)無(wú)意識(shí)偏見的糾正。”
從非結(jié)構(gòu)化數(shù)據(jù)中獲取價(jià)值的最大挑戰(zhàn)之一是,對(duì)于企業(yè)關(guān)注的業(yè)務(wù)用例,對(duì)可靠有效的培訓(xùn)數(shù)據(jù)的訪問(wèn)受到限制。
“你可以擁有大量的非結(jié)構(gòu)化數(shù)據(jù),但如果沒(méi)有有效的訓(xùn)練數(shù)據(jù)來(lái)創(chuàng)建和驗(yàn)證模型,進(jìn)度和質(zhì)量將受到影響,”哈里奧特說(shuō),“利用LLM當(dāng)然可以在這方面有所幫助,但現(xiàn)有LLM無(wú)法有效地捕獲許多業(yè)務(wù)用例。”
此外,哈里奧特說(shuō):“在LLM中,培訓(xùn)數(shù)據(jù)中仍然可能存在偏見的問(wèn)題。”WorkHuman有一個(gè)語(yǔ)言團(tuán)隊(duì),負(fù)責(zé)數(shù)據(jù)注釋、增強(qiáng)和驗(yàn)證,以處理其中的一些問(wèn)題。“我們還與我們的大型跨國(guó)客戶合作,以確保模型產(chǎn)生有意義和有用的結(jié)果。”哈里奧特說(shuō)。
將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為價(jià)值的一些提示
Harriott、Konoval和其他數(shù)據(jù)專家就如何在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí)確保成功提供了建議。
將計(jì)劃與業(yè)務(wù)成果聯(lián)系起來(lái)。Harriott說(shuō),IT領(lǐng)導(dǎo)者應(yīng)該確保利用非結(jié)構(gòu)化數(shù)據(jù)的計(jì)劃與業(yè)務(wù)需求緊密結(jié)合,并得到高管的支持。
哈里奧特說(shuō):“通常情況下,一個(gè)團(tuán)隊(duì)可能對(duì)非結(jié)構(gòu)化數(shù)據(jù)有一個(gè)創(chuàng)造性的用例,但與關(guān)鍵業(yè)務(wù)結(jié)果的聯(lián)系對(duì)其他人來(lái)說(shuō)并不明顯,可能會(huì)失去支持。領(lǐng)導(dǎo)者有責(zé)任讓企業(yè)了解為什么用例很重要,以及它如何直接或間接地推動(dòng)業(yè)務(wù)利益。”
認(rèn)清這段旅程。此外,數(shù)據(jù)領(lǐng)導(dǎo)者應(yīng)該在達(dá)到計(jì)劃里程碑時(shí)設(shè)置并慶祝它們,特別是考慮到使用非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)造價(jià)值的挑戰(zhàn)是多么困難。
哈里奧特說(shuō):“讓非結(jié)構(gòu)化數(shù)據(jù)具有可操作性可能需要比企業(yè)預(yù)期更多的時(shí)間和精力。通過(guò)承認(rèn)里程碑,領(lǐng)導(dǎo)者讓其他利益相關(guān)者了解正在取得的進(jìn)展,并確保他們的團(tuán)隊(duì)成員對(duì)他們?yōu)槭狗墙Y(jié)構(gòu)化數(shù)據(jù)可操作所做的努力感到贊賞。”
質(zhì)量是第一要?jiǎng)?wù),成功的另一個(gè)關(guān)鍵是確定數(shù)據(jù)質(zhì)量的優(yōu)先順序。
科諾瓦爾說(shuō):“諺語(yǔ)‘垃圾進(jìn)來(lái),垃圾出來(lái)’再合適不過(guò)了。 “在沒(méi)有確保數(shù)據(jù)質(zhì)量的情況下進(jìn)行分析可能會(huì)適得其反,我們一直采取這樣的做法:清理數(shù)據(jù),刪除不必要的數(shù)據(jù),并確保其符合質(zhì)量標(biāo)準(zhǔn)。”
科諾瓦爾說(shuō),在游戲行業(yè),“錯(cuò)誤的決策可能會(huì)導(dǎo)致昂貴的功能開發(fā),玩家可能不會(huì)與之產(chǎn)生共鳴,更糟糕的是,錯(cuò)誤可能會(huì)玷污我們的聲譽(yù)。我們嚴(yán)格的數(shù)據(jù)治理框架確保了我們的分析基礎(chǔ)堅(jiān)如磐石。”
將可行動(dòng)的與信息性的分開。確定業(yè)務(wù)用戶可以對(duì)其采取行動(dòng)的數(shù)據(jù)的優(yōu)先順序也至關(guān)重要。主機(jī)托管和數(shù)據(jù)服務(wù)提供商數(shù)據(jù)庫(kù)的首席運(yùn)營(yíng)官喬·米納里克表示:“重要的是數(shù)據(jù)量,并能夠分析哪些是可操作的,哪些是有用的。”
為了強(qiáng)調(diào)這一點(diǎn)的重要性,米納里克舉了一個(gè)使用非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行系統(tǒng)監(jiān)控的例子。他說(shuō):“必須優(yōu)先考慮和迅速解決可行的方面。由于系統(tǒng)的許多方面都受到監(jiān)視,因此單個(gè)問(wèn)題可能會(huì)從下游設(shè)備生成警報(bào)和信息,從而導(dǎo)致需要篩選過(guò)多的警報(bào)、警報(bào)和信息,以確定真正需要解決的單個(gè)方面。”
充分利用人工智能。繼續(xù)他的例子,米納里克指出了人工智能和機(jī)器學(xué)習(xí)在分析隨時(shí)間推移的非結(jié)構(gòu)化數(shù)據(jù)流方面所發(fā)揮的寶貴作用。“它可以幫助你建立系統(tǒng)關(guān)聯(lián),”他說(shuō),“這讓你可以放下雜音,立即解決問(wèn)題的根源。”
例如,企業(yè)可以部署命名實(shí)體識(shí)別(NER),這是自然語(yǔ)言處理(NLP)的一個(gè)組件,它側(cè)重于識(shí)別非結(jié)構(gòu)化文本中的命名實(shí)體并對(duì)其進(jìn)行分類,并使用諸如“Person”、“Organization”或“Location”等標(biāo)簽。
米納里克說(shuō):“實(shí)際上,實(shí)體識(shí)別在眾多應(yīng)用中扮演著至關(guān)重要的角色。”其中包括索引和企業(yè)內(nèi)容的信息檢索系統(tǒng)、在文本中定位答案的問(wèn)答系統(tǒng),以及根據(jù)識(shí)別的實(shí)體對(duì)內(nèi)容進(jìn)行個(gè)性化的內(nèi)容推薦引擎。
“通過(guò)識(shí)別和分類命名實(shí)體,NER使數(shù)據(jù)分析師和系統(tǒng)工程師能夠從收集的海量數(shù)據(jù)中獲得有價(jià)值的見解。”米納里克說(shuō)。
通過(guò)可視化確保價(jià)值。米納里克說(shuō),使非結(jié)構(gòu)化數(shù)據(jù)可用的過(guò)程不會(huì)隨著分析而結(jié)束,它的最終結(jié)果是報(bào)告和傳達(dá)調(diào)查結(jié)果。
米納里克說(shuō):“報(bào)告通常包括對(duì)關(guān)鍵發(fā)現(xiàn)、方法和分析的影響的結(jié)構(gòu)化陳述。可視化,如圖表、圖形和儀表板,有助于以可理解的格式傳達(dá)復(fù)雜的數(shù)據(jù)。可視化表示不僅有助于理解,還使利益相關(guān)者更容易識(shí)別趨勢(shì)、離群值和關(guān)鍵洞察力,確保及時(shí)做出數(shù)據(jù)驅(qū)動(dòng)的決策。”
邊走邊監(jiān)控。米納里克說(shuō),另一個(gè)有時(shí)被忽視的關(guān)鍵做法是需要持續(xù)監(jiān)測(cè)和維護(hù)。他說(shuō):“現(xiàn)實(shí)生活中的數(shù)據(jù)是動(dòng)態(tài)的、不斷演變的。持續(xù)監(jiān)控和維護(hù)對(duì)于確保數(shù)據(jù)在一段時(shí)間內(nèi)保持可用至關(guān)重要。”
米納里克說(shuō),關(guān)鍵是定期清理和進(jìn)行質(zhì)量檢查,以保持?jǐn)?shù)據(jù)的準(zhǔn)確性和可靠性。必須及時(shí)識(shí)別和糾正數(shù)據(jù)異常、不一致和重復(fù),以防止歪曲或錯(cuò)誤的分析。
保持團(tuán)隊(duì)技能的敏銳性。最后,投資于正確技能的開發(fā)是一個(gè)很好的實(shí)踐——考慮到底層工具的不斷發(fā)展,這一努力必須持續(xù)下去。
“數(shù)據(jù)分析的世界是動(dòng)態(tài)的,尤其是圍繞非結(jié)構(gòu)化數(shù)據(jù),”科諾瓦爾說(shuō),“最小的優(yōu)勢(shì),比如一支精通最新圖像識(shí)別技術(shù)和分析概念藝術(shù)的團(tuán)隊(duì),可能是一款游戲成功或失敗的區(qū)別。我們已經(jīng)看到了先進(jìn)技術(shù)的結(jié)果如何影響了我們游戲的故事講述和設(shè)計(jì),從而產(chǎn)生了積極的反饋,增加了玩家的參與度。”
- 上一篇
如何看待大數(shù)據(jù)云原生發(fā)展之路
作為一個(gè)大數(shù)據(jù)從業(yè)者,在公有云和容器化發(fā)展的大趨勢(shì)下,我們關(guān)注的重點(diǎn)已經(jīng)不僅僅是大模型,大數(shù)據(jù)在未來(lái)幾年發(fā)展的重點(diǎn)方向是什么,大數(shù)據(jù)的技術(shù)演進(jìn)路線會(huì)如何。
- 下一篇
避免云應(yīng)用遷移陷入困境的方法
一旦企業(yè)承諾在云中運(yùn)行業(yè)務(wù)關(guān)鍵型應(yīng)用程序,它們很少轉(zhuǎn)向其他提供商,一個(gè)很大的原因是:他們經(jīng)常被鎖定在他們選擇的供應(yīng)商的生態(tài)系統(tǒng)中。Gartner云服務(wù)和技術(shù)副總裁希德·納格表示,遷移成本實(shí)在太高了,他說(shuō):“但如果你的規(guī)劃工作做得很好,你就不會(huì)到處移動(dòng)你的申請(qǐng)。”
相關(guān)資訊
- 大數(shù)據(jù)風(fēng)控技術(shù)有什么?
- 網(wǎng)絡(luò)效應(yīng)如何讓人工智能變得更聰
- 用戶路徑數(shù)據(jù)分析與挖掘
- 為什么您的組織需要擁抱數(shù)據(jù)彈性
- 物聯(lián)網(wǎng)如何推動(dòng)房地產(chǎn)領(lǐng)域的智能
- 人工智能對(duì)旅游和酒店業(yè)非線性客
- 人工智能在太空探索和人居工程中
- 如何在不同的云基礎(chǔ)架構(gòu)中確保一
- 預(yù)覽數(shù)字前沿:2024年業(yè)務(wù)轉(zhuǎn)型的主
- 電信運(yùn)營(yíng)商將如何在物聯(lián)網(wǎng)服務(wù)中